La inferencia es cuando un modelo de IA aplica lo que aprendio durante el entrenamiento a nuevas entradas. Cuando le haces una pregunta a ChatGPT, el modelo realiza inferencia para generar una respuesta. La velocidad y el costo de inferencia son metricas clave para los sistemas de IA en produccion. Tecnicas como la cuantizacion, el batching y la decodificacion especulativa optimizan el rendimiento de inferencia.








