L'inference est le moment ou un modele IA applique ce qu'il a appris a de nouvelles entrees. Quand vous posez une question a ChatGPT, le modele effectue une inference pour generer une reponse. La vitesse et le cout d'inference sont des metriques cles pour les systemes IA en production.








