Les divisions de recherche en IA de Google, y compris DeepMind, repoussent les limites de l'évaluation et du développement de l'intelligence artificielle. Des découvertes récentes soulignent des problèmes critiques dans les pratiques actuelles de benchmarking de l'IA et présentent des avancées dans la capacité de l'IA à s'auto-améliorer pour des algorithmes stratégiques complexes.
Une étude significative issue de Google AI Research met en évidence un défaut fondamental dans la manière dont les modèles d'IA sont actuellement évalués. Les benchmarks standards s'appuient souvent sur un petit nombre d'évaluateurs humains (typiquement trois à cinq) pour étiqueter les données et évaluer les sorties de l'IA. Cependant, cette étude de Google, rapportée par The Decoder, révèle que ces perspectives humaines limitées ignorent systématiquement les désaccords et les nuances inhérents au jugement humain. Cet oubli peut conduire à des évaluations biaisées et à une compréhension incomplète des véritables capacités ou limites d'une IA. La recherche souligne que l'allocation stratégique des budgets d'annotation, et pas seulement le budget total, est cruciale pour obtenir des résultats de benchmark plus fiables et représentatifs. Cela a des implications directes pour les développeurs d'outils d'IA, des grands modèles linguistiques comme le Gemini de Google aux applications d'IA spécialisées, les obligeant à réévaluer leurs méthodologies de test pour assurer une validation robuste des performances.
Parallèlement, Google DeepMind a démontré un bond remarquable dans l'auto-amélioration de l'IA, en particulier dans le domaine de la théorie des jeux. Comme détaillé par MarkTechPost, les chercheurs de DeepMind ont permis à un grand modèle linguistique (LLM) d'affiner itérativement ses propres algorithmes pour l'apprentissage par renforcement multi-agents (MARL) dans des jeux à information imparfaite, comme le poker. Traditionnellement, la conception de ces algorithmes complexes implique une itération manuelle intensive par des experts humains. Cependant, le LLM a été capable d'identifier des schémas de pondération et des facteurs d'actualisation optimaux, développant finalement des algorithmes qui ont surpassé ceux créés par des experts humains. Cette avancée suggère que les outils d'IA pourraient devenir beaucoup plus autonomes dans leur développement et leur optimisation, accélérant potentiellement les progrès dans les domaines nécessitant une prise de décision stratégique complexe, des systèmes autonomes à la modélisation économique.
Ces deux axes de recherche de Google AI et DeepMind signalent collectivement un moment charnière. La recherche de méthodes d'évaluation de l'IA plus précises, associée à la capacité croissante de l'IA à s'auto-optimiser, est susceptible de remodeler le paysage concurrentiel. Les développeurs d'outils d'IA devront adopter des stratégies de benchmarking plus sophistiquées tout en explorant comment l'IA peut être utilisée pour accélérer la conception et le raffinement d'autres systèmes d'IA, conduisant à des cycles d'innovation plus rapides et à des outils d'IA plus performants.
Tendances, nouveaux outils et analyses exclusives, chaque semaine.