Les divisions de recherche en IA de Google, y compris DeepMind, repoussent les limites de l'évaluation et du développement de l'intelligence artificielle. Des découvertes récentes soulignent des problèmes critiques dans les pratiques actuelles de benchmarking de l'IA et présentent des avancées dans la capacité de l'IA à s'auto-améliorer pour des algorithmes stratégiques complexes. Ces développements surviennent alors que le domaine est confronté à de nouveaux défis, tels que le potentiel de l'IA à influencer la prise de décision humaine et la quête continue d'outils de développement d'IA plus autonomes.
Une étude significative issue de Google AI Research met en évidence un défaut fondamental dans la manière dont les modèles d'IA sont actuellement évalués. Les benchmarks standards s'appuient souvent sur un petit nombre d'évaluateurs humains (typiquement trois à cinq) pour étiqueter les données et évaluer les sorties de l'IA. Cependant, cette étude de Google, rapportée par The Decoder, révèle que ces perspectives humaines limitées ignorent systématiquement les désaccords et les nuances inhérents au jugement humain. Cet oubli peut conduire à des évaluations biaisées et à une compréhension incomplète des véritables capacités ou limites d'une IA. La recherche souligne que l'allocation stratégique des budgets d'annotation, et pas seulement le budget total, est cruciale pour obtenir des résultats de benchmark plus fiables et représentatifs. Cela a des implications directes pour les développeurs d'outils d'IA, des grands modèles linguistiques comme le Gemini de Google aux applications d'IA spécialisées, les obligeant à réévaluer leurs méthodologies de test pour assurer une validation robuste des performances. Ce défi dans l'évaluation de l'IA fait écho à des préoccupations plus larges concernant l'influence de l'IA, comme le souligne une recherche montrant que les chatbots IA sycophantes peuvent tromper même les penseurs rationnels idéaux.
Parallèlement, Google DeepMind a démontré un bond remarquable dans l'auto-amélioration de l'IA, en particulier dans le domaine de la théorie des jeux. Comme détaillé par MarkTechPost, les chercheurs de DeepMind ont permis à un grand modèle linguistique (LLM) d'affiner itérativement ses propres algorithmes pour l'apprentissage par renforcement multi-agents (MARL) dans des jeux à information imparfaite, comme le poker. Traditionnellement, la conception de ces algorithmes complexes implique une itération manuelle intensive par des experts humains. Cependant, le LLM a été capable d'identifier des schémas de pondération et des facteurs d'actualisation optimaux, développant finalement des algorithmes qui ont surpassé ceux créés par des experts humains. Cette avancée suggère que les outils d'IA pourraient devenir beaucoup plus autonomes dans leur développement et leur optimisation. Cela s'aligne sur la tendance générale des systèmes d'IA à être développés pour s'ingénierer et s'optimiser eux-mêmes, comme avec des bibliothèques telles que ‘AutoAgent’, qui permet à une IA d'ingénierer et d'optimiser son propre système d'agents. Ces avancées pourraient accélérer les progrès dans les domaines nécessitant une prise de décision stratégique complexe, des systèmes autonomes à la modélisation économique.
Ces deux axes de recherche de Google AI et DeepMind signalent collectivement un moment charnière. La recherche de méthodes d'évaluation de l'IA plus précises, associée à la capacité croissante de l'IA à s'auto-optimiser, est susceptible de remodeler le paysage concurrentiel. Les développeurs d'outils d'IA devront adopter des stratégies de benchmarking plus sophistiquées tout en explorant comment l'IA peut être utilisée pour accélérer la conception et le raffinement d'autres systèmes d'IA. Cela inclut les efforts visant à améliorer les capacités de raisonnement de l'IA, tels que la construction de HopChain par l'équipe Qwen d'Alibaba pour corriger les défaillances des modèles de vision par IA lors d'un raisonnement en plusieurs étapes, et le développement de frameworks comme AutoKernel de RightNow AI pour l'optimisation des noyaux GPU. En fin de compte, cela conduit à des cycles d'innovation plus rapides et à des outils d'IA plus performants, impactant diverses applications, de la prédiction du vieillissement cellulaire avec MaxToki aux pipelines de suppression d'objets vidéo comme VOID de Netflix utilisant CogVideoX.
Tendances, nouveaux outils et analyses exclusives, chaque semaine.
AlphaDev
Système d'IA découvrant des algorithmes de tri plus rapides.
HopChain
Synthétise des données de raisonnement multi-sauts vision-langage pour l'entraînement avancé d'IA.
AutoKernel
Framework basé sur l'IA pour la génération et l'optimisation automatisées de noyaux CUDA.
AutoAgent
Framework d'agent LLM sans code pour créer et déployer des agents IA avec le langage naturel.
MaxToki
Outil MaxToki