
Les nouveaux hyperagents de Meta AI ne font pas que résoudre des tâches : ils réécrivent les règles de leur apprentissage
Meta, en collaboration avec des chercheurs de l'Université de Colombie-Britannique, du Vector Institute, de l'Université d'Édimbourg, de NYU et des Meta Superintelligence Labs, vient de franchir une étape majeure dans la quête de l'auto-amélioration récursive des IA. Leur nouveau framework, les Hyperagents, ne se contente plus d'optimiser les performances d'un agent sur une tâche donnée — il permet à l'agent de réécrire les mécanismes mêmes qui gouvernent son propre apprentissage. C'est ce que les chercheurs appellent la modification métacognitive.
Le verrou que ce travail lève est fondamental. Les systèmes précédents, dont le Darwin Gödel Machine (DGM), souffraient d'un double défaut : leur méta-agent — la couche chargée d'améliorer l'agent principal — était fixe, artisanal, et supposait un alignement entre la tâche à résoudre et la capacité de modification du code. Ce paradigme fonctionnait pour le code, mais s'effondrait dès qu'on sortait de ce domaine. En poésie ou en robotique, savoir mieux écrire des vers n'aide pas à analyser et modifier du code source. Les Hyperagents suppriment cette contrainte en fusionnant agent de tâche et méta-agent dans un seul programme entièrement modifiable, y compris la procédure d'amélioration elle-même.
Les résultats expérimentaux sont nets. En conception de récompenses pour la robotique, le score du système est passé de 0,060 à 0,372 — l'agent ayant découvert de manière autonome qu'un robot quadrupède maximise mieux sa hauteur en sautant qu'en se tenant simplement debout, évitant ainsi un optimum local évident. En évaluation d'articles scientifiques, la performance est passée de 0,0 à 0,710, l'agent construisant de lui-même des pipelines d'évaluation multi-étapes avec listes de critères explicites — bien au-delà de simples instructions comportementales. Ces gains ont été observés également en mathématiques olympiques et en tâches de codage.
La découverte la plus structurante pour la recherche en IA est peut-être la transférabilité des améliorations méta-niveau : les capacités d'auto-modification acquises dans un domaine semblent généralisables à d'autres, rompant avec l'hypothèse d'un alignement domaine-tâche. Cela ouvre la voie à des systèmes capables d'apprendre à apprendre de façon véritablement générale — une perspective qui rapproche concrètement le domaine du Graal théorique que représente l'auto-amélioration ouverte et récursive.
L'Université d'Édimbourg figure parmi les co-auteurs, ce qui illustre la contribution européenne à cette avancée, mais l'impact opérationnel direct sur la France ou l'UE reste inexistant à ce stade.



