IA incarnée : automatisation de la conception d'architectures d'agents
Une équipe de chercheurs a publié fin juin 2026 (arXiv:2606.30111) une étude sur l'automatisation de la conception d'architectures d'agents incarnés. Ils introduisent AgentCanvas, un environnement d'exécution à graphe typé qui représente les pipelines de perception, mémoire, planification et action comme des programmes nœud-à-fil éditables, et KDLoop, une procédure de recherche par agent codeur alternant proposition, critique, expérimentation et distillation, avec des réflexions déclenchées en cas de stagnation. L'évaluation suit une matrice 3x4 : trois variantes d'Agent Architecture Search (AAS) testées sur quatre tâches incarnées couvrant la navigation vision-langage, la réponse à des questions situées (embodied QA) et la manipulation conditionnée par le langage. Les résultats montrent des gains directionnels de taux de succès, mais un candidat apparemment performant a été écarté après détection d'une fuite de données (leak-bearing).
L'intérêt de ces travaux réside dans le transfert, pour la première fois de façon systématique, des méthodes AAS -- jusqu'ici cantonnées aux agents textuels -- vers des agents perceptifs en simulation. Pour les architectes de systèmes cognitifs, cela ouvre la possibilité d'automatiser partiellement le choix de stockage de l'information, du traitement des observations et de l'enchaînement des appels de modèles, tâche jusqu'ici confiée à l'intuition des chercheurs. Les auteurs identifient cependant trois contraintes propres à l'incarné, absentes dans les benchmarks textuels : le bruit de rollout masque les signaux d'optimisation, la recherche se piège dans des bassins d'édition locaux, et l'attribution de crédit épisodique reste partielle même avec des journaux détaillés. La détection d'un candidat corrompu par fuite de données illustre par ailleurs un risque d'évaluation spécifique aux environnements simulés, où l'agent peut exploiter des artefacts de la simulation plutôt que résoudre la tâche réelle.
Ces travaux s'inscrivent dans la mouvance des méthodes de méta-design d'architectures cognitives, appliquées ici à la couche système plutôt qu'aux poids des modèles. Les benchmarks dominants en navigation vision-langage (R2R, ALFRED) restent maîtrisés par des architectures manuelles, et des frameworks comme LangGraph ou AutoGen couvrent l'espace des agents textuels sans gestion de rollout simulé. Aucun acteur européen ou français n'est impliqué dans cette publication. Les prochaines étapes identifiées par les auteurs incluent l'extension à des environnements physiques réels et le renforcement de KDLoop face au bruit de rollout, deux verrous explicites avant toute applicabilité industrielle.
Dans nos dossiers



