
IA incarnée : de la perception à la prise de décision
Une équipe de recherche a déposé sur arXiv (référence 2605.25813, mai 2026) EQA-Decision, un benchmark et dataset à grande échelle pour évaluer les capacités de raisonnement incarné des modèles vision-langage (VLM). Le corpus contient plus de quatre millions de paires question-réponse annotées hiérarchiquement, structurées autour de quatre dimensions : construction de scène statique, compréhension spatiale, raisonnement sur la dynamique des tâches, et décision instantanée. Les chercheurs publient également RoboDecision, un modèle baseline entraîné sur ce benchmark, conçu pour évaluer conjointement la perception, le raisonnement et la prise de décision au niveau de l'action dans des environnements incarnés simulés.
Le problème adressé est structurel : les datasets existants pour l'EQA (Embodied Question Answering) sont fragmentés, chacun couvrant un sous-ensemble limité de compétences, compréhension spatiale d'un côté, raisonnement procédural de l'autre, sans cadre unifié permettant une évaluation complète. Pour les équipes qui développent des architectures VLA (vision-language-action) destinées à la manipulation ou à la navigation autonome, l'absence d'un tel benchmark rend la comparaison objective des approches difficile. EQA-Decision propose un cadre capable de tester la chaîne complète perception-raisonnement-action, plus proche des conditions réelles que les benchmarks purement perceptifs ou purement langagiers.
L'EQA est un champ actif depuis les travaux fondateurs de Das et al. (Georgia Tech, 2018), où un agent naviguait dans un environnement 3D pour répondre à des questions visuelles. Depuis, plusieurs benchmarks ont émergé, OpenEQA de Meta, SQA3D, EmbodiedScan, chacun avec un périmètre étroit. EQA-Decision se positionne comme une synthèse unificatrice, avec une ambition d'échelle (4 millions de paires) comparable aux grands datasets de VQA généralistes. Il convient de noter qu'il s'agit d'un preprint arXiv, non encore soumis à peer review. RoboDecision sert de baseline de référence, mais les résultats ne correspondent pas à un déploiement sur robot physique : le gap sim-to-real reste entièrement ouvert.
Dans nos dossiers




