
ESI-Bench : vers une intelligence spatiale incarnée qui boucle la perception et l'action
Une équipe de chercheurs a publié ESI-Bench, un benchmark dédié à l'intelligence spatiale incarnée (embodied spatial intelligence), conçu pour évaluer la capacité des agents artificiels à fermer la boucle perception-action. Le benchmark, construit sur le simulateur OmniGibson, couvre 10 catégories de tâches et 29 sous-catégories, ancrées dans les systèmes de connaissances fondamentales de la psychologue Elizabeth Spelke (objets, agents, nombre, géométrie). Contrairement aux benchmarks classiques qui fournissent des observations "oracle" figées, ESI-Bench exige que l'agent décide lui-même quelles capacités mobiliser, perception, locomotion, manipulation, et dans quel ordre, pour accumuler activement les informations pertinentes à la tâche.
Les expériences menées sur les modèles multimodaux de pointe (MLLMs) révèlent un écart significatif entre exploration active et observation passive : les agents qui choisissent leurs points de vue surpassent nettement leurs homologues passifs. Fait notable, ces agents développent spontanément des stratégies spatiales émergentes sans instruction explicite. En revanche, l'acquisition multi-vues aléatoire dégrade souvent les performances en ajoutant du bruit plutôt que du signal, malgré un volume d'images bien supérieur. L'étude identifie une cause principale d'échec qu'elle nomme "action blindness" : de mauvais choix d'action produisent de mauvaises observations, qui induisent à leur tour des erreurs en cascade. Autre résultat contre-intuitif : une représentation 3D imparfaite se révèle plus nuisible qu'une baseline 2D, car elle distord les relations spatiales au lieu de les clarifier. Les auteurs documentent également un écart métacognitif net par rapport aux humains : là où un opérateur humain cherche activement des angles réfutant son hypothèse et révise ses croyances face à une contradiction, les modèles s'engagent prématurément avec une confiance élevée indépendamment de la qualité des preuves disponibles.
ESI-Bench s'inscrit dans une vague de travaux cherchant à dépasser les limites des benchmarks statiques pour robots et agents incarnés, notamment VQA-3D, ScanQA ou EmbodiedScan, qui évaluent la compréhension spatiale sans boucle de rétroaction motrice. La dépendance à OmniGibson implique que les résultats restent pour l'instant confinés à la simulation, et le gap sim-to-real, déjà central dans les débats sur les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), n'est pas adressé ici. Ce benchmark ne teste pas de robots physiques déployés mais des MLLMs dans un environnement simulé. Les prochaines étapes naturelles incluront le transfert vers des plateformes réelles et l'intégration de politiques de manipulation close-loop pour valider si les stratégies émergentes observées en simulation tiennent face aux incertitudes du monde physique.
Dans nos dossiers




