RecherchearXiv cs.RO 29 mai 2026

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 29 mai 2026 Embodied3DBench, un benchmark conçu pour évaluer les capacités de perception spatiale bas niveau des modèles de vision-langage (VLMs) dans des environnements 3D incarnés. Le benchmark couvre 6 catégories de tâches réparties en deux groupes : la compréhension structurelle spatiale (ancrage d'objets, prédiction de relations spatiales, correspondance multi-vues) et la perception orientée interaction (prédiction d'affordances, prédiction de points de saisie, prédiction de trajectoires). Il totalise 12 sous-catégories et plus de 21 000 paires questions-réponses annotées. Treize modèles de pointe ont été évalués sur ce corpus. En parallèle, les auteurs ont synthétisé un dataset d'entraînement à grande échelle de 1,3 million de paires QA pour tenter de combler les lacunes identifiées.

Les résultats révèlent une dissociation nette dans les capacités des VLMs actuels : ces modèles affichent des performances raisonnables sur le raisonnement spatial de haut niveau, notamment les relations de position entre objets, mais restent très fragiles dès qu'il s'agit de perception orientée interaction, c'est-à-dire prédire où saisir un objet, anticiper une trajectoire de manipulation, ou estimer l'affordance d'une surface. Pour les équipes qui développent des modèles vision-langage-action (VLA) destinés à la manipulation robotique, ce résultat est structurant : il indique que les fondations perceptuelles nécessaires au déploiement réel restent insuffisantes dans les architectures actuelles, y compris les plus récentes. Le fine-tuning sur le dataset de 1,3M paires améliore significativement les scores bas niveau, ce qui suggère que le problème est en partie un déficit de données d'entraînement ciblées plutôt qu'une limite architecturale fondamentale.

Ce travail s'inscrit dans un effort plus large de la communauté robotique pour doter les VLMs de capacités d'interaction physique, au-delà de la simple description de scènes. Des systèmes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) reposent sur ces mêmes briques perceptuelles pour passer de la compréhension sémantique à l'action motrice. Jusqu'ici, l'évaluation de ces capacités bas niveau manquait d'un cadre standardisé : la plupart des benchmarks existants (ScanQA, EmbodiedScan) ciblent la compréhension de scènes plutôt que la manipulation. Embodied3DBench comble ce vide méthodologique en proposant à la fois un protocole d'évaluation reproductible et un levier de progression via son dataset synthétique. L'article est disponible en preprint (arXiv:2605.29074) et le code devrait être rendu public prochainement.

Dans nos dossiers

IA physique & VLA NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X

À lire aussi

1arXiv cs.RO

ESI-Bench : vers une intelligence spatiale incarnée qui boucle la perception et l'action

Une équipe de chercheurs a publié ESI-Bench, un benchmark dédié à l'intelligence spatiale incarnée (embodied spatial intelligence), conçu pour évaluer la capacité des agents artificiels à fermer la boucle perception-action. Le benchmark, construit sur le simulateur OmniGibson, couvre 10 catégories de tâches et 29 sous-catégories, ancrées dans les systèmes de connaissances fondamentales de la psychologue Elizabeth Spelke (objets, agents, nombre, géométrie). Contrairement aux benchmarks classiques qui fournissent des observations "oracle" figées, ESI-Bench exige que l'agent décide lui-même quelles capacités mobiliser, perception, locomotion, manipulation, et dans quel ordre, pour accumuler activement les informations pertinentes à la tâche. Les expériences menées sur les modèles multimodaux de pointe (MLLMs) révèlent un écart significatif entre exploration active et observation passive : les agents qui choisissent leurs points de vue surpassent nettement leurs homologues passifs. Fait notable, ces agents développent spontanément des stratégies spatiales émergentes sans instruction explicite. En revanche, l'acquisition multi-vues aléatoire dégrade souvent les performances en ajoutant du bruit plutôt que du signal, malgré un volume d'images bien supérieur. L'étude identifie une cause principale d'échec qu'elle nomme "action blindness" : de mauvais choix d'action produisent de mauvaises observations, qui induisent à leur tour des erreurs en cascade. Autre résultat contre-intuitif : une représentation 3D imparfaite se révèle plus nuisible qu'une baseline 2D, car elle distord les relations spatiales au lieu de les clarifier. Les auteurs documentent également un écart métacognitif net par rapport aux humains : là où un opérateur humain cherche activement des angles réfutant son hypothèse et révise ses croyances face à une contradiction, les modèles s'engagent prématurément avec une confiance élevée indépendamment de la qualité des preuves disponibles. ESI-Bench s'inscrit dans une vague de travaux cherchant à dépasser les limites des benchmarks statiques pour robots et agents incarnés, notamment VQA-3D, ScanQA ou EmbodiedScan, qui évaluent la compréhension spatiale sans boucle de rétroaction motrice. La dépendance à OmniGibson implique que les résultats restent pour l'instant confinés à la simulation, et le gap sim-to-real, déjà central dans les débats sur les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), n'est pas adressé ici. Ce benchmark ne teste pas de robots physiques déployés mais des MLLMs dans un environnement simulé. Les prochaines étapes naturelles incluront le transfert vers des plateformes réelles et l'intégration de politiques de manipulation close-loop pour valider si les stratégies émergentes observées en simulation tiennent face aux incertitudes du monde physique.

RecherchePaper

1 source

2arXiv cs.RO

IA incarnée : jeu de données de graphes de scène spatiaux pour l'évaluation de modèles vision-langage sur des trajectoires de manipulation robotique

Traduction avec le style demandé, en 3 paragraphes fluides sans titres. Une équipe de recherche présente EmbodimentSemantic, un jeu de données et un benchmark conçus pour évaluer la capacité des modèles vision-langage-action (VLA) à comprendre l'organisation spatiale des scènes en robotique manipulatrice. Le dataset représente chaque scène sous forme de graphe orienté objet-relation-objet, où chaque triplet encode une relation spatiale précise (support, contenance, ordre, occlusion, profondeur) entre deux objets. Il combine des observations réelles collectées avec le bras robotique low-cost SO101, accompagnées de graphes de scène générés automatiquement, ainsi qu'un benchmark simulé bâti sur l'environnement LIBERO comptant plus de 60 000 images de manipulation et plus de 120 000 graphes de scène spécifiques à chaque caméra, couvrant à la fois des vues à la troisième personne et des vues embarquées au poignet. Dans ce volet simulé, les relations de référence sont dérivées automatiquement de la géométrie MuJoCo, des coordonnées monde, des projections caméra et des contraintes de visibilité, ce qui garantit une annotation fiable sans intervention humaine. Ce travail met le doigt sur une faiblesse structurelle des systèmes VLA actuels: si ces modèles savent reconnaître des objets et suivre des instructions en langage naturel, ils peinent à représenter explicitement comment ces objets sont disposés les uns par rapport aux autres, en particulier sur les relations dépendantes de la profondeur ou du point de vue. Les expériences menées sur des VLM open source et commerciaux montrent que les modèles prédisent souvent des relations plausibles mais échouent sur la structure spatiale exacte, un écart qui rejoint le constat plus large d'un fossé entre démonstrations impressionnantes et robustesse réelle en conditions de manipulation. Pour les intégrateurs et équipes R&D, ce résultat suggère que l'injection explicite de graphes de scène dans les prompts des politiques VLA pourrait améliorer le contrôle en aval, une piste que les auteurs testent directement dans leurs expériences. EmbodimentSemantic s'inscrit dans la lignée des efforts récents visant à combler l'écart entre perception sémantique et contrôle moteur chez les modèles de type Pi-0, GR00T N2 ou Helix, qui reposent tous sur une compréhension fine de la géométrie de la scène pour planifier des trajectoires de manipulation fiables. En proposant un cadre unifié et reproductible pour diagnostiquer le grounding spatial, à la fois en environnement réel low-cost et en simulation contrôlée, les auteurs offrent un outil de benchmarking que les laboratoires de robotique pourront utiliser pour comparer objectivement leurs architectures VLA sur ce point précis, plutôt que de se fier aux seules démonstrations vidéo souvent sélectives des annonces commerciales.

RecherchePaper

1 source

3arXiv cs.RO

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

Une équipe de chercheurs a publié BEAR (Benchmark for Embodied Abilities and Reasoning), un cadre d'évaluation qui décompose les tâches robotiques en 14 compétences atomiques pour diagnostiquer les failles des grands modèles de langage multimodaux (MLLMs) embarqués. Le benchmark regroupe 4 469 échantillons entrelacés image-vidéo-texte couvrant 6 catégories, de la perception bas niveau jusqu'à la planification de haut niveau. Soumis à 20 MLLMs dont GPT-5, il révèle deux résultats principaux : les capacités perceptuelles constituent le principal goulot d'étranglement derrière les échecs de raisonnement, et les modèles présentent une modélisation spatiotemporelle instable qui restait invisible dans les benchmarks précédents. En réponse, les auteurs proposent BEAR-Agent, un agent multimodal augmenté d'outils de raisonnement visuel et spatial, qui obtient une amélioration relative de 17,5 % sur GPT-5 par rapport au modèle de base, avec des gains confirmés en simulation et en robotique réelle. L'intérêt de ce travail tient à la granularité du diagnostic. Les benchmarks existants mesurent si un agent réussit une tâche sans expliquer pourquoi. BEAR révèle que les modèles n'échouent pas d'abord sur le raisonnement abstrait, mais sur la perception : identifier des objets dans une scène, interpréter une séquence vidéo, localiser un élément dans l'espace. Ce résultat contredit l'hypothèse répandue selon laquelle les LLMs auraient comblé le déficit de compréhension scénique grâce à leur préentraînement massif. La découverte sur l'instabilité spatiotemporelle est particulièrement significative pour les intégrateurs déployant des VLA (Vision-Language-Action models) en environnement industriel : elle suggère que les performances observées en démonstration vidéo curatée ne reflètent pas la fiabilité opérationnelle réelle. Ce preprint arXiv (version 2, 2025) s'inscrit dans un effort plus large pour structurer l'évaluation des agents embarqués, là où des benchmarks comme EgoSchema ou OpenEQA traitent la compréhension incarnée sans diagnostiquer les sous-compétences. BEAR se distingue par ses expériences en environnements robotiques réels, contrairement aux approches purement simulées comme EmbodiedScan. Aucun acteur français ou européen n'est directement impliqué dans cette publication académique, qui émane vraisemblablement d'équipes universitaires asiatiques ou nord-américaines au vu de la page projet associée. La prochaine étape logique serait l'adoption de BEAR comme protocole standard dans les pipelines d'évaluation VLA avant tout déploiement physique.

RecherchePaper

1 source

4arXiv cs.RO

ActiveFly-Bench : aligner la réponse à des questions incarnée avec un modèle vision-langage-action pour la perception aérienne incarnée

Une équipe de recherche publie ActiveFly-Bench, un nouveau benchmark visant à combler le fossé entre le raisonnement en environnement virtuel et l'interaction physique pour la perception active des drones. Décrit dans un article déposé sur arXiv (2607.10180v1), ce benchmark décompose la perception active en trois tâches hiérarchiques: le question-réponse incarné aérien (Air-EQA), la planification du comportement d'observation (OBP) et le contrôle fin du drone guidé par le langage (FLUC), reliant explicitement la compréhension de tâches de haut niveau, la planification comportementale et le contrôle bas niveau. Les jeux de données combinent des environnements extérieurs réels et simulés, utilisés à la fois pour l'entraînement et l'évaluation. Les auteurs ont aussi développé ActiveFly, un agent en boucle fermée qui associe raisonnement vision-langage et contrôle fin, effectivement déployé sur une plateforme UAV physique, et non testé uniquement en simulation. L'enjeu dépasse le simple exercice académique: les tests menés avec des modèles vision-langage (VLM) et des modèles vision-langage-action (VLA) représentatifs montrent que les agents actuels peinent encore sur la planification comportementale, l'ajustement de point de vue et l'accomplissement robuste de tâches en perception active. Autrement dit, la promesse des architectures VLA généralistes, popularisées au sol par des systèmes comme GR00T N2 ou Helix, ne se transpose pas automatiquement au domaine aérien: piloter un drone qui doit décider où regarder, comment se repositionner et quand agir reste un problème ouvert. Pour les intégrateurs de drones d'inspection, d'agriculture ou de surveillance, ce constat tempère l'enthousiasme autour des copilotes autonomes tout-en-un et souligne que le sim-to-real n'est pas résolu pour l'aérien comme il commence à l'être pour la manipulation au sol. Ce travail s'inscrit dans la lignée des benchmarks d'IA incarnée (embodied QA) déjà développés pour les robots terrestres et les bras manipulateurs, mais transposés pour la première fois de façon systématique au domaine UAV, où les contraintes de vol, de vent et de champ de vision changent la donne. Face à des acteurs commerciaux comme DJI ou Skydio qui vendent déjà de l'autonomie de vol assistée, ActiveFly-Bench propose un cadre d'évaluation académique standardisé plutôt qu'un produit, avec l'ambition de devenir une référence pour mesurer les progrès futurs des agents aériens embarquant du raisonnement multimodal.

RecherchePaper

1 source