IA incarnée : jeu de données de graphes de scène spatiaux pour l'évaluation de modèles vision-langage sur des trajectoires de manipulation robotique
Traduction avec le style demandé, en 3 paragraphes fluides sans titres.
Une équipe de recherche présente EmbodimentSemantic, un jeu de données et un benchmark conçus pour évaluer la capacité des modèles vision-langage-action (VLA) à comprendre l'organisation spatiale des scènes en robotique manipulatrice. Le dataset représente chaque scène sous forme de graphe orienté objet-relation-objet, où chaque triplet encode une relation spatiale précise (support, contenance, ordre, occlusion, profondeur) entre deux objets. Il combine des observations réelles collectées avec le bras robotique low-cost SO101, accompagnées de graphes de scène générés automatiquement, ainsi qu'un benchmark simulé bâti sur l'environnement LIBERO comptant plus de 60 000 images de manipulation et plus de 120 000 graphes de scène spécifiques à chaque caméra, couvrant à la fois des vues à la troisième personne et des vues embarquées au poignet. Dans ce volet simulé, les relations de référence sont dérivées automatiquement de la géométrie MuJoCo, des coordonnées monde, des projections caméra et des contraintes de visibilité, ce qui garantit une annotation fiable sans intervention humaine.
Ce travail met le doigt sur une faiblesse structurelle des systèmes VLA actuels: si ces modèles savent reconnaître des objets et suivre des instructions en langage naturel, ils peinent à représenter explicitement comment ces objets sont disposés les uns par rapport aux autres, en particulier sur les relations dépendantes de la profondeur ou du point de vue. Les expériences menées sur des VLM open source et commerciaux montrent que les modèles prédisent souvent des relations plausibles mais échouent sur la structure spatiale exacte, un écart qui rejoint le constat plus large d'un fossé entre démonstrations impressionnantes et robustesse réelle en conditions de manipulation. Pour les intégrateurs et équipes R&D, ce résultat suggère que l'injection explicite de graphes de scène dans les prompts des politiques VLA pourrait améliorer le contrôle en aval, une piste que les auteurs testent directement dans leurs expériences.
EmbodimentSemantic s'inscrit dans la lignée des efforts récents visant à combler l'écart entre perception sémantique et contrôle moteur chez les modèles de type Pi-0, GR00T N2 ou Helix, qui reposent tous sur une compréhension fine de la géométrie de la scène pour planifier des trajectoires de manipulation fiables. En proposant un cadre unifié et reproductible pour diagnostiquer le grounding spatial, à la fois en environnement réel low-cost et en simulation contrôlée, les auteurs offrent un outil de benchmarking que les laboratoires de robotique pourront utiliser pour comparer objectivement leurs architectures VLA sur ce point précis, plutôt que de se fier aux seules démonstrations vidéo souvent sélectives des annonces commerciales.
Dans nos dossiers




