Aller au contenu principal
AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux
RecherchearXiv cs.RO3h

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du laboratoire be2rlab publient sur arXiv (arXiv:2605.25901) AgentGrounder, un système de localisation visuelle 3D zéro-shot opérant directement sur des nuages de points colorés, sans entraînement spécifique à la tâche. L'architecture repose sur deux étapes : une phase hors ligne construit une table de correspondance d'objets (Object Lookup Table, OLT) regroupant identifiants d'instances, labels sémantiques et boîtes englobantes 3D ; une phase en ligne déploie un agent qui décompose chaque requête en langage naturel, récupère les candidats pertinents dans l'OLT, effectue un scoring géométrique, puis déclenche un rendu d'image à la demande lorsque des indices visuels supplémentaires (couleur, texture, angle de vue) sont nécessaires. Évalué sur les benchmarks ScanRefer et Nr3D en configuration zéro-shot, AgentGrounder surpasse SeeGround de +2,5 % en précision Acc@0.5 sur ScanRefer et de +6,3 % sur Nr3D, dont un gain de +6,3 % sur les requêtes indépendantes du point de vue. Le code est publié sur GitHub.

Ce résultat est directement pertinent pour les équipes travaillant sur la manipulation robotique et la navigation en environnements intérieurs non structurés. L'absence d'entraînement dédié abaisse la barrière d'intégration : un robot équipé d'un LiDAR ou d'une caméra de profondeur pourrait répondre à des commandes en langage naturel sans fine-tuning sur l'environnement cible, ce qui simplifie les déploiements dans des entrepôts ou des espaces de service variables. Le mécanisme de récupération sélective dans l'OLT réduit les erreurs en cascade typiques des pipelines d'ancrage-cible fixes, qui saturent la fenêtre de contexte des modèles de langage avec des objets non pertinents. L'inspection visuelle adaptative évite par ailleurs de solliciter inutilement les capacités multimodales coûteuses lorsque la géométrie seule suffit à discriminer.

La localisation visuelle 3D est un domaine de recherche structuré autour de benchmarks comme ScanRefer (2020) et Nr3D, qui évaluent la capacité à identifier un objet précis dans une scène intérieure 3D à partir d'une description textuelle ambiguë. Les méthodes zéro-shot antérieures supposaient souvent des ensembles d'images multi-vues préexistants et peinaient face aux limites sémantiques des outils de segmentation 3D standards, SeeGround représentant jusqu'ici l'état de l'art sur ces benchmarks. Côté industrie, NVIDIA intègre des capacités de grounding 3D dans son framework GR00T pour la manipulation robotique, tandis qu'Enchanted Tools en France et les équipes embodied AI de Meta FAIR travaillent sur des modules similaires de compréhension spatiale ouverte. AgentGrounder, encore au stade de preprint non évalué par les pairs, devra confirmer ses performances hors contexte académique avant toute adoption en conditions réelles.

Impact France/UE

Enchanted Tools (France), explicitement citée comme travaillant sur des modules similaires de compréhension spatiale ouverte, peut utiliser AgentGrounder comme référence zéro-shot pour réduire les coûts de fine-tuning dans ses déploiements robotiques.

À lire aussi

Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés
1arXiv cs.RO 

Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés

Les modèles VLA (Vision-Language-Action) qui pilotent aujourd'hui les robots manipulateurs reposent quasi-exclusivement sur des images 2D comme entrée visuelle. Une équipe de chercheurs publie sur arXiv (arXiv:2506.00807v2) Any3D-VLA, une architecture d'entraînement qui intègre explicitement des nuages de points 3D pour améliorer la robustesse spatiale de ces modèles. L'approche fusionne trois sources de nuages de points hétérogènes, données de simulation, capteurs de profondeur réels (LiDAR, RGB-D), et estimation par modèle monoculaire, avec les représentations 2D existantes, dans un pipeline d'entraînement unifié. Les expériences couvrent à la fois des environnements simulés et des déploiements réels, et montrent des gains de performance mesurables sur des tâches de manipulation. L'intérêt technique est double. D'abord, le papier démontre empiriquement que "lever" l'entrée visuelle en nuage de points produit des représentations complémentaires aux features 2D, plutôt que redondantes, ce qui valide une hypothèse souvent discutée dans la communauté VLA. Ensuite, Any3D-VLA s'attaque directement aux deux verrous pratiques qui ont jusqu'ici freiné l'adoption du 3D dans ce domaine : la rareté des données 3D annotées et le domain gap lié aux différences de calibration entre environnements et aux biais d'échelle de profondeur. En traitant ces deux obstacles dans un seul framework, le travail suggère une voie vers des VLA plus robustes au sim-to-real transfer, un problème central pour le déploiement en conditions industrielles réelles. Les VLA sont au cœur d'une course intense depuis la publication de RT-2 (Google DeepMind, 2023) et l'essor de modèles comme Pi-0 (Physical Intelligence), OpenVLA, ou RoboVLMs. La plupart restent limités par leur dépendance aux caméras RGB standard, ce qui crée des angles morts en cas d'occlusion ou de scènes encombrées. Any3D-VLA ne propose pas encore un produit déployé : il s'agit d'une contribution de recherche avec code et page projet publics. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning utilisés par des acteurs comme Physical Intelligence ou les équipes robotique de Figure AI, qui cherchent précisément à réduire le nombre de démonstrations réelles nécessaires grâce à un meilleur transfert depuis la simulation.

RechercheOpinion
1 source
Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences
2arXiv cs.RO 

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

Une équipe de chercheurs a publié BEAR (Benchmark for Embodied Abilities and Reasoning), un cadre d'évaluation qui décompose les tâches robotiques en 14 compétences atomiques pour diagnostiquer les failles des grands modèles de langage multimodaux (MLLMs) embarqués. Le benchmark regroupe 4 469 échantillons entrelacés image-vidéo-texte couvrant 6 catégories, de la perception bas niveau jusqu'à la planification de haut niveau. Soumis à 20 MLLMs dont GPT-5, il révèle deux résultats principaux : les capacités perceptuelles constituent le principal goulot d'étranglement derrière les échecs de raisonnement, et les modèles présentent une modélisation spatiotemporelle instable qui restait invisible dans les benchmarks précédents. En réponse, les auteurs proposent BEAR-Agent, un agent multimodal augmenté d'outils de raisonnement visuel et spatial, qui obtient une amélioration relative de 17,5 % sur GPT-5 par rapport au modèle de base, avec des gains confirmés en simulation et en robotique réelle. L'intérêt de ce travail tient à la granularité du diagnostic. Les benchmarks existants mesurent si un agent réussit une tâche sans expliquer pourquoi. BEAR révèle que les modèles n'échouent pas d'abord sur le raisonnement abstrait, mais sur la perception : identifier des objets dans une scène, interpréter une séquence vidéo, localiser un élément dans l'espace. Ce résultat contredit l'hypothèse répandue selon laquelle les LLMs auraient comblé le déficit de compréhension scénique grâce à leur préentraînement massif. La découverte sur l'instabilité spatiotemporelle est particulièrement significative pour les intégrateurs déployant des VLA (Vision-Language-Action models) en environnement industriel : elle suggère que les performances observées en démonstration vidéo curatée ne reflètent pas la fiabilité opérationnelle réelle. Ce preprint arXiv (version 2, 2025) s'inscrit dans un effort plus large pour structurer l'évaluation des agents embarqués, là où des benchmarks comme EgoSchema ou OpenEQA traitent la compréhension incarnée sans diagnostiquer les sous-compétences. BEAR se distingue par ses expériences en environnements robotiques réels, contrairement aux approches purement simulées comme EmbodiedScan. Aucun acteur français ou européen n'est directement impliqué dans cette publication académique, qui émane vraisemblablement d'équipes universitaires asiatiques ou nord-américaines au vu de la page projet associée. La prochaine étape logique serait l'adoption de BEAR comme protocole standard dans les pipelines d'évaluation VLA avant tout déploiement physique.

RecherchePaper
1 source
Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)
3arXiv cs.RO 

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion
1 source
Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique
4arXiv cs.RO 

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

Des chercheurs du Collaborative Robotics Lab de Virginia Tech ont publié Language Movement Primitives (LMP), un framework qui relie les modèles de vision-langage (VLM) aux Dynamic Movement Primitives (DMP), une famille de contrôleurs de trajectoire établie en robotique depuis les années 2000. Le principe: les DMP définissent des trajectoires continues et stables via un faible nombre de paramètres interprétables, et les VLM configurent ces paramètres directement à partir d'instructions en langage naturel. Testé sur 31 tâches de manipulation de bureau en conditions réelles, LMP atteint un taux de succès de 65%, contre 35% pour le meilleur système de référence évalué. Le pipeline fonctionne en mode zéro-shot, sans fine-tuning spécifique aux tâches cibles. L'article est disponible sur arXiv (2602.02839, troisième révision) et accompagné de vidéos de démonstration. Le vrai problème que LMP cible est le "grounding" moteur: transformer un raisonnement abstrait en commandes physiquement cohérentes. Les VLM comme GPT-4V excellent à décomposer une tâche en étapes logiques, mais produire des trajectoires exécutables reste hors de leur portée native. À l'inverse, les modèles de fondation robotique tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google génèrent des actions directement, mais nécessitent généralement un fine-tuning coûteux en données in-domain pour s'adapter à de nouvelles tâches. LMP propose une troisième voie: les DMP servent d'interface structurée entre le raisonnement LLM et le contrôle bas niveau, préservant la stabilité dynamique sans apprentissage supplémentaire. Le gain de 30 points de pourcentage en zéro-shot sur des tâches réelles est notable, même si le choix des baselines et les conditions de test précises mériteront une vérification indépendante par la communauté. Les DMP ont été formalisés par Schaal et al. dans les années 2000 et restent un outil de référence pour la manipulation grâce à leur stabilité et leur capacité de généralisation. L'approche de LMP s'inscrit dans la lignée de SayCan (Google) et Code-as-Policies (Liang et al.), mais descend plus bas dans la pile de contrôle sans passer par un réseau de politique intermédiaire. Les concurrents directs sont les VLA bout-en-bout comme OpenVLA ou le récent Helix d'Figure AI, qui offrent plus de flexibilité mais restent tributaires de larges jeux de données de démonstration. Les prochaines étapes probables incluent l'extension à des environnements non-tabulaires et à des robots à plus haute dimensionnalité, notamment la manipulation dextre sur bras 7-DOF.

RechercheOpinion
1 source