Aller au contenu principal
VEGA : apprentissage de VLA de navigation depuis des vidéos égocentriques réelles avec supervision géométrique
RecherchearXiv cs.RO1h

VEGA : apprentissage de VLA de navigation depuis des vidéos égocentriques réelles avec supervision géométrique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (juin 2026) VEGA, une méthode pour entraîner des modèles de navigation de type VLA (Vision-Language-Action) à partir de vidéos égocentrées non étiquetées issues d'internet. Le principe : reconstruire la géométrie locale d'une scène à partir de vidéo monoculaire, puis générer des trajectoires obstacles-aware conditionnées sur des objectifs de navigation exprimés en texte, image ou waypoints spatiaux. Cette distribution de trajectoires sert ensuite à entraîner une politique de navigation par flow-matching. Les auteurs publient également VEGA-Bench, un benchmark de 250 000 scènes et environ 5 millions d'objectifs de navigation couplés à leur géométrie de scène, conçu pour évaluer la progression vers l'objectif, l'évitement de collisions et le dégagement autour des obstacles. Sur ce benchmark, VEGA réduit les collisions de 33,0 % et améliore le dégagement d'obstacles de 17,9 % par rapport au meilleur baseline. En conditions réelles, les gains sont plus marqués : au moins +150 % de taux de succès, -66,7 % de collisions et +60 % d'amélioration du dégagement.

Ce travail s'attaque à un verrou structurel de la navigation robotique : comment tirer parti de la masse de vidéos égocentrées disponibles sur internet sans disposer d'annotations de trajectoires ni de données de reward. La clé de VEGA est d'utiliser la géométrie reconstruite exclusivement à l'entraînement, ce qui permet de distiller une planification obstacle-aware directement dans une politique visuelle, sans que la géométrie soit nécessaire à l'inférence. C'est un argument concret en faveur de la scalabilité des VLA de navigation, un domaine où le fossé démo-réalité reste prononcé. Les chiffres en conditions réelles sont significatifs, bien que les auteurs ne précisent pas la taille exacte ni la variété des environnements de test, ce qui limite la portée des conclusions sur la généralisation.

La navigation en langage naturel par VLA s'inscrit dans une compétition active entre approches : les travaux de Google DeepMind sur RT-2 et NavIQ, les efforts d'Physical Intelligence (pi) avec Pi-0, ou encore GR00T N2 de NVIDIA explorent des axes proches. VEGA se distingue par l'angle supervision géométrique à partir de vidéos brutes, sans nécessiter de données en simulateur ni d'annotation humaine. Le code et le benchmark seront rendus publics à la publication, ce qui permettra à la communauté de valider les résultats de manière indépendante, étape indispensable avant tout usage industriel.

À lire aussi

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
1arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source
Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique
2arXiv cs.RO 

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion
1 source
HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique
3arXiv cs.RO 

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique

Une équipe de chercheurs a publié HT-Bench, un benchmark à grande échelle destiné à évaluer les représentations tactiles main entière dans la manipulation robotique dextre, avec un dataset de 10 millions de trames RGB et 7,8 millions de trames tactiles collectées sur 226 tâches distinctes. La publication (arXiv:2606.19161, juin 2026) propose une approche centrée sur la vision égocentrique couplée à des capteurs tactiles couvrant l'intégralité de la main robotique. Le benchmark structure l'évaluation autour de quatre tâches : récupération de similarité tactile fine, inpainting de trames masquées, synthèse vision-vers-tactile, et prédiction multimodale de trames tactiles. En parallèle, les auteurs introduisent HandTouch, un encodeur vision-tactile à quantification vectorielle (VQ), entraîné selon trois phases progressives : spatiale, cross-modale et temporelle. Les gains quantitatifs de HandTouch sur HT-Bench sont nets : le Recall@5 en récupération de similarité tactile passe de 74,65 % à 85,23 %, l'erreur quadratique moyenne (RMSE) en inpainting chute de 0,022 à 0,010, et le score cIoU hors-distribution (OOD) en synthèse vision-tactile progresse de 0,628 à 0,705. Pour l'industrie robotique, cela valide une hypothèse structurante : coupler vision égocentrique et retour tactile main entière constitue une base d'apprentissage généralisable, sans exiger des capteurs ou des embodiments standardisés. C'est un signal concret pour les intégrateurs et équipes R&D travaillant sur la manipulation dextre en environnements non structurés, où percevoir l'état d'une prise sans vision directe reste un verrou majeur. Le domaine du tactile en robotique souffre depuis longtemps d'une fragmentation des formats de capteurs et des protocoles, rendant les comparaisons entre travaux difficiles. HT-Bench s'inscrit dans une dynamique de benchmarking qui émerge en 2025-2026, aux côtés d'initiatives comme RoboSet, DROID ou LIBERO pour la manipulation généraliste. Des laboratoires comme le CMU Robotics Institute et le MIT CSAIL, ainsi que des entreprises comme Sanctuary AI, explorent des approches similaires de fusion tactile-visuelle. Aucun acteur européen n'est directement cité dans ce travail, mais des startups comme Enchanted Tools ou Wandercraft, actives sur la manipulation avancée, pourraient tirer parti d'un tel benchmark pour standardiser leurs évaluations internes. L'étape suivante logique serait l'intégration de HandTouch dans des pipelines VLA (Vision-Language-Action), où le retour tactile reste aujourd'hui largement absent.

RecherchePaper
1 source
HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage
4arXiv cs.RO 

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

Des chercheurs ont publié en mai 2026 HCSG (Human-Centric Semantic-Geometric Reasoning), un cadre de navigation en langage naturel (VLN) conçu pour les environnements intérieurs dynamiques peuplés de piétons, déposé sur arXiv sous la référence 2605.13321. Contrairement aux approches existantes qui traitent les humains comme de simples obstacles mobiles détectés par indices visuels, HCSG introduit un module unifié de compréhension humaine combinant deux capacités complémentaires : la prévision géométrique, qui anticipe poses et trajectoires futures des personnes, et l'interprétation sémantique, qui exploite un modèle vision-langage (VLM) pour générer des descriptions textuelles des actions et intentions perçues. Ces représentations sont fusionnées dans une carte topologique sur laquelle l'agent planifie ses déplacements en fonction des instructions reçues. Une fonction de perte de distance sociale (social distance loss) contraint le robot à maintenir des distances d'interaction socialement acceptables. Sur le benchmark HA-VLNCE, le framework affiche un gain de 14 % sur le taux de succès et une réduction de 34 % du taux de collision face à l'état de l'art, des chiffres à interpréter avec la prudence habituelle réservée aux préprints non encore évalués en pair-à-pair. Ces résultats pointent un changement de paradigme pertinent pour la robotique de service en espace ouvert. La distinction clé de HCSG est de passer d'un évitement passif (détecter puis contourner) à une compréhension active des comportements : le robot infère si un piéton s'apprête à changer de direction, à s'arrêter ou à interagir, ce qui permet une planification plus fluide. L'intégration d'un VLM est cohérente avec la montée en puissance des architectures vision-langage-action (VLA), mais l'article valide ici leur utilité spécifique pour la navigation sociale, pas seulement la manipulation. Pour les intégrateurs de robots de livraison intérieure ou de guidage hospitalier, c'est un signal que les approches purement géométriques atteignent leurs limites dans des environnements non contrôlés. La navigation VLN a progressé rapidement depuis les benchmarks R2R et REVERIE, portée par les transformers de vision et des modèles comme CLIP. HA-VLNCE, sur lequel HCSG est évalué, est une extension de VLN-CE intégrant des agents humains dynamiques, le rapprochant davantage des conditions de déploiement réelles. Les approches concurrentes en navigation sociale incluent des travaux issus de Stanford, CMU ou MIT, et des frameworks comme NaviSTAR. Côté industriel, les robots de Keenon, Aethon ou Savioke opèrent encore largement dans des couloirs semi-contrôlés précisément pour éviter ces problèmes de cohabitation. HCSG reste une contribution académique sans validation industrielle annoncée, mais une page de projet dédiée laisse entrevoir des travaux futurs sur robot physique.

RechercheOpinion
1 source