RecherchearXiv cs.RO 18 juin 2026

VEGA : apprentissage de VLA de navigation depuis des vidéos égocentriques réelles avec supervision géométrique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (juin 2026) VEGA, une méthode pour entraîner des modèles de navigation de type VLA (Vision-Language-Action) à partir de vidéos égocentrées non étiquetées issues d'internet. Le principe : reconstruire la géométrie locale d'une scène à partir de vidéo monoculaire, puis générer des trajectoires obstacles-aware conditionnées sur des objectifs de navigation exprimés en texte, image ou waypoints spatiaux. Cette distribution de trajectoires sert ensuite à entraîner une politique de navigation par flow-matching. Les auteurs publient également VEGA-Bench, un benchmark de 250 000 scènes et environ 5 millions d'objectifs de navigation couplés à leur géométrie de scène, conçu pour évaluer la progression vers l'objectif, l'évitement de collisions et le dégagement autour des obstacles. Sur ce benchmark, VEGA réduit les collisions de 33,0 % et améliore le dégagement d'obstacles de 17,9 % par rapport au meilleur baseline. En conditions réelles, les gains sont plus marqués : au moins +150 % de taux de succès, -66,7 % de collisions et +60 % d'amélioration du dégagement.

Ce travail s'attaque à un verrou structurel de la navigation robotique : comment tirer parti de la masse de vidéos égocentrées disponibles sur internet sans disposer d'annotations de trajectoires ni de données de reward. La clé de VEGA est d'utiliser la géométrie reconstruite exclusivement à l'entraînement, ce qui permet de distiller une planification obstacle-aware directement dans une politique visuelle, sans que la géométrie soit nécessaire à l'inférence. C'est un argument concret en faveur de la scalabilité des VLA de navigation, un domaine où le fossé démo-réalité reste prononcé. Les chiffres en conditions réelles sont significatifs, bien que les auteurs ne précisent pas la taille exacte ni la variété des environnements de test, ce qui limite la portée des conclusions sur la généralisation.

La navigation en langage naturel par VLA s'inscrit dans une compétition active entre approches : les travaux de Google DeepMind sur RT-2 et NavIQ, les efforts d'Physical Intelligence (pi) avec Pi-0, ou encore GR00T N2 de NVIDIA explorent des axes proches. VEGA se distingue par l'angle supervision géométrique à partir de vidéos brutes, sans nécessiter de données en simulateur ni d'annotation humaine. Le code et le benchmark seront rendus publics à la publication, ce qui permettra à la communauté de valider les résultats de manière indépendante, étape indispensable avant tout usage industriel.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion

1 source

2arXiv cs.RO

EA-Nav : apprentissage de politiques de navigation visuelle sûres avec conscience de l'incarnation

Des chercheurs publient EA-Nav, un framework de navigation visuelle "embodiment-aware" conçu pour l'apprentissage par imitation plutôt que par renforcement, décrit dans un article arXiv (2607.19880) mis en ligne fin juillet 2026. Le système répond à un problème précis : une même image de caméra peut impliquer des actions différentes selon la géométrie du robot (empattement, hauteur, rayon de braquage), ce qui rend la prédiction ambiguë si l'on se fie uniquement à la vision. L'architecture se déploie en deux temps. En pré-entraînement, les auteurs construisent un jeu de données de navigation cross-embodiment à partir de vidéos Internet, en injectant la géométrie du robot comme token conditionnel pour lever l'ambiguïté. En fine-tuning, un mécanisme d'injection multimodale à architecture découplée entre en jeu, complété par une stratégie d'augmentation de trajectoires qui génère des échantillons à haut risque, utilisés pour entraîner séparément la perception spatiale et la correction consciente du risque. L'enjeu dépasse le cas d'école. Les flottes de robots mobiles et d'humanoïdes déployées en entrepôt ou en usine sont rarement homogènes : plusieurs géométries de châssis, plusieurs générations de matériel coexistent souvent chez un même intégrateur. Les approches par renforcement, dominantes jusqu'ici, exigent une interaction à grande échelle et un design de récompense minutieux, ce qui limite leur passage à l'échelle et leur adaptation rapide sur le terrain. Une méthode par imitation capable de généraliser à travers les morphologies, sans réentraînement lourd par robot, répondrait à un vrai besoin d'industrialisation plutôt qu'à une simple prouesse académique. Il s'agit toutefois d'un article de recherche à ce stade, sans lien annoncé avec un produit commercial, un intégrateur ou un déploiement réel, et le résumé ne fournit aucun chiffre de performance vérifiable, seulement une amélioration qualifiée d'"effective" sur plusieurs configurations testées. Le travail s'inscrit dans la même veine que les modèles vision-langage-action génériques comme GR00T N2, Pi-0 ou Helix, mais se concentre spécifiquement sur la brique navigation plutôt que sur la manipulation, un axe encore peu couvert par ces plateformes généralistes.

RecherchePaper

1 source

3arXiv cs.RO

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion

1 source

4arXiv cs.RO

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique

Une équipe de chercheurs a publié HT-Bench, un benchmark à grande échelle destiné à évaluer les représentations tactiles main entière dans la manipulation robotique dextre, avec un dataset de 10 millions de trames RGB et 7,8 millions de trames tactiles collectées sur 226 tâches distinctes. La publication (arXiv:2606.19161, juin 2026) propose une approche centrée sur la vision égocentrique couplée à des capteurs tactiles couvrant l'intégralité de la main robotique. Le benchmark structure l'évaluation autour de quatre tâches : récupération de similarité tactile fine, inpainting de trames masquées, synthèse vision-vers-tactile, et prédiction multimodale de trames tactiles. En parallèle, les auteurs introduisent HandTouch, un encodeur vision-tactile à quantification vectorielle (VQ), entraîné selon trois phases progressives : spatiale, cross-modale et temporelle. Les gains quantitatifs de HandTouch sur HT-Bench sont nets : le Recall@5 en récupération de similarité tactile passe de 74,65 % à 85,23 %, l'erreur quadratique moyenne (RMSE) en inpainting chute de 0,022 à 0,010, et le score cIoU hors-distribution (OOD) en synthèse vision-tactile progresse de 0,628 à 0,705. Pour l'industrie robotique, cela valide une hypothèse structurante : coupler vision égocentrique et retour tactile main entière constitue une base d'apprentissage généralisable, sans exiger des capteurs ou des embodiments standardisés. C'est un signal concret pour les intégrateurs et équipes R&D travaillant sur la manipulation dextre en environnements non structurés, où percevoir l'état d'une prise sans vision directe reste un verrou majeur. Le domaine du tactile en robotique souffre depuis longtemps d'une fragmentation des formats de capteurs et des protocoles, rendant les comparaisons entre travaux difficiles. HT-Bench s'inscrit dans une dynamique de benchmarking qui émerge en 2025-2026, aux côtés d'initiatives comme RoboSet, DROID ou LIBERO pour la manipulation généraliste. Des laboratoires comme le CMU Robotics Institute et le MIT CSAIL, ainsi que des entreprises comme Sanctuary AI, explorent des approches similaires de fusion tactile-visuelle. Aucun acteur européen n'est directement cité dans ce travail, mais des startups comme Enchanted Tools ou Wandercraft, actives sur la manipulation avancée, pourraient tirer parti d'un tel benchmark pour standardiser leurs évaluations internes. L'étape suivante logique serait l'intégration de HandTouch dans des pipelines VLA (Vision-Language-Action), où le retour tactile reste aujourd'hui largement absent.

RecherchePaper

1 source