
VEGA : apprentissage de VLA de navigation depuis des vidéos égocentriques réelles avec supervision géométrique
Une équipe de chercheurs a publié sur arXiv (juin 2026) VEGA, une méthode pour entraîner des modèles de navigation de type VLA (Vision-Language-Action) à partir de vidéos égocentrées non étiquetées issues d'internet. Le principe : reconstruire la géométrie locale d'une scène à partir de vidéo monoculaire, puis générer des trajectoires obstacles-aware conditionnées sur des objectifs de navigation exprimés en texte, image ou waypoints spatiaux. Cette distribution de trajectoires sert ensuite à entraîner une politique de navigation par flow-matching. Les auteurs publient également VEGA-Bench, un benchmark de 250 000 scènes et environ 5 millions d'objectifs de navigation couplés à leur géométrie de scène, conçu pour évaluer la progression vers l'objectif, l'évitement de collisions et le dégagement autour des obstacles. Sur ce benchmark, VEGA réduit les collisions de 33,0 % et améliore le dégagement d'obstacles de 17,9 % par rapport au meilleur baseline. En conditions réelles, les gains sont plus marqués : au moins +150 % de taux de succès, -66,7 % de collisions et +60 % d'amélioration du dégagement.
Ce travail s'attaque à un verrou structurel de la navigation robotique : comment tirer parti de la masse de vidéos égocentrées disponibles sur internet sans disposer d'annotations de trajectoires ni de données de reward. La clé de VEGA est d'utiliser la géométrie reconstruite exclusivement à l'entraînement, ce qui permet de distiller une planification obstacle-aware directement dans une politique visuelle, sans que la géométrie soit nécessaire à l'inférence. C'est un argument concret en faveur de la scalabilité des VLA de navigation, un domaine où le fossé démo-réalité reste prononcé. Les chiffres en conditions réelles sont significatifs, bien que les auteurs ne précisent pas la taille exacte ni la variété des environnements de test, ce qui limite la portée des conclusions sur la généralisation.
La navigation en langage naturel par VLA s'inscrit dans une compétition active entre approches : les travaux de Google DeepMind sur RT-2 et NavIQ, les efforts d'Physical Intelligence (pi) avec Pi-0, ou encore GR00T N2 de NVIDIA explorent des axes proches. VEGA se distingue par l'angle supervision géométrique à partir de vidéos brutes, sans nécessiter de données en simulateur ni d'annotation humaine. Le code et le benchmark seront rendus publics à la publication, ce qui permettra à la communauté de valider les résultats de manière indépendante, étape indispensable avant tout usage industriel.
Dans nos dossiers




