Aller au contenu principal
RecherchearXiv cs.RO2h

FutureNav : modélisation unifiée monde-action pour la navigation vision-langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

FutureNav est un cadre de modélisation unifiée monde-action pour la navigation vision-langage (VLN) en environnements continus, présenté sous forme de preprint sur arXiv (arXiv:2606.30367). Le système encode conjointement des features textuelles, visuelles et spatiales dans un grand modèle de langage, entraîné sur quatre objectifs simultanés : prédiction d'action de navigation, dynamiques inverse et forward pour modéliser les transitions d'états, et génération future pour anticiper les états spatiaux à venir. Avec un backbone de 4 milliards de paramètres, FutureNav revendique des performances state-of-the-art sur plusieurs benchmarks VLN, surpassant les méthodes antérieures selon ses auteurs. Le code et les modèles seront publiés en open source.

La contribution centrale est architecturale : la plupart des modèles de navigation fondationnels récents traitent la tâche comme une génération directe d'actions, sans modéliser explicitement l'état du monde ni son évolution future. FutureNav cherche à combler cet écart en forçant le modèle à représenter des transitions d'états, ce qui est censé renforcer la robustesse sur des séquences d'actions longues en environnement non discrétisé. Pour les chercheurs en navigation incarnée ou les intégrateurs de robots mobiles autonomes, cela pointe vers une approche où le raisonnement spatial prospectif améliore la politique d'action sans surcoût d'inférence notable, un point clé pour l'embarqué.

La VLN en environnements continus est un domaine actif depuis les benchmarks R2R, VLN-CE et REVERIE. Des travaux comme NavGPT, MapGPT ou EmbodiedScan ont scalé des VLM sur la navigation, mais en mode "action pure". FutureNav s'inscrit dans la tendance des world models appliqués à la navigation incarnée, parallèlement aux approches VLA comme OpenVLA ou aux travaux de DeepMind sur la robotique prédictive. Il s'agit pour l'instant d'un preprint non évalué par les pairs, et les gains annoncés sur les benchmarks méritent une vérification indépendante avant conclusions définitives. La prochaine étape annoncée est la publication publique du code.

À lire aussi

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
1arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée
2arXiv cs.RO 

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée

Des chercheurs présentent Uni-LaViRA (Language-Vision-Robot Actions Translation), une architecture de navigation incarnée publiée le 28 mai 2026 sur arXiv (2605.27582), capable de piloter quatre types de robots distincts, robots à roues, quadrupèdes, humanoïdes et un drone à voilure fixe construit sur mesure, sans aucun entraînement spécifique sur des trajectoires robot. Le système s'appuie sur des grands modèles multimodaux de langage préentraînés (MLLMs) pour décomposer la navigation en deux types de commandes : une commande directionnelle sémantique en langage naturel, et une cible visuelle au niveau pixel. En mode zéro-shot, Uni-LaViRA atteint 60,7 % de taux de succès sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,0 % sur OpenUAV. Deux mécanismes structurent la boucle d'agent : le TODO List Memory (TDM), qui maintient une liste de sous-objectifs mise à jour à chaque pas et réinjectée dans la fenêtre d'attention du modèle, et le Second Chance Backtrack (SCB), qui ramène le robot à son état précédant une erreur et force le replanning à partir de la sous-trajectoire échouée. Ce résultat interpelle directement le paradigme dominant des VLA à grande échelle, qui réclame des millions de trajectoires et des milliers d'heures GPU pour atteindre des niveaux de performance comparables. Si les chiffres se confirment en environnements non contrôlés, Uni-LaViRA suggère qu'une partie du problème de généralisation en navigation peut être résolue structurellement, via un raisonnement sur la géométrie de l'action, plutôt que par accumulation de données. Pour les intégrateurs robotiques, cela réduit potentiellement le coût d'adaptation à de nouveaux sites ou morphologies de robots, deux points de friction majeurs dans les déploiements industriels. La capacité à unifier wheeled AMR, quadrupèdes et humanoïdes sous une même architecture sans fine-tuning est particulièrement notable. L'article s'inscrit dans un contexte de compétition intense autour des architectures VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches OpenVLA ou RoboFlamingo ont chacun nécessité des pipelines de collecte de données coûteux. Uni-LaViRA ne cherche pas à remplacer ces modèles sur des tâches de manipulation précise, mais positionne le raisonnement structuré comme alternative crédible pour la navigation. Les benchmarks utilisés (HM3D, MP3D, R2R) sont des standards académiques en simulation ; la validation sur robots réels reste limitée aux quatre plateformes de l'étude, et les performances en conditions industrielles non contrôlées restent à démontrer. Aucune timeline de déploiement ni partenariat industriel n'est mentionné.

RechercheOpinion
1 source
RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde
3arXiv cs.RO 

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

Une équipe de recherche a publié RynnVLA-002, un modèle unifié combinant Vision-Language-Action (VLA) et world model, présenté en preprint sur arXiv (2511.17502v3). L'architecture couple deux composantes interdépendantes : le world model prédit des états visuels futurs à partir des actions et observations courantes, apprenant ainsi la physique implicite de l'environnement ; le modèle VLA génère en retour les actions suivantes depuis des observations visuelles brutes. Ce couplage bidirectionnel vise un apprentissage conjoint de la dynamique environnementale et de la planification motrice. Sur le benchmark de simulation LIBERO, RynnVLA-002 atteint 97,4 % de taux de succès sans pré-entraînement. En conditions réelles, dans des expériences conduites avec le framework open-source LeRobot de Hugging Face, l'intégration du world model améliore le taux de succès global de 50 % par rapport au modèle VLA seul. L'intérêt de cette architecture tient dans la mutualisation de deux paradigmes historiquement distincts. Les world models ont longtemps servi d'outils de planification offline ou de data augmentation, tandis que les VLA visent la génération d'actions en temps réel depuis des observations brutes. RynnVLA-002 cherche à démontrer leur renforcement mutuel : le world model corrige la génération d'actions en anticipant leurs conséquences visuelles, ce qui réduit la dépendance aux données d'entraînement dans des zones peu couvertes. Le gain de 50 % en real-world est significatif, mais le preprint reste peu disert sur la diversité des tâches testées et les conditions expérimentales précises, ce qui rend une évaluation indépendante prématurée. Pour les équipes confrontées au sim-to-real gap, l'idée d'ancrer une VLA dans une représentation physique anticipatrice constitue néanmoins une direction crédible. Les VLA sont devenus un terrain de compétition dense depuis Pi-0 de Physical Intelligence, OpenVLA, et les approches RoboVLMs, qui exploitent des backbones vision-langage pré-entraînés pour produire des politiques généralisables. Côté world models, des travaux comme Dreamer (DeepMind) et UniSim ont popularisé la prédiction vidéo comme supervision indirecte pour la robotique. RynnVLA-002 cherche à unifier explicitement ces deux lignes, se différenciant ainsi des architectures à modules séparés. À sa troisième version de preprint, le travail est en itération active, mais aucune affiliation institutionnelle claire ni partenariat industriel n'est mentionné dans l'abstract, ce qui limite l'évaluation de sa maturité réelle. Les prochaines étapes logiques incluront une validation sur des benchmarks plus exigeants comme CALVIN ou RLBench, et idéalement une publication des poids du modèle pour permettre une réplication indépendante.

UEL'utilisation de LeRobot (framework open-source de HuggingFace, entreprise française) comme cadre expérimental de référence valide l'écosystème robotique open-source porté par un acteur français, sans impact direct sur le marché ou la R&D en France/UE.

RechercheOpinion
1 source
EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets
4arXiv cs.RO 

EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets

Une équipe de chercheurs a publié EffiNav, un framework de navigation robotique orientée-objet (Object Goal Navigation, ObjNav) qui fusionne perception de profondeur et modèles vision-langage pour améliorer l'efficacité des trajectoires d'exploration en environnement inconnu. La contribution, déposée en preprint sur arXiv (2606.18634) en juin 2026, évalue le système sur deux simulateurs de référence du domaine, HM3D (Habitat Matterport 3D) et OVON (Open-Vocabulary Object goal Navigation), puis le valide sur robots physiques en conditions réelles. Les auteurs l'étendent également à GOAT-BENCH, un benchmark de navigation avec mémoire augmentée, pour démontrer la généralisation du framework au-delà du protocole ObjNav standard. Sur les deux métriques habituelles du domaine, taux de succès (SR) et succès pondéré par longueur de chemin (SPL), EffiNav égale ou dépasse les baselines récentes, sans que le preprint ne communique de valeurs numériques absolues permettant une comparaison chiffrée directe. L'apport principal porte moins sur le taux de réussite brut que sur le SPL, qui pénalise les trajets inutilement longs. C'est précisément là que les approches actuelles divergent : les modèles entraînés end-to-end, y compris certains VLA (Vision-Language-Action), peinent à généraliser à de nouveaux environnements, tandis que les frameworks modulaires sans apprentissage accumulent des allers-retours redondants et revisitent des zones déjà explorées. EffiNav prétend adresser ces deux pathologies simultanément en combinant une estimation de la profondeur pour la représentation géométrique de l'espace et un modèle vision-langage pour l'interprétation sémantique. Pour les intégrateurs de robots de service ou les décideurs B2B, l'efficacité de trajectoire est directement liée au temps disponible pour les tâches secondaires, donc à la rentabilité opérationnelle d'un déploiement en entrepôt ou en environnement indoor. Le champ ObjNav s'est structuré autour de l'écosystème Habitat de Meta AI Research, qui fournit les simulateurs HM3D et OVON utilisés ici. Les approches concurrentes incluent des pipelines modulaires à cartographie explicite comme SemExp ou OpenFMNav, et des VLA appliqués à la navigation. EffiNav se positionne comme un framework hybride ne nécessitant ni encodeurs supplémentaires lourds ni réentraînement complet par domaine. Aucune timeline commerciale ni partenariat industriel n'est mentionné dans le preprint ; la prochaine étape naturelle serait une validation sur des plateformes AMR variées pour confirmer le transfert sim-to-real sur des morphologies autres que celles testées.

RecherchePaper
1 source