Aller au contenu principal
RecherchearXiv cs.RO59min

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot.

Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site.

Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

À lire aussi

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes
1arXiv cs.RO 

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes. Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication. RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.

RechercheOpinion
1 source
FeudalNav : un framework simple pour la navigation visuelle
2arXiv cs.RO 

FeudalNav : un framework simple pour la navigation visuelle

Des chercheurs ont publié sur arXiv (référence 2602.06974) FeudalNav, un cadre hiérarchique de navigation visuelle pour robots mobiles qui ne requiert ni carte métrique, ni GPS, ni données odométriques en phase d'entraînement ou d'inférence. Le système décompose la prise de décision en plusieurs niveaux : un réseau de sélection de sous-objectifs (waypoints) léger et transférable choisit des points intermédiaires, tandis qu'un module de mémoire dans l'espace latent organise les observations visuelles passées par similarité visuelle, utilisée comme proxy de distance. Ce module de mémoire remplace les représentations topologiques classiques basées sur des graphes, sans dégradation notable des performances. Les résultats sont obtenus dans les environnements simulés Habitat AI, un benchmark standard du domaine, et montrent des scores compétitifs face aux méthodes état de l'art. Les auteurs explorent également une modalité d'navigation interactive : ils quantifient la quantité minimale d'intervention humaine nécessaire pour atteindre un taux de succès de 100% sur l'ensemble des trajectoires testées. L'intérêt de FeudalNav réside dans sa sobriété architecturale. Là où la plupart des navigateurs apprenants reposent sur des graphes topologiques coûteux à maintenir ou sur des représentations métriques qui échouent dans des environnements non cartographiés, FeudalNav prouve qu'une mémoire visuelle latente simple suffit pour guider un agent vers un objectif en terrain inconnu. Cette approche réduit les exigences d'infrastructure embarquée (pas de capteur odométrique requis) et améliore la transférabilité entre environnements, deux critères directement pertinents pour les intégrateurs de robots de service ou d'inspection industrielle. La composante interactive est notable : même une intervention humaine minimale et ponctuelle augmente significativement le taux de réussite global, ce qui ouvre la voie à des architectures human-in-the-loop adaptatives. FeudalNav s'inscrit dans un courant de recherche actif visant à dépasser les navigateurs métriques classiques (SLAM, cartographie 2D/3D) en faveur d'approches fondées sur l'apprentissage et la mémoire sémantique, directement inspirées de la cognition spatiale humaine. Le benchmark Habitat AI, développé par Meta AI Research, est devenu la référence pour évaluer ce type de systèmes en simulation. Les méthodes concurrentes incluent les approches à graphes topologiques (NoMaD, ViNT de Berkeley) et les navigateurs basés sur des Vision-Language Models (VLMaps, CoW). FeudalNav se distingue par sa légèreté et l'absence d'odométrie, mais reste pour l'instant cantonné à la simulation, sans validation sur robot physique annoncée dans cet article.

RecherchePaper
1 source
Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée
3arXiv cs.RO 

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée

Des chercheurs présentent Uni-LaViRA (Language-Vision-Robot Actions Translation), une architecture de navigation incarnée publiée le 28 mai 2026 sur arXiv (2605.27582), capable de piloter quatre types de robots distincts, robots à roues, quadrupèdes, humanoïdes et un drone à voilure fixe construit sur mesure, sans aucun entraînement spécifique sur des trajectoires robot. Le système s'appuie sur des grands modèles multimodaux de langage préentraînés (MLLMs) pour décomposer la navigation en deux types de commandes : une commande directionnelle sémantique en langage naturel, et une cible visuelle au niveau pixel. En mode zéro-shot, Uni-LaViRA atteint 60,7 % de taux de succès sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,0 % sur OpenUAV. Deux mécanismes structurent la boucle d'agent : le TODO List Memory (TDM), qui maintient une liste de sous-objectifs mise à jour à chaque pas et réinjectée dans la fenêtre d'attention du modèle, et le Second Chance Backtrack (SCB), qui ramène le robot à son état précédant une erreur et force le replanning à partir de la sous-trajectoire échouée. Ce résultat interpelle directement le paradigme dominant des VLA à grande échelle, qui réclame des millions de trajectoires et des milliers d'heures GPU pour atteindre des niveaux de performance comparables. Si les chiffres se confirment en environnements non contrôlés, Uni-LaViRA suggère qu'une partie du problème de généralisation en navigation peut être résolue structurellement, via un raisonnement sur la géométrie de l'action, plutôt que par accumulation de données. Pour les intégrateurs robotiques, cela réduit potentiellement le coût d'adaptation à de nouveaux sites ou morphologies de robots, deux points de friction majeurs dans les déploiements industriels. La capacité à unifier wheeled AMR, quadrupèdes et humanoïdes sous une même architecture sans fine-tuning est particulièrement notable. L'article s'inscrit dans un contexte de compétition intense autour des architectures VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches OpenVLA ou RoboFlamingo ont chacun nécessité des pipelines de collecte de données coûteux. Uni-LaViRA ne cherche pas à remplacer ces modèles sur des tâches de manipulation précise, mais positionne le raisonnement structuré comme alternative crédible pour la navigation. Les benchmarks utilisés (HM3D, MP3D, R2R) sont des standards académiques en simulation ; la validation sur robots réels reste limitée aux quatre plateformes de l'étude, et les performances en conditions industrielles non contrôlées restent à démontrer. Aucune timeline de déploiement ni partenariat industriel n'est mentionné.

RechercheOpinion
1 source
Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone
4arXiv cs.RO 

Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone

Une équipe de recherche dépose sur arXiv (référence 2604.26694) X-WAM, un modèle de monde 4D unifié capable d'exécuter des actions robotiques en temps réel tout en générant simultanément des reconstructions vidéo haute fidélité et des cartes 3D de l'environnement futur. Contrairement à UWM et aux approches antérieures limitées à l'espace 2D en pixels, X-WAM prédit des flux RGB-D multi-caméras : une branche de prédiction de profondeur est greffée sur les derniers blocs d'un Diffusion Transformer vidéo pré-entraîné, une adaptation légère qui capitalise sur des priors visuels existants sans entraînement from scratch. La contribution technique centrale est l'Asynchronous Noise Sampling (ANS) : pendant l'inférence, les actions robotiques sont décodées en quelques étapes de débruitage pour respecter les contraintes de latence temps réel, tandis que la génération vidéo bénéficie du pipeline de débruitage complet. Pré-entraîné sur 5 800 heures de données robotiques, X-WAM atteint 79,2 % de taux de succès moyen sur le benchmark RoboCasa et 90,7 % sur RoboTwin 2.0, surpassant les méthodes existantes sur les métriques visuelles et géométriques de reconstruction. Le compromis non résolu entre richesse de modélisation du monde et latence d'exécution est le noeud central de ce travail. Les architectures VLA actuelles, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, génèrent des actions rapidement mais n'estiment pas la géométrie 3D de l'environnement ; à l'inverse, les modèles génératifs produisent des représentations spatiales riches mais peinent à décoder à la cadence exigée par le contrôle robotique temps réel. ANS prétend supprimer ce dilemme en allouant des budgets de débruitage asymétriques entre les deux sorties à l'inférence, tout en maintenant un alignement de distribution pendant l'entraînement pour éviter l'écart train/test. Si ces résultats tiennent en conditions réelles, ce design ouvrirait une voie architecturale directe pour la manipulation complexe en espace non structuré. X-WAM s'inscrit dans la vague de travaux visant à unifier perception, modélisation du monde et contrôle dans un seul réseau neuronal, une direction portée par Genie 2 de DeepMind, UniSim de Google et les recherches de World Labs. Le recours aux priors d'un modèle de diffusion vidéo pré-entraîné pour le grounding spatial est une stratégie partagée par plusieurs travaux récents sur le sim-to-real et les VLA de prochaine génération. Cela dit, l'article reste une prépublication arXiv sans revue par les pairs, et les benchmarks RoboCasa et RoboTwin 2.0 sont entièrement simulés : aucun déploiement sur robot physique n'est documenté. La validation sim-to-real constituera l'épreuve décisive, un écart qui a historiquement fait trébucher des systèmes très performants en environnement virtuel.

RechercheOpinion
1 source