Aller au contenu principal
VISTA : navigation visuelle à l'échelle par conditionnement sur l'historique d'actions
RecherchearXiv cs.RO1h

VISTA : navigation visuelle à l'échelle par conditionnement sur l'historique d'actions

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

VISTA, un nouveau modèle de navigation visuelle présenté en preprint (arXiv:2606.17294), s'attaque à une faille structurelle identifiée dans les Vision Navigation Foundation Models (VNMs) actuels : la normalisation des actions prédites. Lorsqu'un VNM produit des trajectoires normalisées, l'application d'un facteur d'échelle différent selon le robot ou l'environnement déforme la géométrie physique de la trajectoire, ce qui dégrade les performances de navigation et augmente les risques de collision. Pour corriger cela, VISTA conditionne ses prédictions sur l'historique normalisé des actions exécutées, en parallèle des observations visuelles, offrant au modèle un contexte explicite sur la relation entre ses sorties et le déplacement physique réel du robot. Le modèle intègre également un encodeur DINOv3, dont les représentations plus riches permettent de mieux discriminer les environnements visuellement répétitifs (couloirs, entrepôts) où les VNMs classiques peinent à se localiser. En déploiement zéro-shot dans trois environnements réels (extérieur, forêt, bureau), VISTA affiche 100 % de précision dans la prédiction des objectifs et un taux moyen de 95 % de points de passage atteints.

Ce résultat éclaire un angle mort largement sous-estimé dans le déploiement des politiques de navigation généralisées : l'invariance à l'échelle. Un modèle entraîné sur une flotte homogène peut échouer sur un robot dont la calibration diffère légèrement, sans qu'aucun défaut de l'architecture ne soit en cause. VISTA propose une correction légère mais systémique, applicable sans ré-entraînement, ce qui représente un avantage concret pour les intégrateurs qui déploient des politiques de navigation sur des flottes hétérogènes. Les résultats à 100 % méritent toutefois d'être nuancés : ils portent sur trois environnements seulement, et le terme "zéro-shot" désigne ici l'absence de fine-tuning spécifique aux sites de test, non une absence totale de données d'entraînement supervisé.

VISTA s'inscrit dans la montée en puissance des modèles de navigation généraux, portée ces deux dernières années par des travaux comme NoMaD (CMU/Berkeley, 2023) ou GNFactor, qui cherchent tous à produire une politique de déplacement transférable sans adaptation manuelle. L'usage de DINOv3 suit une tendance nette : les encodeurs de la famille DINOv2/v3 (Meta FAIR) s'imposent progressivement comme backbone de référence pour les tâches nécessitant une compréhension géométrique fine de l'environnement. Le preprint ne mentionne ni partenaires industriels ni timeline de commercialisation ; il s'agit à ce stade d'une contribution académique, sans annonce de déploiement à grande échelle.

Dans nos dossiers

À lire aussi

EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe
1arXiv cs.RO 

EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe

Des chercheurs présentent EAGG (Embodiment-Aligned Grasp Generation via Geometry-Aware Graph Conditioning), un modèle de génération de prises robotiques multi-effecteur publié en prépublication sur arXiv (arXiv:2506.18092). L'architecture représente chaque effecteur terminal via un graphe topologique et un espace de contrôle bas-dimensionnel propre à chaque morphologie, qu'il s'agisse de pinces parallèles classiques ou de mains dextères à plusieurs doigts. Un module backbone figé convertit l'état articulé courant en tokens géométriques réutilisables, qui sont rafraîchis de façon itérative tout au long du processus d'échantillonnage via un mécanisme baptisé iterative geometry injection. Sur le benchmark MultiGripperGrasp, EAGG atteint 56,17 % de taux de succès moyen sur six effecteurs d'entraînement, soit un écart de seulement 1,10 point de pourcentage par rapport à des modèles spécialisés entraînés séparément pour chaque préhenseur. L'injection géométrique itérative réduit par ailleurs la distance médiane de contact de 0,239 cm à 0,189 cm. Le code est disponible en open source sur GitHub. Ce résultat s'attaque à l'un des verrous les plus concrets pour les intégrateurs industriels : la nécessité de réentraîner ou d'affiner un modèle de saisie à chaque changement de préhenseur. L'approche dominante consiste aujourd'hui soit à entraîner un modèle par géométrie d'effecteur (coûteux en données et en compute), soit à encoder l'identité de l'effecteur via un descripteur statique, ce qui dégrade le transfert dès que la topologie ou le couplage d'actionnement diverge significativement. EAGG montre qu'encoder explicitement la structure morphologique dans un générateur partagé, plutôt que de masquer les différences inter-effecteurs, améliore à la fois la performance générale et la transférabilité zero-shot vers des préhenseurs non vus lors de l'entraînement. C'est un argument de poids pour les équipes robotiques cherchant à mutualiser les politiques de saisie sur une flotte multi-effecteurs. Ce travail s'inscrit dans la dynamique plus large de politiques robotiques universelles que poursuivent simultanément Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec Helix, tous confrontés au même défi de transfert inter-morphologie. EAGG se concentre sur le sous-problème de la saisie et propose une solution fondée sur les graphes, là où d'autres approches misent sur des encodages continus ou des plongements latents partagés. Il s'agit pour l'instant d'une contribution académique sans déploiement industriel annoncé ni partenariat applicatif déclaré, et les chiffres de performance sont à lire dans le cadre contrôlé du benchmark MultiGripperGrasp, ce qui laisse ouverte la question du sim-to-real gap en conditions réelles.

RechercheActu
1 source
WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
2arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
Augmentation de l'environnement orientée tâche pour une navigation fiable via diffusion conditionnelle protégée
3arXiv cs.RO 

Augmentation de l'environnement orientée tâche pour une navigation fiable via diffusion conditionnelle protégée

Une équipe de chercheurs présente SCoDA (Shielded Conditional Diffusion for Environment Augmentation), publiée sur arXiv (2606.15154) en juin 2026, qui inverse la logique classique de la navigation robotique sous observabilité partielle. Plutôt que d'améliorer le robot via de meilleurs capteurs ou la planification dans l'espace des croyances, SCoDA optimise le placement de marqueurs fiduciels visuels dans l'environnement pour que le robot puisse exécuter une trajectoire planifiée de manière fiable. Le système prend en entrée une carte de l'environnement, une trajectoire de tâche et un budget limité de marqueurs, puis détermine où les poser pour éviter l'accumulation d'erreur de localisation aux points critiques de la trajectoire. Sur des benchmarks simulés et des déploiements matériels réels, SCoDA améliore la fiabilité d'exécution et le temps de complétion par rapport aux baselines comparées, sans que les marges exactes soient détaillées dans le préprint. L'intérêt industriel est concret : dans un entrepôt ou une usine où les systèmes AMR (autonomous mobile robots) peinent dans des zones pauvres en repères visuels, quelques marqueurs bien placés peuvent valoir plus qu'un upgrade capteur. SCoDA modélise ce problème via un modèle de diffusion conditionnel, entraîné à apprendre la distribution des configurations de marqueurs performantes en fonction de la trajectoire, des perturbations attendues et du profil d'exécution souhaité. Son "shielded sampler" identifie les points de la trajectoire où une correction de pose est indispensable pour ne pas compromettre le contrôle, et oriente la génération vers des agencements respectant le budget de marqueurs. Cela évite la propagation coûteuse d'incertitude typique du belief-space planning, souvent fragile dans les zones mal couvertes par les capteurs embarqués. SCoDA s'inscrit dans une tendance qui applique les modèles de diffusion à la planification et à la configuration robotique, aux côtés des Visual Language Action models (VLA) et des techniques de localisation active. Sa particularité est de cibler le côté infrastructure plutôt que l'embarqué, une direction peu explorée face aux acteurs dominants centrés sur le SLAM, la fusion capteurs ou l'active localization onboard. Le code, les modèles et le dataset sont disponibles sur scoda-diffusion.github.io. Aucune timeline de déploiement industriel n'est annoncée, et le travail reste à ce stade un préprint non soumis à peer review.

UELes flottes AMR déployées dans les entrepôts et usines européens pourraient bénéficier indirectement de cette approche, qui améliore la fiabilité de navigation sans mise à niveau capteur coûteuse, mais aucun partenaire ou déploiement européen n'est mentionné.

RecherchePaper
1 source
HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage
4arXiv cs.RO 

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

Des chercheurs ont publié en mai 2026 HCSG (Human-Centric Semantic-Geometric Reasoning), un cadre de navigation en langage naturel (VLN) conçu pour les environnements intérieurs dynamiques peuplés de piétons, déposé sur arXiv sous la référence 2605.13321. Contrairement aux approches existantes qui traitent les humains comme de simples obstacles mobiles détectés par indices visuels, HCSG introduit un module unifié de compréhension humaine combinant deux capacités complémentaires : la prévision géométrique, qui anticipe poses et trajectoires futures des personnes, et l'interprétation sémantique, qui exploite un modèle vision-langage (VLM) pour générer des descriptions textuelles des actions et intentions perçues. Ces représentations sont fusionnées dans une carte topologique sur laquelle l'agent planifie ses déplacements en fonction des instructions reçues. Une fonction de perte de distance sociale (social distance loss) contraint le robot à maintenir des distances d'interaction socialement acceptables. Sur le benchmark HA-VLNCE, le framework affiche un gain de 14 % sur le taux de succès et une réduction de 34 % du taux de collision face à l'état de l'art, des chiffres à interpréter avec la prudence habituelle réservée aux préprints non encore évalués en pair-à-pair. Ces résultats pointent un changement de paradigme pertinent pour la robotique de service en espace ouvert. La distinction clé de HCSG est de passer d'un évitement passif (détecter puis contourner) à une compréhension active des comportements : le robot infère si un piéton s'apprête à changer de direction, à s'arrêter ou à interagir, ce qui permet une planification plus fluide. L'intégration d'un VLM est cohérente avec la montée en puissance des architectures vision-langage-action (VLA), mais l'article valide ici leur utilité spécifique pour la navigation sociale, pas seulement la manipulation. Pour les intégrateurs de robots de livraison intérieure ou de guidage hospitalier, c'est un signal que les approches purement géométriques atteignent leurs limites dans des environnements non contrôlés. La navigation VLN a progressé rapidement depuis les benchmarks R2R et REVERIE, portée par les transformers de vision et des modèles comme CLIP. HA-VLNCE, sur lequel HCSG est évalué, est une extension de VLN-CE intégrant des agents humains dynamiques, le rapprochant davantage des conditions de déploiement réelles. Les approches concurrentes en navigation sociale incluent des travaux issus de Stanford, CMU ou MIT, et des frameworks comme NaviSTAR. Côté industriel, les robots de Keenon, Aethon ou Savioke opèrent encore largement dans des couloirs semi-contrôlés précisément pour éviter ces problèmes de cohabitation. HCSG reste une contribution académique sans validation industrielle annoncée, mais une page de projet dédiée laisse entrevoir des travaux futurs sur robot physique.

RechercheOpinion
1 source