RecherchearXiv cs.RO 16 juin 2026

VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2606.14879, juin 2026) un framework d'exploration baptisé VANDERER, conçu pour permettre à des agents mobiles de naviguer dans des environnements inconnus sans construire de carte d'occupation traditionnelle. Le système repose sur un module de curiosité visuelle (Visual Curiosity Module, VCM) qui pilote une politique de diffusion pré-entraînée en s'appuyant exclusivement sur des images monoculaires, sans LiDAR ni caméra de profondeur. Concrètement, le VCM intègre un modèle du monde de navigation qui prédit les conséquences des actions candidates, leur attribue un coût de curiosité, puis oriente le processus de diffusion vers les actions qui maximisent la superficie explorée. Évalué sur des environnements simulés variés, VANDERER explore en moyenne 13,4 % de superficie supplémentaire par rapport à NoMaD, une baseline reconnue dans le domaine de la navigation sans carte.

L'intérêt du travail tient à la contrainte matérielle assumée : une seule caméra monoculaire, omniprésente sur les plateformes robotiques à bas coût, là où LiDAR et caméras stéréo restent onéreux ou volumineux. Pour les intégrateurs et les équipes de robotique mobile, VANDERER ouvre la voie à une exploration autonome efficace sur des robots à budget capteur limité, drones, robots de surveillance périmétrique ou AGV en extérieur, sans reconstruction 3D préalable de l'environnement. Les résultats établissent aussi une corrélation directe entre curiosité visuelle (texture, nouveauté apparente de l'image) et curiosité géométrique (zones non cartographiées), ce qui valide l'hypothèse que le signal caméra seul peut servir de proxy fiable à la couverture spatiale réelle dans des contextes extérieurs. C'est un résultat non trivial qui renforce la crédibilité des politiques de diffusion comme couche de planification active, au-delà du simple suivi de waypoints.

VANDERER s'inscrit dans un courant de recherche sur la navigation sans carte qui a gagné en traction avec des travaux comme NoMaD et les politiques de navigation de type VLA (Vision-Language-Action). L'approche diffusion policy, popularisée dans la manipulation robotique et reprise dans des projets comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est ici détournée vers l'exploration spatiale pure. Le papier reste au stade de preprint arXiv et toutes les évaluations sont conduites en simulation : le gap sim-to-real n'est pas adressé, ce qui constitue une limite explicite avant tout déploiement terrain. Les étapes suivantes naturelles seraient des validations sur robots réels en extérieur et l'extension à des scénarios multi-bâtiments ou en environnements intérieurs encombrés.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper

1 source

2arXiv cs.RO

DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion

DiffusionVS, déposé sur arXiv (2506.19397) en juin 2026, propose un cadre génératif pour le visual servoing robotique fondé sur la Diffusion Policy. Le système prend en entrée les coordonnées normalisées des coins de marqueurs visuels observés par la caméra embarquée, et génère des commandes de vitesse caméra via un processus de débruitage conditionnel. Pour contourner les limitations de généralisation propres aux modèles entraînés sur jeux de données statiques, les auteurs adoptent un paradigme d'entraînement en ligne : le modèle collecte continuellement de nouvelles expériences interactives pour diversifier sa distribution d'apprentissage. Les résultats rapportés atteignent un taux de succès de quasi 100% en simulation et 93% en expériences physiques réelles. Le visual servoing par régression classique souffre de deux problèmes structurels : le jitter de trajectoire causé par des mappings mono-étape sensibles au bruit, et l'accumulation d'erreurs lors de distribution shifts en cours de trajectoire. La Diffusion Policy adresse ces deux points simultanément. En prédisant des séquences d'actions plutôt que des commandes isolées, elle maintient la cohérence temporelle. L'augmentation implicite de données inhérente au processus de débruitage renforce par ailleurs la robustesse aux perturbations. Ce qui est notable, au-delà des performances brutes, c'est la généricité démontrée du module : intégré à des architectures de visual servoing existantes, il améliore systématiquement leurs résultats, sans modification de leur pipeline de base. Cela valide le mécanisme diffusion comme composant réutilisable, pas seulement comme architecture ad hoc. La Diffusion Policy, popularisée par Chi et al. en 2023 (Columbia/MIT), s'est imposée en apprentissage par imitation pour la manipulation, puis adoptée par Physical Intelligence dans pi-0 et d'autres systèmes VLA. Son application au visual servoing, problème classique de robotique de précision, était moins explorée. Les approches concurrentes restent dominées par la régression directe ou les contrôleurs IBVS/PBVS à base de features géométriques. La contribution principale ici est l'entraînement en ligne, qui contourne le problème de covariate shift sans nécessiter un dataset exhaustif pré-collecté, contrainte majeure en déploiement industriel. Les limites actuelles sont notables : le système repose sur des marqueurs visuels structurés (AprilTags), et les expériences physiques ne précisent pas le type de robot ni les conditions d'environnement, ce qui rend difficile l'évaluation de la maturité pour un déploiement réel.

RecherchePaper

1 source

3arXiv cs.RO

SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique

Des chercheurs ont proposé SemGeoNav, un framework de navigation visuelle hiérarchique publié sur arXiv en juin 2026 (arXiv:2606.16400), conçu pour les robots devant atteindre des cibles définies par des images dans des environnements ouverts. L'architecture combine deux couches distinctes : un module de raisonnement sémantique de haut niveau issu des modèles apprenants end-to-end, et un planificateur géométrique local responsable de la sécurité immédiate. Un mécanisme de lissage temporel de trajectoire vient compléter l'ensemble pour garantir des déplacements continus et stables. Les expériences ont été menées sur un robot quadrupède Unitree Go2 dans des environnements réels, et les résultats indiquent des taux de succès supérieurs ainsi que des temps de navigation plus courts que deux baselines de référence du domaine, ViNT et NoMaD. L'apport principal de SemGeoNav réside dans le traitement d'une tension structurelle bien documentée en robotique autonome : les modèles end-to-end apprenants, en particulier les architectures de type VLA (Vision-Language-Action), excellent dans la compréhension sémantique de haut niveau mais manquent de contraintes géométriques explicites, ce qui génère des comportements imprévisibles face aux obstacles en environnement non structuré. À l'inverse, les planificateurs géométriques classiques (champ de potentiel, DWA) garantissent la sécurité locale mais peinent à interpréter des cibles visuelles haute dimension. L'approche hybride hiérarchique de SemGeoNav apporte une réponse architecturale à ce problème de fiabilité opérationnelle, avec des implications directes pour les intégrateurs déployant des robots mobiles en entrepôt ou en environnement industriel non balisé. ViNT et NoMaD, tous deux issus du Berkeley AI Research Lab, constituent les références dominantes en navigation visuelle généraliste à cible imageante. SemGeoNav se positionne explicitement contre ces deux modèles en revendiquant de meilleures performances terrain. Il s'inscrit dans un courant plus large qui remet en question les architectures purement end-to-end au profit de systèmes hybrides modulaires, une direction également explorée par plusieurs équipes européennes et asiatiques. Ce preprint ne publie pas de métriques standardisées comme le SPL (Success weighted by Path Length) ou les benchmarks HM3D/MP3D, ce qui rend difficile toute comparaison directe avec l'état de l'art; une validation à plus grande échelle et sur des jeux de données partagés constituerait la prochaine étape crédible pour ce travail.

RecherchePaper

1 source

4arXiv cs.RO

EmbodiedDiffusion : diffusion visuelle guidée par la franchissabilité pour la navigation de robots hétérogènes

Des chercheurs présentent EmbodiedDiffusion, un framework basé sur la diffusion qui prédit simultanément des cartes de franchissabilité (traversability) et génère des trajectoires directement à partir d'images RGB, sans carte ni planificateur séparé. Le système distille les connaissances sémantiques d'un modèle vision-langage (VLM) enseignant vers un modèle étudiant léger pendant l'entraînement, ce qui permet une inférence sans prompt, en temps réel, une fois déployé. Un mécanisme de conditionnement modulaire basé sur FiLM isole le raisonnement spécifique à chaque plateforme robotique dans un sous-ensemble compact et entraînable du réseau, sans toucher au backbone visuel ni au modèle de diffusion de trajectoire. Testé en environnements intérieurs sur des robots quadrupèdes et aériens, le système atteint un taux de réussite de navigation de 80 à 100% en régime de données complètes, avec un temps d'inférence de 90 millisecondes, et s'adapte à une nouvelle plateforme robotique avec seulement 10 minutes de collecte de données visuelles. Il s'agit d'une quatrième version révisée d'un article déposé sur arXiv, donc d'un travail académique et non d'un produit commercialisé. L'intérêt principal tient à l'unification de deux tâches habituellement traitées séparément, l'estimation de franchissabilité et la planification de trajectoire, dans un seul modèle bout-en-bout qui se passe de cartographie lourde et de réglage manuel. Pour les intégrateurs travaillant avec des flottes hétérogènes (drones, quadrupèdes, à terme humanoïdes), la promesse clé est la portabilité rapide entre plateformes robotiques sans réentraînement complet, un point de friction connu des pipelines de navigation actuels. Le chiffre de 90 ms d'inférence, s'il se confirme hors laboratoire, positionnerait l'approche comme compatible temps réel sur du matériel embarqué, un critère souvent absent des démonstrations VLM à base de prompts. Les approches dominantes en navigation autonome reposent soit sur des VLM pilotés par prompts, coûteux en latence, soit sur des pipelines découplés associant cartographie SLAM et planificateurs classiques, longs à déployer et à calibrer par robot. EmbodiedDiffusion s'inscrit dans la tendance plus large des modèles vision-action (VLA) qui cherchent à remplacer ces chaînes modulaires par un apprentissage de bout en bout, dans la lignée des travaux sur la généralisation cross-embodiment. Les résultats restent pour l'instant limités à des environnements intérieurs contrôlés avec deux types de plateformes ; leur validation sur des cas industriels réels et sur davantage de morphologies robotiques reste une étape à venir.

RechercheActu

1 source