Aller au contenu principal
VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation
RecherchearXiv cs.RO1h

VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2606.14879, juin 2026) un framework d'exploration baptisé VANDERER, conçu pour permettre à des agents mobiles de naviguer dans des environnements inconnus sans construire de carte d'occupation traditionnelle. Le système repose sur un module de curiosité visuelle (Visual Curiosity Module, VCM) qui pilote une politique de diffusion pré-entraînée en s'appuyant exclusivement sur des images monoculaires, sans LiDAR ni caméra de profondeur. Concrètement, le VCM intègre un modèle du monde de navigation qui prédit les conséquences des actions candidates, leur attribue un coût de curiosité, puis oriente le processus de diffusion vers les actions qui maximisent la superficie explorée. Évalué sur des environnements simulés variés, VANDERER explore en moyenne 13,4 % de superficie supplémentaire par rapport à NoMaD, une baseline reconnue dans le domaine de la navigation sans carte.

L'intérêt du travail tient à la contrainte matérielle assumée : une seule caméra monoculaire, omniprésente sur les plateformes robotiques à bas coût, là où LiDAR et caméras stéréo restent onéreux ou volumineux. Pour les intégrateurs et les équipes de robotique mobile, VANDERER ouvre la voie à une exploration autonome efficace sur des robots à budget capteur limité, drones, robots de surveillance périmétrique ou AGV en extérieur, sans reconstruction 3D préalable de l'environnement. Les résultats établissent aussi une corrélation directe entre curiosité visuelle (texture, nouveauté apparente de l'image) et curiosité géométrique (zones non cartographiées), ce qui valide l'hypothèse que le signal caméra seul peut servir de proxy fiable à la couverture spatiale réelle dans des contextes extérieurs. C'est un résultat non trivial qui renforce la crédibilité des politiques de diffusion comme couche de planification active, au-delà du simple suivi de waypoints.

VANDERER s'inscrit dans un courant de recherche sur la navigation sans carte qui a gagné en traction avec des travaux comme NoMaD et les politiques de navigation de type VLA (Vision-Language-Action). L'approche diffusion policy, popularisée dans la manipulation robotique et reprise dans des projets comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est ici détournée vers l'exploration spatiale pure. Le papier reste au stade de preprint arXiv et toutes les évaluations sont conduites en simulation : le gap sim-to-real n'est pas adressé, ce qui constitue une limite explicite avant tout déploiement terrain. Les étapes suivantes naturelles seraient des validations sur robots réels en extérieur et l'extension à des scénarios multi-bâtiments ou en environnements intérieurs encombrés.

À lire aussi

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
1arXiv cs.RO 

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique
2arXiv cs.RO 

SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique

Des chercheurs ont proposé SemGeoNav, un framework de navigation visuelle hiérarchique publié sur arXiv en juin 2026 (arXiv:2606.16400), conçu pour les robots devant atteindre des cibles définies par des images dans des environnements ouverts. L'architecture combine deux couches distinctes : un module de raisonnement sémantique de haut niveau issu des modèles apprenants end-to-end, et un planificateur géométrique local responsable de la sécurité immédiate. Un mécanisme de lissage temporel de trajectoire vient compléter l'ensemble pour garantir des déplacements continus et stables. Les expériences ont été menées sur un robot quadrupède Unitree Go2 dans des environnements réels, et les résultats indiquent des taux de succès supérieurs ainsi que des temps de navigation plus courts que deux baselines de référence du domaine, ViNT et NoMaD. L'apport principal de SemGeoNav réside dans le traitement d'une tension structurelle bien documentée en robotique autonome : les modèles end-to-end apprenants, en particulier les architectures de type VLA (Vision-Language-Action), excellent dans la compréhension sémantique de haut niveau mais manquent de contraintes géométriques explicites, ce qui génère des comportements imprévisibles face aux obstacles en environnement non structuré. À l'inverse, les planificateurs géométriques classiques (champ de potentiel, DWA) garantissent la sécurité locale mais peinent à interpréter des cibles visuelles haute dimension. L'approche hybride hiérarchique de SemGeoNav apporte une réponse architecturale à ce problème de fiabilité opérationnelle, avec des implications directes pour les intégrateurs déployant des robots mobiles en entrepôt ou en environnement industriel non balisé. ViNT et NoMaD, tous deux issus du Berkeley AI Research Lab, constituent les références dominantes en navigation visuelle généraliste à cible imageante. SemGeoNav se positionne explicitement contre ces deux modèles en revendiquant de meilleures performances terrain. Il s'inscrit dans un courant plus large qui remet en question les architectures purement end-to-end au profit de systèmes hybrides modulaires, une direction également explorée par plusieurs équipes européennes et asiatiques. Ce preprint ne publie pas de métriques standardisées comme le SPL (Success weighted by Path Length) ou les benchmarks HM3D/MP3D, ce qui rend difficile toute comparaison directe avec l'état de l'art; une validation à plus grande échelle et sur des jeux de données partagés constituerait la prochaine étape crédible pour ce travail.

RecherchePaper
1 source
ContactExplorer : exploration guidée par contacts pour la manipulation dextérique polyvalente
3arXiv cs.RO 

ContactExplorer : exploration guidée par contacts pour la manipulation dextérique polyvalente

Des chercheurs ont publié sur arXiv (identifiant 2603.10971v2) ContactExplorer, une méthode d'exploration par apprentissage par renforcement conçue pour les tâches de manipulation dextère avec des mains robotiques multi-doigts. Le principe central est de représenter le contact comme l'intersection géométrique entre les points de surface d'un objet et les points-clés de la main, ce qui permet au système de découvrir automatiquement quels doigts interagissent avec quelles régions d'un objet. ContactExplorer maintient un compteur de contacts conditionné sur des états d'objet discrétisés obtenus via des codes de hachage appris (hash codes), traçant la fréquence à laquelle chaque doigt explore chaque région de surface. Ce compteur est exploité selon deux mécanismes complémentaires : une récompense de couverture de contact basée sur le décompte, qui pousse l'agent vers des patterns de contact inédits, et une récompense d'atteinte à base d'énergie (energy-based reaching reward), qui guide la main vers les zones encore sous-explorées. L'intérêt de cette approche réside dans un problème structurel de la manipulation dextère : contrairement à la navigation ou à la locomotion, où l'exploration par nouveauté d'état suffit souvent, la manipulation physique fine exige des interactions contact riches et stables, que les signaux de nouveauté classiques gèrent mal (instabilité du signal de contact, inefficacité des signaux de distance, dépendance aux a priori spécifiques à la tâche). Les résultats expérimentaux sur un ensemble diversifié de tâches montrent que ContactExplorer améliore substantiellement l'efficacité d'échantillonnage et les taux de succès par rapport aux méthodes d'exploration existantes. Surtout, les patterns de contact appris en simulation se transfèrent de manière robuste au monde réel, ce qui est une validation non triviale du sim-to-real dans un domaine où ce gap reste un obstacle majeur. Ce travail s'inscrit dans un effort de recherche plus large visant à rendre l'exploration en RL agnostique aux tâches pour la manipulation dextère, un domaine où des équipes comme DeepMind (OpenAI Dactyl, 2019), Stanford, CMU et Berkeley ont accumulé des travaux fondateurs. ContactExplorer se distingue par son absence de priors spécifiques à la tâche, un point fort pour la généralisation. Publié sous forme de preprint arXiv (version 2, donc révisé), le travail n'a pas encore franchi le stade de la revue par les pairs ; une page projet est disponible à contact-explorer.github.io, mais aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

RecherchePaper
1 source
Découverte guidée de nouveaux comportements par politiques de diffusion
4arXiv cs.RO 

Découverte guidée de nouveaux comportements par politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.08743v1, juin 2026) un cadre algorithmique pour diversifier les comportements générés par les diffusion policies en robotique. Ces politiques basées sur des modèles de diffusion modélisent efficacement des distributions multimodales de trajectoires d'action, mais souffrent d'un biais documenté : avec peu de démonstrations, l'échantillonnage standard reproduit les comportements dominants et ignore les modes rares mais valides. Les auteurs combinent des correcteurs de Feynman-Kac, outil issu des processus stochastiques, avec un potentiel de guidage orientant l'échantillonnage vers des trajectoires prometteuses mais sous-représentées. Ces trajectoires candidates sont ensuite affinées par optimisation par échantillonnage, puis réintégrées dans le jeu d'entraînement pour réentraîner la politique. Les expériences portent sur plusieurs environnements de manipulation en simulation, où la méthode découvre systématiquement de nouveaux comportements exécutables. L'enjeu est concret pour les équipes travaillant sur l'apprentissage par imitation en robotique industrielle ou de service. Un robot entraîné sur peu de données converge vers une seule stratégie même lorsque plusieurs solutions existent : ce cadre propose d'explorer l'espace des comportements sans collecter davantage de démonstrations humaines, ce qui touche directement à l'efficacité des données dans les pipelines de robot learning. Les auteurs positionnent leur approche contre les méthodes de guidage classiques, qui poussent les échantillons vers des régions infaisables, et contre le couplage RL+diffusion, qui peine à sortir des minima locaux. Les résultats restent cependant limités à la simulation de manipulation; aucune validation sur robot réel n'est rapportée dans ce préprint. Les diffusion policies ont connu une adoption rapide depuis les travaux de Chi et al. en 2023, supplantant progressivement les politiques comportementales classiques sur des tâches de manipulation complexes. Le domaine est aujourd'hui concurrentiel, avec Physical Intelligence (pi0), Google DeepMind et plusieurs laboratoires universitaires poussant les limites de ces modèles génératifs. L'approche Feynman-Kac s'inscrit dans une tendance plus large de réutilisation d'outils de la physique statistique pour le contrôle robotique. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension à des tâches à horizon long, où la diversité des trajectoires est encore plus critique.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List) pourraient exploiter ce cadre pour réduire leur dépendance aux données de démonstration, mais aucun acteur ou déploiement européen n'est impliqué dans ce préprint.

RecherchePaper
1 source