RecherchearXiv cs.RO 15 juin 2026

Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont présenté sur arXiv (2512.21201, v3, déposé en décembre 2025) Schrödinger's Navigator, un système de navigation zéro-shot d'objets (ZSON) pour robots mobiles. Le principe : à l'inférence, le système génère plusieurs "futurs 3D imaginés" le long de trajectoires candidates, maintenant une superposition de représentations plausibles de la scène plutôt que de s'engager sur une carte unique. Un échantillonneur adaptatif concentre l'effort sur les zones occultées et incertaines, tandis qu'une Future-Aware Value Map (FAVM) agrège ces projections pour sélectionner des waypoints proactifs et conscients des risques. Les expériences ont été menées en simulation et sur un quadrupède physique Unitree Go2 dans des scènes encombrées à forte occlusion, avec des résultats supérieurs aux meilleures baselines ZSON actuelles en termes de détection de cibles cachées.

Le fossé simulation-réel est l'un des obstacles structurels de la robotique de service : les systèmes efficaces en simulation se dégradent souvent dans des environnements réels encombrés, où les zones inexplorées rendent l'inférence sur une scène unique fragile et risquée. Schrödinger's Navigator attaque ce verrou en raisonnant sur des futurs hypothétiques à l'inférence, sans retraining, ce qui ouvre la voie à une navigation autonome sans cartographie préalable dans des entrepôts, hôpitaux ou bâtiments publics non structurés. La validation sur hardware physique (Go2) plutôt qu'exclusivement en simulation renforce la crédibilité de l'approche, même si les métriques précises (taux de succès chiffrés, nombre de scènes testées) n'apparaissent pas dans le résumé publié.

La ZSON est un champ actif mobilisant laboratoires et équipes R&D industrielles, avec des approches concurrentes basées sur des modèles de langage visuel (VLM) ou des représentations sémantiques 3D comme les NeRF ou le Gaussian Splatting. L'originalité de cette proposition est l'usage d'un modèle de monde 3D conditionné par la trajectoire pour projeter des futurs probables, une transposition directe du paradoxe de Schrödinger à la planification sous incertitude. La recherche, déjà en troisième version sur arXiv, reste purement académique : aucun déploiement commercial ni pilote industriel n'est annoncé. Elle constitue néanmoins un signal pertinent pour les équipes travaillant sur la navigation autonome en environnements dynamiques et non structurés, en particulier dans le contexte de l'essor des robots de service et des humanoïdes de deuxième génération.

Dans nos dossiers

Unitree World models arXiv cs.RO

À lire aussi

1arXiv cs.RO

REST: arbre de Steiner explorateur à horizon glissant pour la navigation vers un objet en zero-shot

Une équipe de recherche propose REST (Receding Horizon Explorative Steiner Tree), un nouveau cadre de navigation robotique pour la tâche dite de "zero-shot object-goal navigation" (ZSON) : faire trouver un objet cible à un robot dans un environnement totalement inconnu, sans entraînement spécifique à la tâche. Décrit dans une version révisée d'un article déposé sur arXiv (2603.18624v2), le système est entièrement "training-free". Il fonctionne en trois étapes : construction en ligne d'une carte 3D explicite et à vocabulaire ouvert à partir de flux caméra RGB-D, génération d'un arbre de trajectoires sûres et informatives centré sur l'agent via un planificateur par échantillonnage, puis sélection du meilleur chemin par un raisonnement en chaîne de pensée (chain-of-thought) confié à un LLM, chaque branche de l'arbre étant traduite en récit spatial textuel. Testé sur trois benchmarks de référence du domaine, Gibson, HM3D et HSSD, REST se classe systématiquement parmi les meilleures méthodes en taux de réussite et en efficacité de trajectoire. L'apport principal n'est pas le LLM lui-même, déjà largement utilisé pour la navigation sémantique, mais la façon de structurer l'espace des options qu'on lui soumet. Les approches hiérarchiques existantes réduisent généralement chaque candidat à un simple point de destination noté selon son utilité finale, ce qui masque l'information utile collectée en cours de route et empêche de comparer des groupes de trajectoires apparentées. En remplaçant cette liste plate par un arbre de chemins partageant des segments communs, REST permet un raisonnement grossier-vers-fin : le LLM peut écarter ou explorer des branches entières avant d'examiner chaque feuille individuellement, ce qui compresse un espace combinatoire autrement ingérable. Pour les équipes travaillant sur des agents de navigation autonome ou des architectures VLA embarquées, c'est un signal que la qualité de la représentation de l'espace de décision pèse autant que la puissance du modèle de raisonnement utilisé pour trancher. Le travail s'inscrit dans la lignée des méthodes hiérarchiques ZSON qui séparent la représentation de la scène ("belief") de la prise de décision ("policy"), une architecture déjà courante dans la littérature récente sur la navigation sémantique assistée par LLM, mais qui jusqu'ici traitait l'interface entre ces deux modules comme un simple héritage technique plutôt que comme un axe de conception à part entière.

RecherchePaper

1 source

2arXiv cs.RO

EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets

Une équipe de chercheurs a publié EffiNav, un framework de navigation robotique orientée-objet (Object Goal Navigation, ObjNav) qui fusionne perception de profondeur et modèles vision-langage pour améliorer l'efficacité des trajectoires d'exploration en environnement inconnu. La contribution, déposée en preprint sur arXiv (2606.18634) en juin 2026, évalue le système sur deux simulateurs de référence du domaine, HM3D (Habitat Matterport 3D) et OVON (Open-Vocabulary Object goal Navigation), puis le valide sur robots physiques en conditions réelles. Les auteurs l'étendent également à GOAT-BENCH, un benchmark de navigation avec mémoire augmentée, pour démontrer la généralisation du framework au-delà du protocole ObjNav standard. Sur les deux métriques habituelles du domaine, taux de succès (SR) et succès pondéré par longueur de chemin (SPL), EffiNav égale ou dépasse les baselines récentes, sans que le preprint ne communique de valeurs numériques absolues permettant une comparaison chiffrée directe. L'apport principal porte moins sur le taux de réussite brut que sur le SPL, qui pénalise les trajets inutilement longs. C'est précisément là que les approches actuelles divergent : les modèles entraînés end-to-end, y compris certains VLA (Vision-Language-Action), peinent à généraliser à de nouveaux environnements, tandis que les frameworks modulaires sans apprentissage accumulent des allers-retours redondants et revisitent des zones déjà explorées. EffiNav prétend adresser ces deux pathologies simultanément en combinant une estimation de la profondeur pour la représentation géométrique de l'espace et un modèle vision-langage pour l'interprétation sémantique. Pour les intégrateurs de robots de service ou les décideurs B2B, l'efficacité de trajectoire est directement liée au temps disponible pour les tâches secondaires, donc à la rentabilité opérationnelle d'un déploiement en entrepôt ou en environnement indoor. Le champ ObjNav s'est structuré autour de l'écosystème Habitat de Meta AI Research, qui fournit les simulateurs HM3D et OVON utilisés ici. Les approches concurrentes incluent des pipelines modulaires à cartographie explicite comme SemExp ou OpenFMNav, et des VLA appliqués à la navigation. EffiNav se positionne comme un framework hybride ne nécessitant ni encodeurs supplémentaires lourds ni réentraînement complet par domaine. Aucune timeline commerciale ni partenariat industriel n'est mentionné dans le preprint ; la prochaine étape naturelle serait une validation sur des plateformes AMR variées pour confirmer le transfert sim-to-real sur des morphologies autres que celles testées.

RecherchePaper

1 source

3arXiv cs.RO

SkillNav : intervention par compétence au niveau des scores pour la navigation zero-shot vers un objet

Une équipe de recherche publie SkillNav, un framework de navigation pour agents basés sur des modèles vision-langage (VLM), destiné à la navigation zero-shot vers un objet cible (object-goal navigation). Le système exploite la carte de valeurs de curiosité déjà maintenue par les navigateurs VLM modernes comme support inscriptible sur lequel des compétences comportementales modulaires s'ajoutent sans coût de tokens supplémentaire. Ces compétences sont organisées en trois niveaux d'autorité croissante : le réglage souple (pondération proportionnelle), le renforcement de borne inférieure (garanties au niveau des régions) et le remplacement forcé (actions imposées par seuil), combinés selon un ordre de composition fixe. Le système est entraîné une fois sans réentraînement additionnel (training-free) et établit de nouveaux records sur trois benchmarks de référence : un score SPL de 25,5 sur MP3D, 39,3 sur HM3D v0.1 et 43,2 sur HM3D v0.2, soit une amélioration allant jusqu'à 6,0 points par rapport à la meilleure méthode antérieure, avec les meilleurs taux de réussite observés (69,7 % sur HM3D v0.1 et 75,9 % sur HM3D v0.2). L'enjeu dépasse la simple compétition de benchmarks : les agents de navigation basés sur des VLM en mode zero-shot souffrent typiquement d'un raisonnement image par image, sans mémoire comportementale entre les étapes, ce qui provoque des blocages en cul-de-sac, des boucles dans une même pièce ou des trajectoires détournées vers une cible pourtant détectée. Les correctifs existants, fondés sur l'ajout d'instructions textuelles, alourdissent le budget de tokens et peinent à encoder des signaux intrinsèquement spatiaux comme les angles ou les coordonnées de vue. En inscrivant la mémoire directement sur la carte spatiale plutôt que dans le prompt, SkillNav propose une piste pour améliorer les capacités de navigation par simple ajout de nouvelles compétences, sans retoucher le modèle VLM sous-jacent ni perturber les comportements déjà en place. Ce travail s'inscrit dans la lignée des recherches récentes sur la navigation d'objets sans apprentissage spécifique, où les VLM généralistes sont mobilisés directement comme moteurs de décision pour des robots ou agents simulés, en s'appuyant sur des jeux de données de référence comme Matterport3D (MP3D) et Habitat-Matterport 3D (HM3D). L'approche se positionne face aux méthodes de navigation par prompt engineering, jugées coûteuses en tokens et limitées pour représenter l'espace. En proposant une architecture extensible où chaque nouvelle compétence s'enregistre indépendamment, les auteurs ouvrent la voie à un raffinement continu du comportement de navigation, sans les cycles de réentraînement habituellement nécessaires pour intégrer de nouvelles capacités.

RecherchePaper

1 source

4arXiv cs.RO

UAV-ON : un référentiel pour la navigation aérienne autonome vers des objets en monde ouvert

Un nouveau benchmark baptisé UAV-ON vise à évaluer la capacité de drones autonomes à localiser des objets dans de vastes environnements ouverts, sans dépendre d'instructions linguistiques détaillées. Publié sur arXiv (2508.00288v5), le jeu de données couvre 14 environnements haute fidélité construits sous Unreal Engine, mêlant zones urbaines, milieux naturels et espaces mixtes, avec des agencements spatiaux complexes. Il définit 1270 objets cibles annotés individuellement, chacun décrit par une instruction de niveau instance précisant la catégorie, l'emprise physique et des descripteurs visuels, permettant un raisonnement ancré dans la scène. Les chercheurs ont aussi implémenté plusieurs méthodes de référence, dont Aerial ObjectNav Agent (AOA), une politique modulaire combinant sémantique de l'instruction et observations égocentriques pour une exploration orientée objectif sur de longs horizons. Résultat: tous les modèles testés peinent à accomplir la tâche, ce qui souligne la difficulté cumulée de la navigation aérienne et de l'ancrage sémantique des objectifs. Ce benchmark marque une rupture avec le paradigme dominant de la navigation vision-langage (VLN), qui repose sur des séquences d'instructions pas à pas et limite de fait l'autonomie et le passage à l'échelle des agents. En proposant une tâche d'Object Goal Navigation où l'agent ne reçoit qu'un objectif sémantique de haut niveau, UAV-ON teste une compétence plus proche des besoins réels d'inspection, de surveillance ou de cartographie par drone. L'échec généralisé des baselines confirme que le passage d'instructions détaillées à des objectifs sémantiques abstraits reste un verrou majeur, loin d'être résolu malgré les progrès des modèles vision-langage-action sur d'autres plateformes robotiques. La navigation aérienne embarquée demeure sous-explorée comparée à la navigation terrestre, où les benchmarks VLN se sont multipliés ces dernières années. UAV-ON s'inscrit dans cette lignée en l'adaptant aux contraintes spécifiques du vol: grande échelle, environnements non structurés, absence de repères au sol. Les auteurs positionnent ce travail comme une fondation pour de futures recherches sur l'autonomie UAV pilotée par des descriptions sémantiques, ouvrant la voie à des méthodes capables de généraliser au-delà des scénarios scriptés actuels.

RecherchePaper

1 source