Aller au contenu principal
Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot
RecherchearXiv cs.RO2h

Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté sur arXiv (2512.21201, v3, déposé en décembre 2025) Schrödinger's Navigator, un système de navigation zéro-shot d'objets (ZSON) pour robots mobiles. Le principe : à l'inférence, le système génère plusieurs "futurs 3D imaginés" le long de trajectoires candidates, maintenant une superposition de représentations plausibles de la scène plutôt que de s'engager sur une carte unique. Un échantillonneur adaptatif concentre l'effort sur les zones occultées et incertaines, tandis qu'une Future-Aware Value Map (FAVM) agrège ces projections pour sélectionner des waypoints proactifs et conscients des risques. Les expériences ont été menées en simulation et sur un quadrupède physique Unitree Go2 dans des scènes encombrées à forte occlusion, avec des résultats supérieurs aux meilleures baselines ZSON actuelles en termes de détection de cibles cachées.

Le fossé simulation-réel est l'un des obstacles structurels de la robotique de service : les systèmes efficaces en simulation se dégradent souvent dans des environnements réels encombrés, où les zones inexplorées rendent l'inférence sur une scène unique fragile et risquée. Schrödinger's Navigator attaque ce verrou en raisonnant sur des futurs hypothétiques à l'inférence, sans retraining, ce qui ouvre la voie à une navigation autonome sans cartographie préalable dans des entrepôts, hôpitaux ou bâtiments publics non structurés. La validation sur hardware physique (Go2) plutôt qu'exclusivement en simulation renforce la crédibilité de l'approche, même si les métriques précises (taux de succès chiffrés, nombre de scènes testées) n'apparaissent pas dans le résumé publié.

La ZSON est un champ actif mobilisant laboratoires et équipes R&D industrielles, avec des approches concurrentes basées sur des modèles de langage visuel (VLM) ou des représentations sémantiques 3D comme les NeRF ou le Gaussian Splatting. L'originalité de cette proposition est l'usage d'un modèle de monde 3D conditionné par la trajectoire pour projeter des futurs probables, une transposition directe du paradoxe de Schrödinger à la planification sous incertitude. La recherche, déjà en troisième version sur arXiv, reste purement académique : aucun déploiement commercial ni pilote industriel n'est annoncé. Elle constitue néanmoins un signal pertinent pour les équipes travaillant sur la navigation autonome en environnements dynamiques et non structurés, en particulier dans le contexte de l'essor des robots de service et des humanoïdes de deuxième génération.

À lire aussi

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles
1arXiv cs.RO 

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

Des chercheurs ont publié sur arXiv (référence 2605.19206) un framework de navigation baptisé CLUE, conçu pour résoudre le problème de la navigation vers des objets cibles sans entraînement préalable sur ces objets, un défi connu sous le nom de zero-shot object-goal navigation (ZSON). L'idée centrale : un agent robotique doit localiser un objet donné dans un environnement inconnu en exploitant deux types d'indices contextuels, les pièces (un réfrigérateur se trouve presque toujours dans une cuisine) et les objets voisins co-localisés (des ciseaux peuvent se trouver partout, mais souvent près d'un bureau ou d'un plan de travail). CLUE extrait des connaissances de bon sens à partir d'un grand modèle de langage (LLM) utilisé hors ligne, calcule un score d'association entre la cible et les types de pièces, puis construit une carte sémantique unifiée pondérant dynamiquement ces deux sources d'information selon l'ambiguïté de la cible. Un mécanisme de vérification multi-points de vue complète le système. Les expériences menées en simulation et dans des environnements réels montrent que CLUE dépasse les baselines de l'état de l'art sur les métriques de taux de succès (SR) et de succès pondéré par la longueur du chemin (SPL), sans que des chiffres absolus ne soient communiqués dans l'abstract. L'intérêt pratique de cette approche tient à une critique implicite des méthodes existantes : traiter tous les indices contextuels avec le même poids conduit à une exploration inefficace. Pour un intégrateur de robots de service, cela signifie des trajectoires plus courtes et une meilleure résilience dans des environnements non cartographiés, comme les hôpitaux, les entrepôts ou les environnements domestiques. L'utilisation d'un LLM hors ligne, plutôt qu'en inférence temps réel, réduit la latence et les dépendances cloud, un avantage concret pour le déploiement industriel. La démonstration en environnement réel, même si ses conditions exactes ne sont pas précisées, distingue CLUE de nombreux travaux restés en simulation pure. Ce travail s'inscrit dans un champ de recherche actif sur la navigation sémantique, aux côtés de méthodes comme ESC, VLFM ou SemEXP, issues principalement de laboratoires américains (CMU, Georgia Tech, Berkeley). CLUE se positionne comme une couche d'arbitrage contextuel au-dessus de ces approches plutôt que comme une refonte complète de l'architecture. Le papier est une prépublication arXiv, non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats. Aucune affiliation industrielle ni plateforme matérielle spécifique n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (AMR de type Boston Dynamics Spot, Hello Robot Stretch ou plateformes mobiles ROS2-compatibles) et une comparaison sur les benchmarks standardisés HM3D ou Gibson.

RecherchePaper
1 source
IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites
2arXiv cs.RO 

IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites

Un groupe de chercheurs a publié fin mai 2026 IntentionNav, un benchmark diagnostique conçu pour évaluer la navigation d'agents incarnés à partir d'instructions humaines implicites. Contrairement aux benchmarks classiques d'ObjectNav (MP3D, HM3D), qui fournissent à l'agent une catégorie cible explicite ("trouve un micro-ondes"), IntentionNav formule des intents en langage naturel non directif : "j'ai besoin de quelque chose pour réchauffer ce plat" ou "la pièce me semble étouffante". Le benchmark couvre 500 épisodes distribués sur 176 scènes Isaac Sim et 64 catégories d'objets cibles. Chaque intent est reformulé en quatre styles linguistiques contrôlés et annoté selon quatre modes sémantiques distincts (script d'événement, état physique, affordance, usage contextuel), ce qui permet d'isoler les erreurs de reformulation linguistique des erreurs d'inférence sémantique. Trois modèles VLM (Vision-Language Models) ont été évalués avec un agent de navigation fixe. Les résultats sont sans ambiguïté : les modèles identifient correctement l'objet cible dans 48,3 % des épisodes, atteignent son voisinage à 2 mètres dans 68,7 % des cas, mais ne terminent avec succès que dans 24,9 % des épisodes et n'atteignent un succès ancré à 1 mètre que dans 5,5 % des cas. Ces chiffres révèlent que le bottleneck principal dans la navigation incarnée réelle n'est pas la navigation proprement dite, mais l'inférence d'intention, la vérification visuelle de l'instance correcte, et la décision de terminaison. Les intents de type "script d'événement" (ex : préparer le dîner) obtiennent les meilleurs scores (28,7 % de succès terminal), tandis que les intents fondés sur l'état physique (19,2 %) ou l'affordance (18,5 %) restent en deçà. Pour un COO industriel ou un intégrateur robotique, ce résultat est critique : un robot opérant en environnement humain doit recevoir des instructions naturelles, rarement formulées en termes de catégories d'objets précises. Les VLMs actuels échouent précisément sur ce que l'interaction humaine génère le plus souvent. Le benchmark s'inscrit dans la continuité des travaux sur l'embodied AI et le grounding langage-perception (SQA3D, EQA, R2R), mais comble un angle mort : la déconnexion entre succès agrégé et succès ancré dans la géométrie réelle. L'utilisation d'Isaac Sim comme environnement de simulation soulève la question du sim-to-real gap, non adressée dans cette publication. Aucun acteur industriel (Boston Dynamics, Figure, Agility, ni d'acteurs FR/EU comme Enchanted Tools ou Wandercraft) n'est impliqué dans cette étude académique. Les suites naturelles incluent l'extension à des scènes réelles captées en RGB-D, l'évaluation de modèles VLA (Vision-Language-Action) de bout en bout, et l'intégration de mécanismes de clarification active quand l'intent est ambigu, une direction encore peu explorée dans la littérature.

RecherchePaper
1 source
PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt
3arXiv cs.RO 

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

Des chercheurs ont publié PIGEON (Point of Interest Guided Exploration for Object Navigation), un cadre de navigation robotique pour localiser des objets dans des espaces intérieurs inconnus. L'approche repose sur des modèles vision-langage (VLM), mais résout leur principal obstacle opérationnel : l'inférence dense image par image est trop coûteuse pour un usage embarqué temps réel. PIGEON introduit des Points d'Intérêt (PoI), unités de décision visuelles couplant waypoints géométriques et observations égocentriques brutes, que le VLM utilise pour sélectionner parmi des destinations candidates : frontières d'exploration, objets suspectés, escaliers franchissables, résumés de niveau sol. Un planificateur bas niveau exécute les trajectoires continues entre ces points. Le système intègre un pipeline RLVR (Reinforcement Learning with Verifiable Rewards) permettant d'affiner des VLM locaux sans annotations Chain-of-Thought manuelles. Sur le benchmark Habitat ObjectNav, référence standard en navigation simulée, PIGEON affiche les meilleures performances zero-shot publiées à ce jour et se transfère à la tâche Active Embodied Question Answering par simple modification du prompt. Des déploiements sur robots physiques sont documentés dans le papier (arXiv 2511.13207). L'enjeu central est l'efficacité computationnelle des VLM dans des boucles de contrôle robotique. Les approches concurrentes utilisent soit les VLM comme contrôleurs denses (coûteux), soit pour un simple ranking de frontières d'exploration (sémantiquement appauvri). PIGEON propose un compromis : décisions rares mais ancrées dans les observations brutes, rendant chaque choix vérifiable et compatible avec l'apprentissage par renforcement sans supervision humaine. La réduction de la dépendance aux données annotées est un avantage concret pour des équipes robotiques sans large budget d'annotation. La progression des performances avec la taille du modèle de fondation (scaling) indique une architecture alignée avec les tendances génératives actuelles. La navigation d'objets en environnement inconnu est un benchmark actif en robotique cognitive, avec des systèmes concurrents comme ESC, SG-Nav ou OpenFMNav exploitant également des LLM pour la planification sémantique. PIGEON se différencie par son mode zero-shot strict, sans réentraînement spécifique à l'environnement cible. Habitat, le simulateur d'intérieur de Meta AI Research, reste la plateforme d'évaluation de référence pour ce type de tâche. Ce résultat est académique : aucun partenariat commercial ni déploiement industriel n'est mentionné, et la robustesse en environnements réels dynamiques non contrôlés reste à valider à plus grande échelle. Les prochaines étapes naturelles incluent des tests en milieux variés et l'adaptation à des VLM embarqués contraints en ressources.

RechercheOpinion
1 source
Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes
4arXiv cs.RO 

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes. Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication. RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.

RechercheOpinion
1 source