GUIDE : compréhension directionnelle initialisée…

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

42

1arXiv cs.RO

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes. Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication. RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.

RechercheOpinion

1 source

L'effondrement neuronal ordinal comme a priori de représentation pour la navigation visuelle

38

2arXiv cs.RO

L'effondrement neuronal ordinal comme a priori de représentation pour la navigation visuelle

Une équipe de recherche a publié en juin 2026 sur arXiv (2606.26839) ORION, une méthode d'apprentissage de politiques de navigation visuelle pour robots mobiles. Le problème de départ est celui de l'imitation learning de bout en bout : lorsqu'on entraîne conjointement un encodeur visuel et un décodeur d'actions via une unique loss d'action, le signal de supervision reste indirect pour l'encodeur. Résultat : l'encodeur apprend des représentations dites "action-agnostic", insensibles aux distinctions qui comptent pour la navigation. Dans les environnements réels, avec leurs distracteurs visuels et la variabilité des scènes, ces représentations ambiguës se traduisent par des actions incohérentes aux carrefours et aux intersections complexes, générant des échecs de navigation. ORION impose explicitement une structure ordinale à l'espace de représentation de l'encodeur : les catégories de commandes ego-centriques (de "Far Left" à "Far Right") forment une séquence naturelle où les classes voisines partagent des contextes visuels similaires. L'encodeur est contraint d'organiser ces classes le long d'un axe discriminant unique, en supprimant la variance hors-axe au sein de chaque classe. Cet encodeur pré-entraîné est ensuite intégré dans un framework de navigation basé sur la diffusion, puis affiné end-to-end. Les expériences, conduites en simulation et en conditions réelles, montrent que ORION surpasse les baselines end-to-end et neural collapse classiques sur le taux de succès de navigation et la progression vers l'objectif, avec des gains particulièrement marqués aux intersections multi-voies. L'intérêt de cette approche réside dans sa réponse à un problème structurel des VLA (Vision-Language-Action models) et plus généralement de l'imitation learning visuelle : la supervision indirecte de l'encodeur. En robotique mobile autonome, notamment pour les AGV et AMR déployés en entrepôt ou en milieu urbain, les représentations "action-agnostic" sont un vecteur d'échec documenté et coûteux en production. L'idée d'exploiter la structure ordinale naturelle des commandes directionnelles pour contraindre l'espace latent est élégante et transférable : elle n'exige pas de données supplémentaires, mais réorganise le signal de supervision existant. La démonstration de gains concrets sur des intersections complexes est particulièrement pertinente pour les intégrateurs de robots de livraison ou de surveillance en environnements non structurés. Cela confirme une hypothèse émergente dans le secteur : la qualité de la représentation visuelle, et non la puissance brute du décodeur, est souvent le goulet d'étranglement dans le passage du labo au terrain. Le concept de "neural collapse" est emprunté à la littérature sur la classification supervisée, où il décrit la convergence des représentations de dernière couche vers des structures géométriques idéales en fin d'entraînement. ORION étend ce cadre à la navigation en y ajoutant la dimension ordinale, ce qui le distingue des travaux précédents qui appliquaient neural collapse sans tenir compte de la relation sémantique entre classes de commandes. Dans l'écosystème des frameworks de navigation diffusion-based, on retrouve des travaux proches comme NoMaD ou GNFactor, ainsi que des approches VLA comme pi-0 de Physical Intelligence. Les auteurs n'annoncent pas de déploiement commercial ni de partenariat industriel identifiable dans ce preprint ; les prochaines étapes naturelles seraient une validation à plus grande échelle sur des plateformes comme Clearpath ou Boston Dynamics Spot, et une extension aux politiques multimodales intégrant des instructions en langage naturel.

RechercheOpinion

1 source

EmbodiedDiffusion : diffusion visuelle guidée par la franchissabilité pour la navigation de robots hétérogènes

39

3arXiv cs.RO

EmbodiedDiffusion : diffusion visuelle guidée par la franchissabilité pour la navigation de robots hétérogènes

Des chercheurs présentent EmbodiedDiffusion, un framework basé sur la diffusion qui prédit simultanément des cartes de franchissabilité (traversability) et génère des trajectoires directement à partir d'images RGB, sans carte ni planificateur séparé. Le système distille les connaissances sémantiques d'un modèle vision-langage (VLM) enseignant vers un modèle étudiant léger pendant l'entraînement, ce qui permet une inférence sans prompt, en temps réel, une fois déployé. Un mécanisme de conditionnement modulaire basé sur FiLM isole le raisonnement spécifique à chaque plateforme robotique dans un sous-ensemble compact et entraînable du réseau, sans toucher au backbone visuel ni au modèle de diffusion de trajectoire. Testé en environnements intérieurs sur des robots quadrupèdes et aériens, le système atteint un taux de réussite de navigation de 80 à 100% en régime de données complètes, avec un temps d'inférence de 90 millisecondes, et s'adapte à une nouvelle plateforme robotique avec seulement 10 minutes de collecte de données visuelles. Il s'agit d'une quatrième version révisée d'un article déposé sur arXiv, donc d'un travail académique et non d'un produit commercialisé. L'intérêt principal tient à l'unification de deux tâches habituellement traitées séparément, l'estimation de franchissabilité et la planification de trajectoire, dans un seul modèle bout-en-bout qui se passe de cartographie lourde et de réglage manuel. Pour les intégrateurs travaillant avec des flottes hétérogènes (drones, quadrupèdes, à terme humanoïdes), la promesse clé est la portabilité rapide entre plateformes robotiques sans réentraînement complet, un point de friction connu des pipelines de navigation actuels. Le chiffre de 90 ms d'inférence, s'il se confirme hors laboratoire, positionnerait l'approche comme compatible temps réel sur du matériel embarqué, un critère souvent absent des démonstrations VLM à base de prompts. Les approches dominantes en navigation autonome reposent soit sur des VLM pilotés par prompts, coûteux en latence, soit sur des pipelines découplés associant cartographie SLAM et planificateurs classiques, longs à déployer et à calibrer par robot. EmbodiedDiffusion s'inscrit dans la tendance plus large des modèles vision-action (VLA) qui cherchent à remplacer ces chaînes modulaires par un apprentissage de bout en bout, dans la lignée des travaux sur la généralisation cross-embodiment. Les résultats restent pour l'instant limités à des environnements intérieurs contrôlés avec deux types de plateformes ; leur validation sur des cas industriels réels et sur davantage de morphologies robotiques reste une étape à venir.

RechercheActu

1 source

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

42

4arXiv cs.RO

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

Des chercheurs ont publié PIGEON (Point of Interest Guided Exploration for Object Navigation), un cadre de navigation robotique pour localiser des objets dans des espaces intérieurs inconnus. L'approche repose sur des modèles vision-langage (VLM), mais résout leur principal obstacle opérationnel : l'inférence dense image par image est trop coûteuse pour un usage embarqué temps réel. PIGEON introduit des Points d'Intérêt (PoI), unités de décision visuelles couplant waypoints géométriques et observations égocentriques brutes, que le VLM utilise pour sélectionner parmi des destinations candidates : frontières d'exploration, objets suspectés, escaliers franchissables, résumés de niveau sol. Un planificateur bas niveau exécute les trajectoires continues entre ces points. Le système intègre un pipeline RLVR (Reinforcement Learning with Verifiable Rewards) permettant d'affiner des VLM locaux sans annotations Chain-of-Thought manuelles. Sur le benchmark Habitat ObjectNav, référence standard en navigation simulée, PIGEON affiche les meilleures performances zero-shot publiées à ce jour et se transfère à la tâche Active Embodied Question Answering par simple modification du prompt. Des déploiements sur robots physiques sont documentés dans le papier (arXiv 2511.13207). L'enjeu central est l'efficacité computationnelle des VLM dans des boucles de contrôle robotique. Les approches concurrentes utilisent soit les VLM comme contrôleurs denses (coûteux), soit pour un simple ranking de frontières d'exploration (sémantiquement appauvri). PIGEON propose un compromis : décisions rares mais ancrées dans les observations brutes, rendant chaque choix vérifiable et compatible avec l'apprentissage par renforcement sans supervision humaine. La réduction de la dépendance aux données annotées est un avantage concret pour des équipes robotiques sans large budget d'annotation. La progression des performances avec la taille du modèle de fondation (scaling) indique une architecture alignée avec les tendances génératives actuelles. La navigation d'objets en environnement inconnu est un benchmark actif en robotique cognitive, avec des systèmes concurrents comme ESC, SG-Nav ou OpenFMNav exploitant également des LLM pour la planification sémantique. PIGEON se différencie par son mode zero-shot strict, sans réentraînement spécifique à l'environnement cible. Habitat, le simulateur d'intérieur de Meta AI Research, reste la plateforme d'évaluation de référence pour ce type de tâche. Ce résultat est académique : aucun partenariat commercial ni déploiement industriel n'est mentionné, et la robustesse en environnements réels dynamiques non contrôlés reste à valider à plus grande échelle. Les prochaines étapes naturelles incluent des tests en milieux variés et l'adaptation à des VLM embarqués contraints en ressources.

RechercheOpinion

1 source

GUIDE : compréhension directionnelle initialisée par l'objectif pour la navigation visuelle de bout en bout

À lire aussi

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

L'effondrement neuronal ordinal comme a priori de représentation pour la navigation visuelle

EmbodiedDiffusion : diffusion visuelle guidée par la franchissabilité pour la navigation de robots hétérogènes

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt