Aller au contenu principal
Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes
RecherchearXiv cs.RO6sem

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes.

Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication.

RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.

À lire aussi

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
1arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles
2arXiv cs.RO 

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

Des chercheurs ont publié en mai 2026 (arXiv:2605.12228) une méthode d'apprentissage par imitation qui exploite la symétrie bilatérale des robots bimanuels mobiles pour améliorer leur efficacité d'entraînement et leur généralisation. L'approche, baptisée C₂-equivariant flow matching, formalise la symétrie réflective inhérente aux robots bimanuels autour de leur plan sagittal (le plan vertical séparant le côté gauche du côté droit) et l'intègre directement dans l'architecture de la politique de contrôle. Deux mécanismes d'application sont proposés : une perte d'entraînement régularisée ou un réseau de vitesse intrinsèquement équivariant. La méthode est évaluée sur des tâches de manipulation planaires et en 6 degrés de liberté (6-DoF), puis validée en conditions réelles sur un robot TIAGo++ de PAL Robotics (Barcelone, Espagne). L'intérêt de cette contribution tient à une observation structurelle peu exploitée : savoir accomplir une tâche dans une configuration donnée détermine mécaniquement la solution pour sa configuration en miroir. Pourtant, la quasi-totalité des méthodes d'imitation learning actuelles (ACT, Diffusion Policy, et leurs dérivés) ignorent cette contrainte. En l'intégrant comme biais inductif, les auteurs montrent que les politiques résultantes sont ambidextres et généralisent à zéro-shot vers des configurations en miroir absentes des données d'entraînement. Concrètement, cela réduit le volume de démonstrations nécessaires et supprime le besoin de collecter symétriquement les trajectoires des deux côtés. Pour un intégrateur ou un opérateur industriel déployant un système bimanuel, c'est un levier direct sur le coût de téléopération et de labellisation des données, deux postes majeurs dans le déploiement de la robotique généraliste. Le flow matching est une alternative aux modèles de diffusion : il apprend un champ de vitesse qui transporte une distribution simple vers la distribution cible des actions, avec une formulation plus directe et un entraînement souvent plus stable. Son efficacité en apprentissage robotique a déjà été démontrée par Physical Intelligence avec pi0, qui en fait le coeur de sa politique généraliste. La contribution ici complète ce cadre en y injectant une contrainte de symétrie morphologique, un biais générique potentiellement applicable à toute architecture équivariante. Face aux approches concurrentes de Stanford (Mobile ALOHA), CMU ou des équipes de Boston Dynamics, la méthode se distingue par son caractère généraliste : les auteurs suggèrent que la symétrie exploitée est extensible à d'autres classes de robots présentant des propriétés géométriques analogues, au-delà des seuls humanoïdes bimanuels.

UELa validation en conditions réelles sur le TIAGo++ de PAL Robotics (Barcelone) positionne un acteur européen au cœur d'une avancée en imitation learning bimanuel généraliste, directement applicable par les intégrateurs EU déployant des systèmes bimanuels.

RecherchePaper
1 source
FeudalNav : un framework simple pour la navigation visuelle
3arXiv cs.RO 

FeudalNav : un framework simple pour la navigation visuelle

Des chercheurs ont publié sur arXiv (référence 2602.06974) FeudalNav, un cadre hiérarchique de navigation visuelle pour robots mobiles qui ne requiert ni carte métrique, ni GPS, ni données odométriques en phase d'entraînement ou d'inférence. Le système décompose la prise de décision en plusieurs niveaux : un réseau de sélection de sous-objectifs (waypoints) léger et transférable choisit des points intermédiaires, tandis qu'un module de mémoire dans l'espace latent organise les observations visuelles passées par similarité visuelle, utilisée comme proxy de distance. Ce module de mémoire remplace les représentations topologiques classiques basées sur des graphes, sans dégradation notable des performances. Les résultats sont obtenus dans les environnements simulés Habitat AI, un benchmark standard du domaine, et montrent des scores compétitifs face aux méthodes état de l'art. Les auteurs explorent également une modalité d'navigation interactive : ils quantifient la quantité minimale d'intervention humaine nécessaire pour atteindre un taux de succès de 100% sur l'ensemble des trajectoires testées. L'intérêt de FeudalNav réside dans sa sobriété architecturale. Là où la plupart des navigateurs apprenants reposent sur des graphes topologiques coûteux à maintenir ou sur des représentations métriques qui échouent dans des environnements non cartographiés, FeudalNav prouve qu'une mémoire visuelle latente simple suffit pour guider un agent vers un objectif en terrain inconnu. Cette approche réduit les exigences d'infrastructure embarquée (pas de capteur odométrique requis) et améliore la transférabilité entre environnements, deux critères directement pertinents pour les intégrateurs de robots de service ou d'inspection industrielle. La composante interactive est notable : même une intervention humaine minimale et ponctuelle augmente significativement le taux de réussite global, ce qui ouvre la voie à des architectures human-in-the-loop adaptatives. FeudalNav s'inscrit dans un courant de recherche actif visant à dépasser les navigateurs métriques classiques (SLAM, cartographie 2D/3D) en faveur d'approches fondées sur l'apprentissage et la mémoire sémantique, directement inspirées de la cognition spatiale humaine. Le benchmark Habitat AI, développé par Meta AI Research, est devenu la référence pour évaluer ce type de systèmes en simulation. Les méthodes concurrentes incluent les approches à graphes topologiques (NoMaD, ViNT de Berkeley) et les navigateurs basés sur des Vision-Language Models (VLMaps, CoW). FeudalNav se distingue par sa légèreté et l'absence d'odométrie, mais reste pour l'instant cantonné à la simulation, sans validation sur robot physique annoncée dans cet article.

RecherchePaper
1 source
Correspondance de flux action-à-action
4arXiv cs.RO 

Correspondance de flux action-à-action

Des chercheurs proposent dans un preprint arXiv (arXiv:2506.07322v2, mis à jour en 2026) une nouvelle architecture de politique robotique baptisée A2A (Action-to-Action Flow Matching), qui remplace le point de départ aléatoire habituel des modèles de diffusion par une initialisation ancrée dans l'action proprioceptive précédente du robot. Concrètement, au lieu de générer une trajectoire d'action à partir d'un bruit gaussien pur, A2A encode une séquence d'états proprioceptifs historiques (positions articulaires, vitesses, couples) dans un espace latent de haute dimension, et utilise ce vecteur comme point de départ du processus de flow matching. Le résultat le plus saillant : A2A produit des actions de haute qualité en une seule étape d'inférence, contre plusieurs dizaines d'étapes pour les politiques par diffusion standard, ce qui réduit drastiquement la latence au moment de l'exécution. Les auteurs rapportent également une meilleure robustesse aux perturbations visuelles (changements d'éclairage, objets parasites) et une généralisation supérieure à des configurations non vues durant l'entraînement. L'enjeu industriel est direct : la latence d'inférence est l'un des principaux verrous à l'adoption des politiques diffusion pour le contrôle temps-réel sur des manipulateurs ou des humanoïdes. Les architectures comme Diffusion Policy (Chi et al., 2023) ou Pi-0 de Physical Intelligence ont démontré une expressivité remarquable, mais leur coût computationnel par pas de contrôle reste prohibitif à haute fréquence. En ramenant l'inférence à un seul pas, A2A ouvre la voie à des boucles de contrôle plus rapides sans sacrifier la qualité des trajectoires, une contrainte particulièrement critique pour les tâches de manipulation dextre ou les robots mobiles en environnement dynamique. Le fait que la méthode tire parti de la continuité temporelle du mouvement, plutôt que de l'ignorer comme une condition statique, représente un changement de paradigme dans la modélisation des politiques robotiques. A2A s'inscrit dans la continuité des travaux sur le flow matching (Lipman et al., 2022), une alternative au processus de diffusion de Langevin qui permet des trajectoires plus droites dans l'espace latent et donc moins d'étapes d'intégration. Les politiques par diffusion pour la robotique ont émergé comme standard de facto entre 2023 et 2025, portées par des travaux comme ACT, Diffusion Policy et plus récemment GR00T N2 de NVIDIA ou Pi-0. A2A se positionne comme une optimisation d'inférence sur ce paradigme plutôt qu'une rupture architecturale. Les auteurs étendent également la méthode à la génération vidéo, suggérant une applicabilité au-delà du contrôle moteur pur. Le projet dispose d'un site public, mais aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'une contribution académique à valider sur des benchmarks plus larges avant toute intégration en production.

RechercheOpinion
1 source