
Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes
Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes.
Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication.
RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.




