
Transport discrepancy : un signal fiable pour évaluer les modèles vision-langage-action
Article n'a pas d'entreprise/robot associé (papier arXiv académique), je m'en tiens aux faits rapportés, sans inventer d'affiliation ou de déploiement.
Des chercheurs ont publié une version révisée sur arXiv (identifiant 2512.01715v2) d'un papier proposant DiG (Discrepancy Gate), un module additionnel destiné aux modèles vision-langage-action (VLA) qui génèrent leurs séquences de mouvement via flow matching. Le problème visé est concret : ces modèles n'ont aujourd'hui aucun moyen interne de savoir si une prédiction d'action est fiable, alors qu'un changement de distribution des données ou une tâche longue peuvent faire dériver les représentations internes du réseau loin de la zone où la tête d'action décode correctement. Les auteurs montrent que le coût de transport (mesuré via une distance de Wasserstein tranchée, ou sliced Wasserstein) entre les features de l'encodeur et la projection d'entrée de l'expert d'action augmente précisément au moment de cette dérive. DiG exploite ce signal : il le fait passer par une porte exponentielle qui module à la fois un raffinement résiduel des features et la fonction de perte à l'entraînement. À l'inférence, cette porte active un mécanisme baptisé DiG-Refine, qui corrige itérativement les séquences d'action avant leur exécution. Testé en simulation et en conditions réelles, DiG améliore de façon constante le taux de réussite des tâches, avec les gains les plus marqués sur les scénarios de changement de distribution et les tâches à long horizon.
L'enjeu dépasse le seul confort académique : les architectures VLA à flow matching, sur lesquelles s'appuient plusieurs modèles de fondation robotique actuels générant des chunks d'action continus, fonctionnent aujourd'hui en boîte noire, sans jauge de confiance embarquée. Pour un intégrateur ou un opérateur industriel, l'absence d'un tel signal signifie qu'un robot peut exécuter une action erronée sans que le système sache qu'il est en train de dériver, un problème critique dès qu'on sort du cadre démo pour aller vers un déploiement en usine ou en entrepôt. DiG répond directement au fossé entre démonstration et fiabilité réelle en offrant un mécanisme d'auto-correction sans supervision supplémentaire ni réentraînement lourd, ce qui en fait un candidat pour être greffé sur des politiques existantes plutôt qu'une refonte d'architecture.
Le papier s'inscrit dans la lignée des travaux récents sur le flow matching comme méthode de génération d'actions continues, une approche de plus en plus répandue dans les politiques robotiques génératives modernes en remplacement des méthodes de diffusion classiques ou du apprentissage par imitation discret. Il ne s'agit pas ici d'un produit commercial ni d'un déploiement annoncé, mais d'une contribution méthodologique destinée à la communauté recherche, publiée en tant que "replace" d'une version antérieure du même travail. Les suites logiques attendues sont une adoption potentielle par des équipes développant des politiques VLA en production, ainsi que des comparaisons futures avec d'autres approches de détection d'incertitude pour les modèles d'action continue.
Dans nos dossiers




