VLAFlow : un cadre d'entraînement unifié pour les modèles vision-langage-action via co-entraînement et alignement latent futur
Des chercheurs présentent VLAFlow (Vision-Language-Action Flow), un framework unifié de flow-matching destiné à comparer objectivement les différents paradigmes d'entraînement des modèles vision-langage-action (VLA) en manipulation robotique. L'étude s'appuie sur OXEMix, un corpus hétérogène d'environ 5 000 heures de données combinant DROID, OpenX-Embodiment, OpenX-Augmented et RoboCOIN. Sous une architecture commune de type pi-0, avec le même backbone VLM, le même action expert et un espace d'action à 14 dimensions, les auteurs évaluent quatre approches strictement comparables : l'entraînement sur les seules actions (MindPI), le co-entraînement supervisé par le langage (MindLPI), l'alignement des représentations latentes futures (MindWPI), et leur combinaison (MindLWPI). Les tests sont menés sur trois bancs d'essai de référence : LIBERO, LIBERO-Plus et SimplerEnv.
Pour les équipes qui entraînent des modèles VLA sur des données robotiques hétérogènes, l'apport principal n'est pas un nouveau produit mais une comparaison contrôlée rare dans un champ où architecture, données et protocole d'évaluation varient habituellement d'un papier à l'autre, rendant les résultats difficiles à départager. Les résultats montrent que l'entraînement action seule se dégrade quand les données proviennent de sources trop diverses, un signal utile pour qui envisage de simplement agréger des jeux de données multi-robots sans garde-fou. La supervision par le langage préserve la généralisation vision-langage, et l'alignement latent futur améliore la modélisation des transitions d'état et des relations action-résultat. La combinaison des deux signaux (MindLWPI) offre le transfert le plus stable sur l'ensemble des bancs d'essai, suggérant qu'un espace de méta-action combinant contraintes linguistiques et prédictives rend l'apprentissage par imitation plus robuste au passage à l'échelle.
Ce travail s'inscrit dans la lignée des architectures pi-0 popularisées par Physical Intelligence, dans un paysage où Nvidia (GR00T N2), Figure (Helix) ou d'autres laboratoires développent également des modèles généralistes pour la manipulation robotique. Contrairement à des annonces produit, il s'agit ici d'une publication de recherche (preprint arXiv) centrée sur la méthodologie d'entraînement plutôt que sur un déploiement matériel. Les auteurs positionnent VLAFlow comme un socle reproductible pour de futures comparaisons de paradigmes, sans annoncer pour l'instant de calendrier de mise à disposition du code ou des poids du modèle.




