Modèles vision-langage-action (VLA) : retours d'expérience sur une plateforme UR5 réelle
Des chercheurs ont publié sur arXiv (preprint 2606.30456) une évaluation du transfert de modèles VLA (Vision-Language-Action) vers un bras manipulateur UR5e d'Universal Robots en conditions réelles. Deux modèles ont été mis à l'épreuve : OpenVLA et sa variante OpenVLA-OFT, fine-tunés sur des données collectées directement sur le robot physique et converties au format RLDS (Robot Learning Dataset Specification), un standard de facto dans la communauté robotique. L'équipe a construit une chaîne complète comprenant l'acquisition de données sur robot réel, un workflow de conversion de dataset compatible RLDS, une infrastructure de fine-tuning et d'inférence, ainsi qu'un protocole de validation systématique des représentations d'actions et des interfaces de contrôle.
Le résultat central contredit une hypothèse répandue dans la recherche VLA : des métriques offline prometteuses ne se traduisent pas nécessairement en comportement stable en boucle fermée sur le système physique. Cet écart entre indicateurs de validation et exécution réelle n'est pas principalement imputable à la capacité intrinsèque des modèles. Il est fortement conditionné par la sémantique des actions (comment sont encodées les commandes moteur), les conventions de référentiels de coordonnées, l'alignement temporel entre la vision et les sorties de contrôle, la cohérence du prétraitement d'image, et la couverture du dataset d'entraînement. La conclusion opérationnelle est directe : pour des intégrateurs industriels, augmenter la taille du modèle VLA n'est pas le levier prioritaire ; c'est la maîtrise du pipeline données-modèle-contrôle dans son ensemble qui détermine la fiabilité du déploiement, un déplacement de paradigme du problème de modèle vers un problème de système.
Ce travail s'inscrit dans un contexte d'accélération marquée autour des VLA, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou encore ACT et Diffusion Policy, qui promettent une généralisation des politiques de manipulation via des architectures multimodales entraînées à large échelle. La plupart des démonstrations publiées restent toutefois en environnement contrôlé, et les conditions précises du passage au déploiement réel sont rarement documentées avec rigueur. En s'appuyant sur une plateforme reproductible et des formats ouverts (UR5e, RLDS), cette étude fournit un cadre méthodologique directement transférable, utile pour les équipes cherchant à qualifier leurs pipelines VLA avant mise en production, y compris côté européen où des acteurs comme Enchanted Tools travaillent sur des approches similaires de généralisation de politiques de manipulation.
Le cadre méthodologique open-source (UR5e + RLDS) est directement réutilisable par les équipes européennes qualifiant leurs pipelines VLA avant production, notamment pour des acteurs comme Enchanted Tools travaillant sur la généralisation des politiques de manipulation.




