
FineVLA : alignement fin des instructions pour des politiques VLA pilotables
Une équipe de recherche a publié fin mai 2026 FineVLA, un framework ouvert destiné à améliorer la précision des instructions données aux modèles Vision-Langage-Action (VLA) en robotique. Le problème central adressé : les datasets robotiques existants associent les trajectoires à des instructions de haut niveau ("saisir l'objet"), sans préciser les détails d'exécution critiques comme le bras actif, la direction d'approche ou la zone de contact. Pour y remédier, l'équipe a unifié 972 247 trajectoires issues de 10 datasets open-source couvrant 85 000 tâches, puis construit FineVLA-Data, un sous-ensemble de 47 159 trajectoires annotées finement et vérifiées humainement. Le benchmark d'évaluation comprend 500 vidéos, 10 816 faits atomiques et 1 030 questions en VQA. En simulation RoboTwin, la meilleure configuration atteint 86,8 % / 82,5 % de succès ; en manipulation bimanuelle réelle, 62,7 / 100, contre 49,9 pour une politique entraînée uniquement sur des instructions brutes.
Ces résultats contredisent une hypothèse fréquente dans la communauté VLA : que l'ajout de supervision fine-grained dégraderait les performances sur les tâches de haut niveau. Les expériences montrent l'inverse, avec un gain de +1,4 à +8,1 points de taux de succès selon les configurations. Le ratio optimal se situe entre FG:Raw = 1:2 et 1:1, suivant une courbe en U inversé. Les gains les plus nets en contrôle orientable portent sur la posture (+23 points), la couleur (+18) et la direction d'approche (+18), trois dimensions que les instructions globales n'adressent tout simplement pas. Cela valide l'idée que la précision linguistique au niveau de l'exécution est un levier sous-exploité dans la chaîne sim-to-real.
FineVLA s'inscrit dans une course aux politiques robotiques généralisables où s'affrontent notamment Pi-0 de Physical Intelligence, OpenVLA (Berkeley), et les travaux de Google DeepMind autour de RT-2 et ses dérivés. L'originalité ici n'est pas un nouveau backbone mais une infrastructure de données et d'annotation : un annotateur VLM spécialisé robotique pour passer à l'échelle, et un pipeline de construction de dataset reproductible. Le projet est open-source avec une page dédiée (finevla.xlang.ai), ce qui facilite l'adoption par d'autres labos. Prochaine étape logique : tester la généralisation hors distribution et l'intégration dans des stacks industrielles où la précision des consignes opérateur est précisément un point de friction non résolu.
Dans nos dossiers




