Aller au contenu principal
FineVLA : alignement fin des instructions pour des politiques VLA pilotables
IA physiquearXiv cs.RO50min

FineVLA : alignement fin des instructions pour des politiques VLA pilotables

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié fin mai 2026 FineVLA, un framework ouvert destiné à améliorer la précision des instructions données aux modèles Vision-Langage-Action (VLA) en robotique. Le problème central adressé : les datasets robotiques existants associent les trajectoires à des instructions de haut niveau ("saisir l'objet"), sans préciser les détails d'exécution critiques comme le bras actif, la direction d'approche ou la zone de contact. Pour y remédier, l'équipe a unifié 972 247 trajectoires issues de 10 datasets open-source couvrant 85 000 tâches, puis construit FineVLA-Data, un sous-ensemble de 47 159 trajectoires annotées finement et vérifiées humainement. Le benchmark d'évaluation comprend 500 vidéos, 10 816 faits atomiques et 1 030 questions en VQA. En simulation RoboTwin, la meilleure configuration atteint 86,8 % / 82,5 % de succès ; en manipulation bimanuelle réelle, 62,7 / 100, contre 49,9 pour une politique entraînée uniquement sur des instructions brutes.

Ces résultats contredisent une hypothèse fréquente dans la communauté VLA : que l'ajout de supervision fine-grained dégraderait les performances sur les tâches de haut niveau. Les expériences montrent l'inverse, avec un gain de +1,4 à +8,1 points de taux de succès selon les configurations. Le ratio optimal se situe entre FG:Raw = 1:2 et 1:1, suivant une courbe en U inversé. Les gains les plus nets en contrôle orientable portent sur la posture (+23 points), la couleur (+18) et la direction d'approche (+18), trois dimensions que les instructions globales n'adressent tout simplement pas. Cela valide l'idée que la précision linguistique au niveau de l'exécution est un levier sous-exploité dans la chaîne sim-to-real.

FineVLA s'inscrit dans une course aux politiques robotiques généralisables où s'affrontent notamment Pi-0 de Physical Intelligence, OpenVLA (Berkeley), et les travaux de Google DeepMind autour de RT-2 et ses dérivés. L'originalité ici n'est pas un nouveau backbone mais une infrastructure de données et d'annotation : un annotateur VLM spécialisé robotique pour passer à l'échelle, et un pipeline de construction de dataset reproductible. Le projet est open-source avec une page dédiée (finevla.xlang.ai), ce qui facilite l'adoption par d'autres labos. Prochaine étape logique : tester la généralisation hors distribution et l'intégration dans des stacks industrielles où la précision des consignes opérateur est précisément un point de friction non résolu.

À lire aussi

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles
1arXiv cs.RO 

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

IA physiqueOpinion
1 source
DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables
2arXiv cs.RO 

DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables

DexSynRefine est un framework de manipulation dextre présenté dans un preprint arXiv daté de mai 2026, conçu pour apprendre des gestes robotiques complexes à partir de données d'interaction humain-objet (HOI) plutôt que par téléopération. L'architecture repose sur trois composants couplés : HOI-MMFP, une extension des "motion manifold primitives" conditionnée par la tâche et l'état initial de l'objet, qui synthétise des trajectoires coordonnées main-objet à partir de démonstrations HOI éparses ; une politique de renforcement résiduelle dans l'espace de la tâche, qui ancre physiquement ces trajectoires de référence tout en héritant de leur structure cinématique ; et un module d'adaptation contact-dynamique qui exploite l'historique proprioceptif pour le transfert sim-to-réel. Le système a été évalué sur cinq tâches : saisie-dépôt, utilisation d'outils et réorientation d'objets. Sur le robot réel, il améliore les taux de succès de 50 à 70 points de pourcentage par rapport au retargeting cinématique classique, et réussit le transfert sur la totalité des cinq tâches. Ce résultat est notable pour les intégrateurs et décideurs industriels parce qu'il adresse simultanément deux verrous majeurs de la manipulation dextre : le mismatch d'embodiment (les mains humaines et les mains robotiques ont des cinématiques incompatibles) et le sim-to-real gap dans des tâches contact-rich. L'approche HOI comme source de données est une alternative à l'échelle à la téléopération, coûteuse en opérateurs qualifiés. La politique résiduelle RL préserve la structure des démos tout en corrigeant la physique, ce qui limite l'exploration RL brute dans des espaces à haute dimension. Le gain de 50-70 pp est annoncé sur des évaluations internes, les conditions de test n'étant pas encore détaillées dans ce preprint préliminaire, ce qui invite à une lecture prudente avant généralisation. DexSynRefine s'inscrit dans une ligne de travaux sur la manipulation dextre post-dexterous-RL qui cherchent à s'affranchir de la téléopération (Dexterous Imitation, AnyDexGrasp, RoboAgent). Les motion manifold primitives sur lesquels s'appuie HOI-MMFP sont un outil issu de la synthèse de mouvement humain adapté ici au domaine robotique. Les concurrents directs incluent les approches de retargeting cinématique pur, les politiques diffusion comme pi-zero et les méthodes VLA appliquées à la manipulation fine. Le papier n'annonce pas de déploiement industriel ni de partenariat commercial, et reste au stade de la démonstration académique en laboratoire. Les prochaines étapes probables concernent la généralisation à des objets non vus et l'intégration dans des pipelines de données HOI à grande échelle.

IA physiquePaper
1 source
Auto-encodeurs épars ancrés dans les événements pour les politiques VLA
3arXiv cs.RO 

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Une équipe de chercheurs a publié le 22 mai 2025 sur arXiv (référence 2605.17204) un pipeline d'interprétabilité pour les politiques Vision-Language-Action (VLA), ces modèles qui traduisent des instructions en langage naturel et des entrées visuelles directement en commandes motrices pour robots. Leur approche, baptisée Event-Grounded SAE (Sparse Autoencoder), ancre l'analyse des représentations internes du modèle à des événements comportementaux concrets plutôt qu'à des contextes textuels. Concrètement, des images-clés (keyframes) de l'effecteur terminal sont extraites et regroupées en clusters selon des critères visuels, d'état et temporels, puis associées optionnellement à des annotations sémantiques via un VLM. La méthode a été validée sur deux architectures en simulation et dans une étude sur robot réel, en ciblant notamment les modèles OpenVLA et pi-0.5 (Physical Intelligence). L'enjeu est considérable pour quiconque déploie des VLA en conditions industrielles : ces politiques restent des boîtes noires dont les représentations internes sont difficiles à auditer. Les outils d'interprétabilité mécaniste développés pour les LLMs ne se transfèrent pas directement aux VLA, car les sorties sont des vecteurs d'action continus, non des tokens lisibles, et chaque intervention ne peut être évaluée que via des rollouts en boucle fermée, coûteux à opérer. Le pipeline présenté est, selon les auteurs, parmi les premiers à ancrer l'analyse SAE dans des événements comportementaux fermés, ce qui produit les effets causaux les plus forts mesurés sur OpenVLA et se transfère aux chunks d'action continus de pi-0.5. Les auteurs notent toutefois des limites : le SAE est une base d'intervention sparse mais imparfaite, dont l'utilisabilité varie selon l'architecture et le point d'injection, et des interventions agressives révèlent des défaillances de sécurité non triviales. Ce travail s'inscrit dans une dynamique d'accélération autour des VLA, où des modèles comme OpenVLA (Berkeley), pi-0 et pi-0.5 (Physical Intelligence), ou encore GR00T N2 (NVIDIA) cherchent à généraliser la commande de robots via des fondations pré-entraînées à grande échelle. L'interprétabilité de ces modèles est devenue un prérequis non négociable pour les déploiements à risque élevé, un angle encore peu adressé face à la course aux benchmarks de performance. Les chercheurs identifient plusieurs directions prioritaires : aller au-delà des coordonnées alignées sur l'action, développer des évaluations en boucle fermée plus granulaires, et concevoir des mécanismes d'intervention sûrs. Le code est disponible publiquement sur GitHub (xc-j/Event-SAE).

UELes outils d'interprétabilité VLA présentés pourraient faciliter la conformité aux exigences d'explicabilité de l'AI Act européen pour les systèmes robotiques à haut risque, un angle encore peu adressé par les acteurs européens.

💬 Tout le monde court après les benchmarks VLA, et je vois peu de monde s'inquiéter de la boîte noire. Ce papier prend l'angle inverse et ancre l'interprétabilité dans des événements comportementaux concrets, validé sur robot réel (pas juste en sim), c'est exactement le genre de boulot qu'on attendait. Mauvaise surprise : les interventions agressives révèlent des failles de sécurité sérieuses, et si tu déploies des VLA en prod, ce papier mérite ton attention.

IA physiqueOpinion
1 source
Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites
4arXiv cs.RO 

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Une étude publiée sur arXiv (référence 2505.03500, version 5, mai 2026) expose une limitation structurelle des modèles VLA (Vision-Language-Action) : leur incapacité à combiner des compétences apprises séparément pour exécuter des tâches inédites. L'exemple présenté est parlant, un VLA peut réussir à placer du fromage frais dans un bol et à poser ce bol sur une armoire, mais échoue à placer directement le fromage sur l'armoire. Pour quantifier ce déficit, les chercheurs ont créé libero-ood, un benchmark de 20 tâches extrapolées depuis les suites standards LIBERO. Résultat net : l'ensemble des VLA état-de-l'art testés plafonnent à moins de 15 % de succès. En appliquant leur technique d'interpolation de latents textuels au modèle π0 de Physical Intelligence, les auteurs atteignent 83 % sans aucun réentraînement. Autre découverte préoccupante : des prompts illisibles pour un humain, obtenus par décodage du latent textuel, suffisent à piloter le VLA à 70 % de succès sur LIBERO standard, ouvrant la voie à des attaques de type backdoor ou à des instructions privées non auditables. La méthode repose sur l'extraction d'un "latent textuel" par tâche de base, en moyennant les états cachés des tokens textuels sur l'ensemble des trajectoires démontrées. Pour exécuter une tâche composite inédite, les chercheurs interpolent temporellement les latents de deux tâches sources et les réinjectent dans le modèle à l'inférence, activant séquentiellement les sous-comportements correspondants. Ce résultat remet en question l'hypothèse d'une compréhension sémantique robuste dans les VLA actuels : l'analyse qualitative révèle un phénomène de surapprentissage spatial, les modèles associant les noms d'objets à des emplacements démontrés plutôt qu'à des entités abstraites. Pour les intégrateurs et décideurs industriels, cela signifie que les benchmarks standards ne détectent pas ces angles morts compositionnels, et que la qualification de systèmes autonomes en production devrait systématiquement inclure des tâches out-of-distribution. LIBERO est depuis plusieurs années une référence en manipulation robotique tabletop ; libero-ood comble un angle mort important sur la généralisation hors distribution. π0, développé par Physical Intelligence (fondée en 2023 par d'anciens chercheurs de Google et DeepMind, dont Sergey Levine et Chelsea Finn), s'est imposé comme l'un des VLA les plus performants du marché via son architecture flow-matching. Les modèles concurrents testés ici, notamment OpenVLA (Berkeley) et Octo, affichent les mêmes limites compositionnelles. Ce travail, encore au stade preprint, pose les bases d'un nouveau critère d'évaluation pour les VLA et soulève des questions de sécurité concrètes qui devraient alerter les équipes déployant ces modèles en environnement industriel non supervisé.

UELes équipes R&D et industriels européens déployant des VLA en production doivent revoir leurs protocoles de qualification pour y intégrer des tâches hors-distribution, les benchmarks standards ne détectant pas les angles morts compositionnels exposés ici.

IA physiqueOpinion
1 source