Aller au contenu principal
RecherchearXiv cs.RO52min

Apprendre à bouger avant d'agir : pré-entraînement générique pour les VLA

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie sur arXiv (2607.02466v1) un nouveau framework baptisé TAP (Task-Agnostic Pretraining), conçu pour entraîner des modèles Vision-Language-Action (VLA) avec beaucoup moins de démonstrations expertes que les approches classiques. Le constat de départ : la rareté des données étiquetées (observations, instructions et actions) freine le développement des VLA, car les méthodes actuelles mélangent deux apprentissages distincts, la compétence physique (comment bouger) et l'alignement sémantique (quoi faire), alors que seul le second nécessite une supervision par le langage. TAP sépare les deux en deux étapes : une première phase apprend des a priori moteurs transférables à partir de données d'interaction non étiquetées et bon marché, y compris des trajectoires hors tâche généralement écartées et du jeu autonome de robots, via un objectif auto-supervisé de dynamique inverse. Une seconde phase, légère, ancre ensuite ces a priori dans le langage à l'aide d'un minimum de données expertes. Sur le benchmark SIMPLER, TAP égale des modèles entraînés sur plus d'un million de trajectoires expertes tout en utilisant des ordres de grandeur de données étiquetées en moins, avec un gain absolu de 10% sur le behavior cloning standard. Sur une plateforme réelle WidowX, TAP conserve un taux de réussite de 25% face à des perturbations de caméra, là où les baselines entraînées à l'échelle internet chutent à 0%.

Ce résultat s'attaque directement à l'un des goulots d'étranglement les plus cités du secteur robotique : le coût de collecte de démonstrations expertes à grande échelle, souvent invoqué pour justifier des besoins massifs en téléopération ou en données simulées coûteuses. En montrant qu'un pré-entraînement task-agnostic sur des données bon marché (trajectoires ratées, jeu robotique non supervisé) peut produire des représentations physiques robustes et transférables, TAP suggère une voie de scalabilité alternative à l'empilement pur de données expertes, un enjeu direct pour les intégrateurs et laboratoires qui cherchent à réduire le coût par déploiement de politiques VLA.

Le travail s'inscrit dans la lignée des architectures VLA récentes comme Pi-0 ou GR00T N2, qui cherchent toutes à généraliser au-delà des tâches vues à l'entraînement. La robustesse démontrée face aux perturbations caméra, un scénario classique de dégradation en conditions réelles, en fait un signal notable pour la suite : reste à voir si l'approche se généralise à des plateformes bras-mobiles ou humanoïdes plus complexes que le bras WidowX utilisé ici pour la validation.

Dans nos dossiers

À lire aussi

LA4VLA : apprendre à agir sans vision par pré-entraînement langage-action
1arXiv cs.RO 

LA4VLA : apprendre à agir sans vision par pré-entraînement langage-action

Des chercheurs ont publié sur arXiv (2606.27295, juin 2026) un cadre de pré-entraînement baptisé LA4VLA qui s'attaque à un défaut structurel des modèles Vision-Langage-Action (VLA) : en supervision conjointe visuelle et textuelle, le signal visuel écrase le signal langage, poussant les politiques de contrôle à exploiter des raccourcis visuels spécifiques à une scène plutôt qu'à exécuter des instructions généralisables. LA4VLA introduit une phase de pré-entraînement sans images : les trajectoires de démonstration existantes sont découpées en segments atomiques, chacun associé à une description textuelle bas-niveau, produisant LA4-33K, un dataset de 33 000 épisodes Langage-Action construits entièrement à partir de données existantes sans collecte robotique supplémentaire. Le modèle LA4VLA-1B (1 milliard de paramètres) est évalué selon trois paradigmes : pré-entraînement LA seul, séquentiel LA puis VLA, et mixte LA+VLA. Le pré-entraînement mixte améliore le taux de succès moyen de 17,8 points de pourcentage en simulation et de 45 points sur tâches réelles par rapport à l'absence de pré-entraînement. Ces résultats ont une portée directe pour les développeurs de politiques robotiques polyvalentes. Le problème des raccourcis visuels est bien documenté dans la littérature : les robots apprennent à reconnaître un arrangement de scène particulier plutôt qu'à interpréter une instruction générique, ce qui fragilise les politiques dès que l'environnement varie légèrement. Le gain de 45 points sur les tâches réelles, contre 17,8 en simulation, est particulièrement notable : il suggère que l'approche atténue précisément le sim-to-real gap, principal obstacle aux déploiements industriels. Pour les intégrateurs, la méthode permet de valoriser des datasets de démonstrations existants sans mobiliser de ressources robotiques supplémentaires, réduisant substantiellement le coût d'entrée vers des politiques plus robustes. Les modèles VLA ont connu une forte accélération depuis 2023, portée par des travaux comme RT-2 (Google DeepMind), OpenVLA ou π0 de Physical Intelligence, qui s'appuient tous sur un pré-entraînement visuel massif suivi d'un fine-tuning robotique. LA4VLA propose une direction complémentaire et orthogonale : renforcer le conditionnement langage indépendamment du flux visuel, en exploitant la structure sémantique des trajectoires plutôt que leur apparence. L'abstract ne mentionne ni affiliations institutionnelles précises ni partenaires industriels ; il s'agit d'une contribution académique validée en laboratoire, sans pilote commercial annoncé. La suite logique serait une évaluation sur des benchmarks standardisés comme LIBERO ou CALVIN, ainsi qu'une intégration dans des pipelines humanoïdes à manipulation complexe où la généralisation au langage est particulièrement critique.

RechercheOpinion
1 source
Pré-entraînement universel sur les poses pour des politiques VLA généralisables
2arXiv cs.RO 

Pré-entraînement universel sur les poses pour des politiques VLA généralisables

Des chercheurs ont publié Pose-VLA (arXiv:2602.19710, 2026), un nouveau paradigme d'entraînement pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'approche sépare l'entraînement en deux phases distinctes: une phase de pré-entraînement qui extrait des prior spatiaux 3D universels dans un espace centré sur la caméra, puis une phase de post-entraînement pour l'alignement propre à l'embodiment du robot cible. Le mécanisme central repose sur l'introduction de "discrete pose tokens", une représentation intermédiaire universelle qui combine des données de grounding spatial issues de datasets 3D hétérogènes avec des trajectoires géométriques issues de démonstrations robotiques. Sur le benchmark RoboTwin 2.0, Pose-VLA revendique l'état de l'art avec 79,5% de taux de succès moyen, et atteint 96,0% sur LIBERO. En conditions réelles, le modèle généralise à des objets variés avec seulement 100 démonstrations par tâche. Le problème structurel que Pose-VLA cherche à résoudre est bien documenté dans la littérature: les backbones VLM classiques, optimisés pour le Visual Question Answering, excellent à identifier sémantiquement des objets mais restent relativement insensibles aux variations 3D fines qui dictent des stratégies de préhension différentes. Ce phénomène, qualifié de "feature collapse" par les auteurs, dégrade l'efficacité d'entraînement et limite la généralisation inter-tâches. En découplant explicitement la perception spatiale 3D de la supervision d'action, l'approche vise à réduire significativement le nombre de démonstrations nécessaires pour adapter une politique à un nouveau contexte, ce qui représente aujourd'hui l'un des principaux freins à l'industrialisation des VLA. À noter que les tâches réelles testées ne sont pas détaillées dans l'article, et les performances sur benchmarks simulés ne préjugent pas du comportement en environnement industriel non contrôlé. Les VLA sont au coeur d'une compétition de recherche intense depuis RT-2 de Google DeepMind en 2023, et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA ont chacun tenté d'adresser le sim-to-real gap et la dépendance aux larges corpus de démonstrations. RoboTwin 2.0 et LIBERO sont devenus des références de facto pour comparer ces politiques en manipulation. Pose-VLA s'inscrit dans une tendance plus large de découplage des phases d'entraînement, parallèlement à des approches comme UniSim ou RoboVLMs. Cette publication reste au stade académique: aucun déploiement industriel, partenariat commercial ni timeline de mise en production ne sont mentionnés, et les expériences réelles se limitent à un contexte laboratoire avec des objets courants.

RechercheOpinion
1 source
De la préhension à la dextérité : pré-entraînement à grande échelle pour la manipulation dextérique
3arXiv cs.RO 

De la préhension à la dextérité : pré-entraînement à grande échelle pour la manipulation dextérique

Des chercheurs publient sur arXiv un nouveau papier intitulé "From Grasps to Dexterity: Large-Scale Grasp Pretraining for Dexterous Manipulation", qui s'attaque à un problème precis de la manipulation dextre robotique: utiliser un simple geste de préhension pour ensuite manipuler un outil articulé (actionner une gâchette, tourner une molette, ouvrir une pince) plutôt que de simplement le saisir et le poser. L'équipe construit un jeu de données de 355 000 trajectoires à partir d'annotations de préhension dextre à grande échelle, utilisé pour préentraîner un contrôleur bas niveau conditionné par objectif, lui-même piloté par un module haut niveau qui prédit les sous-objectifs de la main. Ce contrôleur est ensuite affiné sur des démonstrations spécifiques à chaque tâche. Pour évaluer l'approche, les auteurs introduisent DexCraft, un banc d'essai en simulation comportant six tâches d'usage d'outils articulés nécessitant une coordination fine des doigts. En conditions réelles, la méthode améliore le taux de réussite complet des tâches de 33,3 points de pourcentage par rapport à la référence DP3, et dépasse aussi les politiques de diffusion entraînées de bout en bout ainsi que les architectures hiérarchiques entraînées depuis zéro. L'intérêt pour l'industrie tient au fait que la plupart des grands jeux de données de préhension dextre existants n'avaient jusqu'ici servi qu'à générer des prises ou à faire du pick-and-place, une tâche relativement simple comparée à l'usage fonctionnel d'un outil, qui exige de maintenir le contact tout en actionnant une pièce mobile. Démontrer qu'un préentraînement sur des données de grasping generalise à ce type de manipulation contact-riche est un signal utile pour les équipes qui travaillent sur des mains robotiques multi-doigts, notamment dans le contexte des humanoïdes où la dextérité fine reste un goulot d'étranglement bien plus limitant que la locomotion. Cela va dans le sens d'une hypothèse défendue par plusieurs laboratoires: les grands corpus de démonstration, même génériques, peuvent servir de socle de préentraînement réutilisable plutôt que d'être collectés tâche par tâche. Ce travail s'inscrit dans la lignée des approches hiérarchiques d'apprentissage par imitation combinant planification haut niveau et contrôle bas niveau, un courant de recherche actif face aux politiques de diffusion de bout en bout comme DP3, utilisées ici comme référence de comparaison. Il s'agit à ce stade d'un résultat académique publié sur arXiv, testé en simulation via DexCraft et validé par des expériences réelles limitées, et non d'un système déployé commercialement. Les auteurs mettent à disposition des vidéos de démonstration sur leur page de projet, mais aucune date de mise en open source du code ni de partenariat industriel n'est mentionnée dans le résumé.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
4arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source