RecherchearXiv cs.RO6sem

Pré-entraînement universel sur les poses pour des politiques VLA généralisables

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié Pose-VLA (arXiv:2602.19710, 2026), un nouveau paradigme d'entraînement pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'approche sépare l'entraînement en deux phases distinctes: une phase de pré-entraînement qui extrait des prior spatiaux 3D universels dans un espace centré sur la caméra, puis une phase de post-entraînement pour l'alignement propre à l'embodiment du robot cible. Le mécanisme central repose sur l'introduction de "discrete pose tokens", une représentation intermédiaire universelle qui combine des données de grounding spatial issues de datasets 3D hétérogènes avec des trajectoires géométriques issues de démonstrations robotiques. Sur le benchmark RoboTwin 2.0, Pose-VLA revendique l'état de l'art avec 79,5% de taux de succès moyen, et atteint 96,0% sur LIBERO. En conditions réelles, le modèle généralise à des objets variés avec seulement 100 démonstrations par tâche.

Le problème structurel que Pose-VLA cherche à résoudre est bien documenté dans la littérature: les backbones VLM classiques, optimisés pour le Visual Question Answering, excellent à identifier sémantiquement des objets mais restent relativement insensibles aux variations 3D fines qui dictent des stratégies de préhension différentes. Ce phénomène, qualifié de "feature collapse" par les auteurs, dégrade l'efficacité d'entraînement et limite la généralisation inter-tâches. En découplant explicitement la perception spatiale 3D de la supervision d'action, l'approche vise à réduire significativement le nombre de démonstrations nécessaires pour adapter une politique à un nouveau contexte, ce qui représente aujourd'hui l'un des principaux freins à l'industrialisation des VLA. À noter que les tâches réelles testées ne sont pas détaillées dans l'article, et les performances sur benchmarks simulés ne préjugent pas du comportement en environnement industriel non contrôlé.

Les VLA sont au coeur d'une compétition de recherche intense depuis RT-2 de Google DeepMind en 2023, et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA ont chacun tenté d'adresser le sim-to-real gap et la dépendance aux larges corpus de démonstrations. RoboTwin 2.0 et LIBERO sont devenus des références de facto pour comparer ces politiques en manipulation. Pose-VLA s'inscrit dans une tendance plus large de découplage des phases d'entraînement, parallèlement à des approches comme UniSim ou RoboVLMs. Cette publication reste au stade académique: aucun déploiement industriel, partenariat commercial ni timeline de mise en production ne sont mentionnés, et les expériences réelles se limitent à un contexte laboratoire avec des objets courants.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X Manipulation robotique

À lire aussi

1arXiv cs.RO

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu

1 source

2arXiv cs.RO

Apprendre à bouger avant d'agir : pré-entraînement générique pour les VLA

Une équipe de recherche publie sur arXiv (2607.02466v1) un nouveau framework baptisé TAP (Task-Agnostic Pretraining), conçu pour entraîner des modèles Vision-Language-Action (VLA) avec beaucoup moins de démonstrations expertes que les approches classiques. Le constat de départ : la rareté des données étiquetées (observations, instructions et actions) freine le développement des VLA, car les méthodes actuelles mélangent deux apprentissages distincts, la compétence physique (comment bouger) et l'alignement sémantique (quoi faire), alors que seul le second nécessite une supervision par le langage. TAP sépare les deux en deux étapes : une première phase apprend des a priori moteurs transférables à partir de données d'interaction non étiquetées et bon marché, y compris des trajectoires hors tâche généralement écartées et du jeu autonome de robots, via un objectif auto-supervisé de dynamique inverse. Une seconde phase, légère, ancre ensuite ces a priori dans le langage à l'aide d'un minimum de données expertes. Sur le benchmark SIMPLER, TAP égale des modèles entraînés sur plus d'un million de trajectoires expertes tout en utilisant des ordres de grandeur de données étiquetées en moins, avec un gain absolu de 10% sur le behavior cloning standard. Sur une plateforme réelle WidowX, TAP conserve un taux de réussite de 25% face à des perturbations de caméra, là où les baselines entraînées à l'échelle internet chutent à 0%. Ce résultat s'attaque directement à l'un des goulots d'étranglement les plus cités du secteur robotique : le coût de collecte de démonstrations expertes à grande échelle, souvent invoqué pour justifier des besoins massifs en téléopération ou en données simulées coûteuses. En montrant qu'un pré-entraînement task-agnostic sur des données bon marché (trajectoires ratées, jeu robotique non supervisé) peut produire des représentations physiques robustes et transférables, TAP suggère une voie de scalabilité alternative à l'empilement pur de données expertes, un enjeu direct pour les intégrateurs et laboratoires qui cherchent à réduire le coût par déploiement de politiques VLA. Le travail s'inscrit dans la lignée des architectures VLA récentes comme Pi-0 ou GR00T N2, qui cherchent toutes à généraliser au-delà des tâches vues à l'entraînement. La robustesse démontrée face aux perturbations caméra, un scénario classique de dégradation en conditions réelles, en fait un signal notable pour la suite : reste à voir si l'approche se généralise à des plateformes bras-mobiles ou humanoïdes plus complexes que le bras WidowX utilisé ici pour la validation.

RechercheActu

1 source

3arXiv cs.RO

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

Une équipe de chercheurs a publié UniDomain, un cadre de pré-entraînement qui construit automatiquement un domaine PDDL (Planning Domain Definition Language) unifié à partir de démonstrations robotiques réelles, pour être ensuite appliqué à la planification de tâches en ligne. Le système ingère 12 393 vidéos de manipulation robotique, en extrait des domaines atomiques, et les fusionne en un domaine unifié comprenant 3 137 opérateurs, 2 875 prédicats et 16 481 arêtes causales. Face à une nouvelle classe de tâches, UniDomain récupère les atomes pertinents et les assemble dynamiquement en méta-domaines adaptés. Les expériences sur des tâches réelles inédites montrent des gains allant jusqu'à 58 % sur le taux de succès et 160 % sur l'optimalité des plans, comparé aux meilleures bases LLM seuls et LLM couplés à PDDL manuel, le tout en mode zéro-shot. Ce résultat s'attaque à l'un des verrous centraux de la robotique manipulatrice : la capacité à raisonner sur des séquences longues d'actions avec des contraintes implicites issues du langage et de la vision. Les LLM et VLM actuels fournissent de bons priors sémantiques, mais peinent à maintenir une cohérence causale sur des horizons temporels étendus et à ancrer les symboles dans le réel. UniDomain propose une voie médiane : extraire la structure symbolique directement depuis des démonstrations, évitant ainsi la fragilité des domaines PDDL codés à la main, souvent trop étroits pour généraliser. La généralisation compositionnelle zéro-shot, validée sur des tâches jamais vues, est ici une affirmation forte, bien que la sélection des vidéos sources et des scénarios de test mériterait une vérification indépendante pour écarter un biais de distribution. La planification symbolique robotique via PDDL est un paradigme ancien, remontant aux travaux STRIPS des années 1970, mais qui a souffert du coût élevé de l'ingénierie des domaines. Des approches récentes comme SayCan (Google), Code-as-Policies (Google Brain) ou les travaux de planification LLM de MetaAI ont tenté de contourner ce problème par la génération de code ou de plans en langage naturel, avec des résultats limités en environnements ouverts. UniDomain repositionne PDDL non plus comme une contrainte d'ingénierie mais comme un artefact appris, ce qui le rapproche conceptuellement des travaux sur l'apprentissage de modèles du monde. Les prochaines étapes naturelles incluent l'extension à la manipulation déformable, l'intégration avec des architectures VLA comme pi-0 ou GR00T N2, et une validation en environnement industriel réel, aujourd'hui absente de l'article.

RecherchePaper

1 source

4arXiv cs.RO

WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement

Des chercheurs ont publié sur arXiv (référence 2602.13977v2) un framework nommé WoVR, conçu pour entraîner via du reinforcement learning (RL) des politiques de type Vision-Language-Action (VLA) sans recourir à des milliers d'heures d'interaction physique réelle. Le principe : substituer le robot réel par un modèle du monde appris, c'est-à-dire un modèle vidéo conditionné par les actions qui prédit le comportement de l'environnement. WoVR articule trois mécanismes distincts : un modèle vidéo action-conditionné à stabilité contrôlée, une stratégie baptisée Keyframe-Initialized Rollouts qui réinitialise les trajectoires imaginées à partir d'images-clés pour limiter l'accumulation d'erreurs sur l'horizon, et une co-évolution conjointe du modèle du monde et de la politique pour maintenir leur cohérence dans le temps. Les expériences rapportées montrent des gains sur le benchmark LIBERO et des améliorations mesurées sur plusieurs plateformes robotiques physiques. Ce travail s'attaque à un verrou central du post-entraînement des VLA : le RL promet d'aller au-delà de l'imitation learning, mais ses besoins en données d'interaction rendent son application directe sur robot physique quasi prohibitive. La contribution de WoVR est de montrer qu'un modèle du monde imparfait peut néanmoins servir de simulateur RL fiable, à condition de contrôler explicitement ses hallucinations plutôt que de les ignorer. C'est un signal positif pour la thèse que le sim-to-real, appliqué non au niveau du rendu physique mais au niveau de la prédiction vidéo apprise, peut débloquer l'optimisation de politiques à grande échelle. La nuance importante : les résultats sont publiés sous forme de papier de recherche, les démonstrations sont disponibles sur wovr-corl.github.io, mais aucun déploiement industriel n'est revendiqué. WoVR s'inscrit dans une vague de recherche qui cherche à reproduire pour la robotique ce que le RL a accompli pour les grands modèles de langage. Les VLA comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA ont montré des capacités impressionnantes en imitation, mais leur amélioration par RL reste un problème ouvert. D'autres approches concurrentes misent sur des simulateurs physiques classiques (Isaac Lab, MuJoCo) ou sur du RL directement en conditions réelles, avec des cycles de collecte longs et coûteux. WoVR propose une troisième voie via les world models vidéo, dans la lignée des travaux de type DIAMOND ou DreamerV3 appliqués à la robotique. La soumission cible CORL, conférence de référence du domaine, ce qui suggère une prochaine validation par les pairs et potentiellement une intégration dans les pipelines d'entraînement open-source des équipes académiques et industrielles dès 2026.

RechercheOpinion

1 source