Dossier OpenVLA / RT-X

519 articles

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO RechercheOpinion

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

Dossier OpenVLA / RT-X

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Exécution en temps réel avec des politiques autorégressives

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

World Pilot : piloter les modèles VLA avec des a priori monde-action

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

La robotique ne connaîtra pas de moment Llama bien défini

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

Ce que mesurent réellement les benchmarks en manipulation robotique