Dossier OpenVLA / RT-X — page 5

698 articles · page 5 sur 14

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

201arXiv cs.RO IA physiqueActu

Déploiement d'actions accru grâce à l'entraînement compositionnel pour les modèles VLA

Une équipe de chercheurs propose ACT-VLA (Action Compositional Training for VLA Models), un nouveau cadre d'entraînement présenté dans un article publié sur arXiv (2607.00351v1) début juillet 2026. Le problème visé est bien connu des équipes travaillant sur les modèles Vision-Language-Action (VLA) pour la manipulation robotique : ces modèles, entraînés sur de larges jeux de démonstrations, généralisent mal dès qu'une tâche exige de recombiner des sous-compétences déjà apprises individuellement, même sans réel changement de contexte physique. ACT-VLA s'attaque à ce défaut de généralisation compositionnelle sans collecter de nouvelles données humaines : la méthode exploite les représentations latentes de tâches déjà apprises par le modèle pour synthétiser hors ligne de nouvelles démonstrations, physiquement valides, à partir de tâches existantes. Les auteurs valident l'approche sur des tâches de manipulation complexes en simulation, où les politiques entraînées avec les données augmentées obtiennent des taux de réussite nettement supérieurs à ceux des modèles de référence en situation hors distribution. L'enjeu dépasse le simple exercice académique : la collecte de données robotiques réelles, via téléopération humaine, reste le goulot d'étranglement majeur pour les VLA, coûteux en temps comme en main-d'œuvre. Une méthode capable d'étendre automatiquement la distribution d'entraînement, sans supervision additionnelle, offrirait une voie de mise à l'échelle bien moins coûteuse que celle suivie par les modèles généralistes actuels type Pi-0, GR00T N2 ou Helix, qui misent avant tout sur le volume brut de démonstrations collectées. Reste que la validation s'arrête ici à la simulation : aucun déploiement sur robot physique n'est rapporté, ce qui laisse ouverte la question du transfert sim-to-real. ACT-VLA s'inscrit dans la lignée des travaux cherchant à corriger les limites de généralisation des architectures VLA de type RT-2 ou OpenVLA. L'article ne précise ni l'institution porteuse ni de calendrier de suite ; la prochaine étape logique consisterait à tester la méthode sur du matériel réel pour confirmer que les gains observés en simulation résistent au bruit et aux imprécisions du monde physique.

Dossier OpenVLA / RT-X — page 5

Déploiement d'actions accru grâce à l'entraînement compositionnel pour les modèles VLA

LaMP : apprentissage d'une politique vision-langage-action avec flux de scène 3D comme a priori de mouvement latent

ViPSim : collaboration entre espaces visuels et paramétriques pour des modèles du monde incarnés cohérents sur le long terme

MM-Nav : un modèle VLA multi-vues pour la navigation visuelle robuste par apprentissage multi-expert

Exploration de poses-clés : étiquetage automatique de trajectoires et transfert de politique entre robots

StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique

La translation comme action passerelle : transférer des compétences de manipulation de l'humain au robot

Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)

PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage

PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage

Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Pose6DAug : substitution d'objets multi-vues physiquement plausible pour l'augmentation de données en robotique

Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras

Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Pré-entraînement contrastif action-image pour le contrôle visuomoteur

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence

RHO : votre agent de code est secrètement un roboticien

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

Pondération hiérarchique des avantages pour l'affinage par apprentissage par renforcement en ligne des VLA à partir de résultats d'épisodes épars

T-Rex : manipulation dextérique à réaction tactile

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée

AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances