Dossier OpenVLA / RT-X — page 4

642 articles · page 4 sur 13

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

151arXiv cs.RO IA physiqueOpinion

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

Dossier OpenVLA / RT-X — page 4

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Pré-entraînement contrastif action-image pour le contrôle visuomoteur

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques

RLRC : l'apprentissage par renforcement au service de la récupération des modèles vision-langage-action compressés

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

APEX : exécution adaptative de politiques pour la manipulation de précision

RHO : votre agent de code est secrètement un roboticien

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

Adaptation de politique sans mise à jour du modèle par flux normalisant

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

GIFT : transfert fonctionnel induit par la géométrie pour la manipulation d'objets par catégorie

Voir, Planifier, Revenir en arrière : des modèles VLA sensibles à la progression pour une manipulation robotique robuste

SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation

Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique

Débruitage par priorité d'action pour un découpage fluide en temps réel

VLANeXt : recettes pour construire des modèles VLA performants

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

D'une seule démonstration à une politique générale pour la manipulation avec contact

Pré-entraînement universel sur les poses pour des politiques VLA généralisables