Aller au contenu principal
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
IA physiquearXiv cs.RO6sem

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate.

Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier.

π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 Le point de vue du dev

+23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

À lire aussi

PointACT : des modèles vision-langage-action (VLA) avec interaction multi-échelle point-action
1arXiv cs.RO 

PointACT : des modèles vision-langage-action (VLA) avec interaction multi-échelle point-action

Une équipe de chercheurs a soumis en mai 2026 sur arXiv (2605.21414) PointACT, un modèle VLA (Vision-Language-Action) dual-système qui intègre des représentations 3D par nuages de points directement dans le processus de décodage d'actions. Contrairement aux VLAs existants quasi-exclusivement fondés sur des représentations visuelles 2D, PointACT couple un backbone vision-langage préentraîné à un mécanisme d'interaction multi-échelle point-action utilisant une attention fenêtrée bottleneck. Évalué sur les benchmarks LIBERO et RLBench, le modèle améliore le taux de réussite de 10 points de pourcentage sur la suite RLBench-10Tasks par rapport aux VLAs de l'état de l'art. Les gains sont encore plus importants lorsque le backbone est gelé et que l'expert d'action est entraîné from scratch, ce qui suggère une forte modularité de l'architecture. Ce résultat valide une hypothèse longtemps débattue : coupler des représentations géométriques 3D hiérarchiques avec des représentations sémantiques 2D préentraînées est essentiel pour un contrôle robot spatialement ancré. Pour les intégrateurs et les décideurs industriels, cela pointe vers un angle mort structurel des VLAs génériques actuels (OpenVLA, pi-0, GR00T N2) sur les tâches de manipulation de précision : saisie d'objets minces, assemblage, tri serré. La progression de +10% sur RLBench-10Tasks est significative dans un domaine où les gains se mesurent souvent en points uniques. Les études d'ablation confirment que c'est le couplage serré des deux modalités, et non le simple ajout d'un nuage de points, qui génère la performance. Les VLAs à backbone vision-langage dominent la manipulation généraliste depuis 2023, avec OpenVLA (UC Berkeley), pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) comme références sectorielles. Tous partagent la même limitation héritée : une représentation 2D du monde. PointACT s'inscrit dans un courant moins médiatisé qui cherche à injecter de la géométrie 3D dans ces pipelines, aux côtés de travaux comme RoboPoint. L'étape critique restante est de valider ces architectures hors simulation, sur des capteurs bruités réels (RGB-D, LiDAR), pour confirmer si les gains tiennent face au gap sim-to-real. Ce preprint n'a pas encore été évalué par les pairs.

IA physiqueOpinion
1 source
Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion
1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
3arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action
4arXiv cs.RO 

Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action

Une équipe de chercheurs présente Agentic-VLA, un framework d'entraînement agentique pour modèles Vision-Langage-Action (VLA), publié sur arXiv (2605.22896) fin mai 2026. L'approche repose sur trois mécanismes : une synthèse adaptative de récompenses qui génère dynamiquement des fonctions de récompense en décomposant les tâches complexes en sous-objectifs progressifs pour un apprentissage par curriculum ; une exploration guidée par le langage via un modèle critique qui structure la recherche de politique plutôt que de procéder par échantillonnage aléatoire ; et une mémoire d'expériences qui stocke des poids de politique pour amorcer l'adaptation à de nouvelles tâches similaires. Évalué sur le benchmark LIBERO, le framework affiche +12,3% sur les tâches longue portée, +28,5% en apprentissage one-shot, et un transfert inter-tâches passant de 0% à 31,2% sans démonstrations spécifiques aux tâches cibles. La convergence est 2,4 fois plus rapide que les méthodes d'adaptation en ligne existantes. Les résultats tiennent également sur RoboTwin 2.0, benchmark dual-bras, y compris en mode difficile randomisé. Ces performances s'attaquent à deux verrous bien identifiés du déploiement industriel des VLA : la mauvaise généralisation aux environnements non vus et la dépendance aux larges jeux de démonstrations coûteuses à collecter. Le chiffre de 31,2% de transfert sans démonstration est le plus significatif : il suggère qu'un système VLA pourrait s'adapter à une tâche inédite sans données étiquetées supplémentaires, cassant le cycle coûteux de collecte-retrain-validation. Le gain one-shot (+28,5%) est directement exploitable pour les intégrateurs robotiques qui opèrent dans des environnements variés avec peu de données disponibles. Si ces chiffres se confirment hors simulation, Agentic-VLA réduit le coût marginal de l'adaptation d'un robot à un nouveau cas d'usage, ce qui est le vrai goulot d'étranglement de la robotisation flexible. Les VLA sont des modèles combinant un encodeur vision-langage (de type LLaVA ou similaire) et un générateur d'actions motrices. Les références actuelles sont π0 de Physical Intelligence, OpenVLA et Octo. Leur talon d'Achille commun est le demo-to-reality gap : les politiques entraînées sur démonstrations se dégradent rapidement en conditions opérationnelles réelles. Agentic-VLA répond par l'adaptation en ligne continue plutôt que par pré-entraînement massif, ce qui est une orientation différente des approches à grandes données comme π0. L'article reste un preprint non relu par les pairs, sans validation sur robot physique rapportée, ce qui limite la portée immédiate des conclusions. La prochaine étape naturelle est une démonstration hardware en environnement non contrôlé.

💬 Le chiffre qui m'intéresse, c'est le 31,2% de transfert sans démonstration. Si ça tient hors simulation, ça règle le vrai problème de la robotique flexible : tu n'as plus à reconstruire un dataset complet pour chaque nouveau cas d'usage, le robot s'adapte. Reste à voir sur du vrai hardware, mais sur le papier c'est le bon angle d'attaque.

IA physiqueOpinion
1 source