OmniVTLA : modèles vision-tactile-langage-action…

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

43

1arXiv cs.RO

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2606.29089) une méthode appelée TAP-VLA (Tactile Annotation Prompting for Vision-Language-Action models) visant à doter les modèles vision-langage-action du sens du toucher sans modifier leur architecture. Sur quatre tâches de manipulation à contacts complexes (vissage, insertion, assemblage de précision), TAP-VLA atteint un taux de succès de 78 %, contre moins de 50 % pour un fine-tuning purement visuel et pour les approches alternatives de fusion tactile, certaines de ces baselines ne faisant pas mieux qu'un résultat aléatoire. Le principe repose sur des capteurs visuo-tactiles capables de mesurer les champs de cisaillement (shear fields) à la surface de contact ; ces champs sont ensuite superposés sous forme de vecteurs spatialement alignés directement sur les images RGB multi-vues que le modèle consomme déjà, sans ajouter de modalité d'entrée distincte. L'enjeu est réel : les VLAs de génération actuelle, comme π0 de Physical Intelligence, OpenVLA ou RT-2 de Google DeepMind, offrent un raisonnement robuste sur les variations visuelles, sémantiques et spatiales grâce à leur pré-entraînement à grande échelle, mais restent aveugles aux forces de contact, pourtant centrales dans toute manipulation industrielle sérieuse (emboîtement de précision, vissage, gestion d'objets déformables). Intégrer le toucher comme nouvelle modalité d'entrée détériore précisément ce pré-entraînement, car les données tactiles sont absentes des corpus à grande échelle sur lesquels ces modèles sont construits, un problème de distribution shift bien documenté dans la littérature. TAP-VLA contourne l'obstacle en restant dans l'espace d'observation natif du modèle : pas de modification architecturale, pas de pré-entraînement tactile spécifique, surcoût computationnel négligeable. Ce travail s'inscrit dans une course active autour de l'embodied AI pour la manipulation de précision, où Physical Intelligence (π0, π0-FAST), Figure AI ou Apptronik cherchent à étendre les capacités de leurs humanoïdes et bras industriels au-delà du pick-and-place visuel. La question du sim-to-real pour les contacts reste l'un des derniers verrous majeurs avant un déploiement industriel à l'échelle. En évitant la refonte architecturale, TAP-VLA propose une voie d'intégration compatible avec les VLAs existants, ce qui simplifie son adoption par des équipes qui travaillent à partir de modèles déjà entraînés. La publication sur arXiv sans conférence associée indique que ce travail est encore en cours d'évaluation par les pairs ; aucun déploiement réel ou pilote industriel n'est annoncé à ce stade.

IA physiqueOpinion

1 source

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

43

2arXiv cs.RO

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

IA physiqueActu

1 source

Fusion des modalités tactiles pour les modèles vision-langage-action (VLA)

40

3arXiv cs.RO

Fusion des modalités tactiles pour les modèles vision-langage-action (VLA)

Il s'agit d'un article de recherche académique (préprint arXiv, version révisée), donc sans annonce commerciale ni chiffres de performance détaillés dans le résumé fourni, je reste factuel sur ce point plutôt que d'inventer des métriques. TacFiLM est une méthode de fusion de modalités proposée dans un préprint arXiv (2603.14604v2, version révisée) qui intègre des signaux tactiles aux modèles vision-langage-action (VLA) utilisés en robotique manipulatrice. Le constat de départ est simple: les VLA actuels, bien qu'efficaces pour généraliser des politiques de contrôle a partir d'instructions sémantiques, reposent presque exclusivement sur la perception visuelle, incapable de capturer les dynamiques d'interaction propres aux taches de manipulation en contact étroit, comme les forces de contact, le frottement de surface, la compliance ou le cisaillement. Plutot que de concaténer des tokens tactiles ou de reentrainer massivement le modèle, ce qui alourdit considérablement le cout de calcul, les auteurs proposent un finetuning post-entrainement léger: les caractéristiques visuelles intermédiaires sont conditionnées par des représentations tactiles pré-entraînées via une modulation linéaire par caractéristique (FiLM). La méthode a été testée sur des taches d'insertion et d'ouverture de tiroir, en distribution et hors distribution, avec des améliorations rapportées sur le taux de réussite, la performance directe, le temps d'exécution et la stabilité des forces appliquées. L'intérêt pour le secteur tient moins a la performance brute qu'a la stratégie d'intégration: la plupart des architectures VLA déployées (dans la lignée de Pi-0, GR00T N2 ou Helix) tournent déjà a la limite du budget de calcul embarque, ce qui rend les approches de fusion tactile lourdes difficilement viables en production. Une méthode de finetoning légère, greffée après coup sur un modèle déjà entraine, ouvre la voie a l'ajout de retour tactile sur des politiques existantes sans reentrainement complet ni explosion du cout d'inférence, un point clé pour les intégrateurs qui visent des taches d'assemblage ou de manipulation fine ou le seul retour visuel échoue régulièrement. Cette publication s'inscrit dans une tendance de fond de la recherche VLA: après avoir démontre la généralisation sémantique et le contrôle multitâche, le champ se heurte désormais au problème spécifique de la manipulation en contact, un angle mort connu depuis les débuts de l'apprentissage par imitation en robotique. Le fait qu'il s'agisse d'une version "replace" du preprint suggère une itération après retours de relecture. Les auteurs renvoient vers une page de projet dédiée pour le code et les démonstrations, sans toutefois annoncer de déploiement industriel ou de partenariat avec un fabricant de robots a ce stade.

IA physiqueOpinion

1 source

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

46

4arXiv cs.RO

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

IA physiqueOpinion

1 source

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

À lire aussi

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

Fusion des modalités tactiles pour les modèles vision-langage-action (VLA)

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils