MotionVLA : un modèle vision-langage-action pour…

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

43

1arXiv cs.RO

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2606.29089) une méthode appelée TAP-VLA (Tactile Annotation Prompting for Vision-Language-Action models) visant à doter les modèles vision-langage-action du sens du toucher sans modifier leur architecture. Sur quatre tâches de manipulation à contacts complexes (vissage, insertion, assemblage de précision), TAP-VLA atteint un taux de succès de 78 %, contre moins de 50 % pour un fine-tuning purement visuel et pour les approches alternatives de fusion tactile, certaines de ces baselines ne faisant pas mieux qu'un résultat aléatoire. Le principe repose sur des capteurs visuo-tactiles capables de mesurer les champs de cisaillement (shear fields) à la surface de contact ; ces champs sont ensuite superposés sous forme de vecteurs spatialement alignés directement sur les images RGB multi-vues que le modèle consomme déjà, sans ajouter de modalité d'entrée distincte. L'enjeu est réel : les VLAs de génération actuelle, comme π0 de Physical Intelligence, OpenVLA ou RT-2 de Google DeepMind, offrent un raisonnement robuste sur les variations visuelles, sémantiques et spatiales grâce à leur pré-entraînement à grande échelle, mais restent aveugles aux forces de contact, pourtant centrales dans toute manipulation industrielle sérieuse (emboîtement de précision, vissage, gestion d'objets déformables). Intégrer le toucher comme nouvelle modalité d'entrée détériore précisément ce pré-entraînement, car les données tactiles sont absentes des corpus à grande échelle sur lesquels ces modèles sont construits, un problème de distribution shift bien documenté dans la littérature. TAP-VLA contourne l'obstacle en restant dans l'espace d'observation natif du modèle : pas de modification architecturale, pas de pré-entraînement tactile spécifique, surcoût computationnel négligeable. Ce travail s'inscrit dans une course active autour de l'embodied AI pour la manipulation de précision, où Physical Intelligence (π0, π0-FAST), Figure AI ou Apptronik cherchent à étendre les capacités de leurs humanoïdes et bras industriels au-delà du pick-and-place visuel. La question du sim-to-real pour les contacts reste l'un des derniers verrous majeurs avant un déploiement industriel à l'échelle. En évitant la refonte architecturale, TAP-VLA propose une voie d'intégration compatible avec les VLAs existants, ce qui simplifie son adoption par des équipes qui travaillent à partir de modèles déjà entraînés. La publication sur arXiv sans conférence associée indique que ce travail est encore en cours d'évaluation par les pairs ; aucun déploiement réel ou pilote industriel n'est annoncé à ce stade.

IA physiqueOpinion

1 source

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

45

2arXiv cs.RO

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion

1 source

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

51

3arXiv cs.RO

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion

1 source

Fusion des modalités tactiles pour les modèles vision-langage-action (VLA)

40

4arXiv cs.RO

Fusion des modalités tactiles pour les modèles vision-langage-action (VLA)

Il s'agit d'un article de recherche académique (préprint arXiv, version révisée), donc sans annonce commerciale ni chiffres de performance détaillés dans le résumé fourni, je reste factuel sur ce point plutôt que d'inventer des métriques. TacFiLM est une méthode de fusion de modalités proposée dans un préprint arXiv (2603.14604v2, version révisée) qui intègre des signaux tactiles aux modèles vision-langage-action (VLA) utilisés en robotique manipulatrice. Le constat de départ est simple: les VLA actuels, bien qu'efficaces pour généraliser des politiques de contrôle a partir d'instructions sémantiques, reposent presque exclusivement sur la perception visuelle, incapable de capturer les dynamiques d'interaction propres aux taches de manipulation en contact étroit, comme les forces de contact, le frottement de surface, la compliance ou le cisaillement. Plutot que de concaténer des tokens tactiles ou de reentrainer massivement le modèle, ce qui alourdit considérablement le cout de calcul, les auteurs proposent un finetuning post-entrainement léger: les caractéristiques visuelles intermédiaires sont conditionnées par des représentations tactiles pré-entraînées via une modulation linéaire par caractéristique (FiLM). La méthode a été testée sur des taches d'insertion et d'ouverture de tiroir, en distribution et hors distribution, avec des améliorations rapportées sur le taux de réussite, la performance directe, le temps d'exécution et la stabilité des forces appliquées. L'intérêt pour le secteur tient moins a la performance brute qu'a la stratégie d'intégration: la plupart des architectures VLA déployées (dans la lignée de Pi-0, GR00T N2 ou Helix) tournent déjà a la limite du budget de calcul embarque, ce qui rend les approches de fusion tactile lourdes difficilement viables en production. Une méthode de finetoning légère, greffée après coup sur un modèle déjà entraine, ouvre la voie a l'ajout de retour tactile sur des politiques existantes sans reentrainement complet ni explosion du cout d'inférence, un point clé pour les intégrateurs qui visent des taches d'assemblage ou de manipulation fine ou le seul retour visuel échoue régulièrement. Cette publication s'inscrit dans une tendance de fond de la recherche VLA: après avoir démontre la généralisation sémantique et le contrôle multitâche, le champ se heurte désormais au problème spécifique de la manipulation en contact, un angle mort connu depuis les débuts de l'apprentissage par imitation en robotique. Le fait qu'il s'agisse d'une version "replace" du preprint suggère une itération après retours de relecture. Les auteurs renvoient vers une page de projet dédiée pour le code et les démonstrations, sans toutefois annoncer de déploiement industriel ou de partenariat avec un fabricant de robots a ce stade.

IA physiqueOpinion

1 source

MotionVLA : un modèle vision-langage-action pour les robots humanoïdes

À lire aussi

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Fusion des modalités tactiles pour les modèles vision-langage-action (VLA)