Aller au contenu principal
IA physiquearXiv cs.RO1h

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2606.29089) une méthode appelée TAP-VLA (Tactile Annotation Prompting for Vision-Language-Action models) visant à doter les modèles vision-langage-action du sens du toucher sans modifier leur architecture. Sur quatre tâches de manipulation à contacts complexes (vissage, insertion, assemblage de précision), TAP-VLA atteint un taux de succès de 78 %, contre moins de 50 % pour un fine-tuning purement visuel et pour les approches alternatives de fusion tactile, certaines de ces baselines ne faisant pas mieux qu'un résultat aléatoire. Le principe repose sur des capteurs visuo-tactiles capables de mesurer les champs de cisaillement (shear fields) à la surface de contact ; ces champs sont ensuite superposés sous forme de vecteurs spatialement alignés directement sur les images RGB multi-vues que le modèle consomme déjà, sans ajouter de modalité d'entrée distincte.

L'enjeu est réel : les VLAs de génération actuelle, comme π0 de Physical Intelligence, OpenVLA ou RT-2 de Google DeepMind, offrent un raisonnement robuste sur les variations visuelles, sémantiques et spatiales grâce à leur pré-entraînement à grande échelle, mais restent aveugles aux forces de contact, pourtant centrales dans toute manipulation industrielle sérieuse (emboîtement de précision, vissage, gestion d'objets déformables). Intégrer le toucher comme nouvelle modalité d'entrée détériore précisément ce pré-entraînement, car les données tactiles sont absentes des corpus à grande échelle sur lesquels ces modèles sont construits, un problème de distribution shift bien documenté dans la littérature. TAP-VLA contourne l'obstacle en restant dans l'espace d'observation natif du modèle : pas de modification architecturale, pas de pré-entraînement tactile spécifique, surcoût computationnel négligeable.

Ce travail s'inscrit dans une course active autour de l'embodied AI pour la manipulation de précision, où Physical Intelligence (π0, π0-FAST), Figure AI ou Apptronik cherchent à étendre les capacités de leurs humanoïdes et bras industriels au-delà du pick-and-place visuel. La question du sim-to-real pour les contacts reste l'un des derniers verrous majeurs avant un déploiement industriel à l'échelle. En évitant la refonte architecturale, TAP-VLA propose une voie d'intégration compatible avec les VLAs existants, ce qui simplifie son adoption par des équipes qui travaillent à partir de modèles déjà entraînés. La publication sur arXiv sans conférence associée indique que ce travail est encore en cours d'évaluation par les pairs ; aucun déploiement réel ou pilote industriel n'est annoncé à ce stade.

À lire aussi

Guidance stable par le langage pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 15 mai 2026 sur arXiv (2605.10925) PriorVLA, un framework d'adaptation pour les modèles Vision-Language-Action (VLA) destinés à la manipulation robotique généraliste. L'approche repose sur deux composants distincts : un Prior Expert gelé, utilisé en lecture seule pour conserver les représentations apprises lors du pré-entraînement, et un Adaptation Expert entraînable sur la tâche cible. Des Expert Queries extraient des priors de scène depuis le VLM pré-entraîné et des priors moteurs depuis le Prior Expert, puis les injectent dans l'Adaptation Expert pour guider la spécialisation. Résultat : PriorVLA ne met à jour que 25 % des paramètres modifiés par un fine-tuning complet. Sur le benchmark RoboTwin 2.0-Hard, il dépasse pi0.5 de 11 points ; sur LIBERO, il atteint 99,1 % de taux de succès moyen. Sur huit tâches réelles et deux plateformes embarquées, le modèle affiche 81 % de succès en distribution et 57 % hors distribution. En régime few-shot à 10 démonstrations par tâche, il atteint respectivement 48 % et 32 %, surpassant pi0.5 de 24 et 22 points. Le problème central que PriorVLA attaque est bien documenté : le fine-tuning complet d'un VLA pré-entraîné sur de grandes quantités de données tend à écraser les priors larges au profit de patterns étroits propres à la distribution d'entraînement, dégradant la généralisation hors distribution. C'est précisément le noeud du déploiement industriel, un robot doit fonctionner dans des environnements légèrement différents de ceux vus à l'entraînement. Les gains OOD de PriorVLA, conjugués à ses performances few-shot, suggèrent une voie plus efficace en données et en calcul pour adapter des fondations générales à des cellules de production spécifiques, sans réentraîner l'intégralité du modèle. PriorVLA s'inscrit dans la course à l'adaptation des VLA généralistes, un segment dominé par Physical Intelligence avec pi0 et pi0.5, et par NVIDIA avec GR00T N2 côté infrastructure. L'article utilise pi0.5 comme baseline principale, ce qui positionne PriorVLA explicitement comme une amélioration de l'état de l'art issu de Physical Intelligence. L'approche par expert gelé rappelle des techniques issues du PEFT (Parameter-Efficient Fine-Tuning) en NLP, ici transposées à l'action robotique. Les benchmarks RoboTwin 2.0 et LIBERO sont des standards académiques simulés ; les résultats sur tâches réelles, bien que prometteurs, restent limités à un contexte de laboratoire. Aucun déploiement industriel ni partenariat industriel n'est mentionné dans la publication.

UELes laboratoires de robotique européens (CEA-List, INRIA) pourraient appliquer cette méthode pour adapter des VLA généraux à leurs plateformes avec moins de données et de calcul, mais aucune entité française ou européenne n'est directement impliquée dans la publication.

IA physiqueOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
3arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

IA physiqueOpinion
1 source
Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action
4arXiv cs.RO 

Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action

Une équipe de chercheurs présente Agentic-VLA, un framework d'entraînement agentique pour modèles Vision-Langage-Action (VLA), publié sur arXiv (2605.22896) fin mai 2026. L'approche repose sur trois mécanismes : une synthèse adaptative de récompenses qui génère dynamiquement des fonctions de récompense en décomposant les tâches complexes en sous-objectifs progressifs pour un apprentissage par curriculum ; une exploration guidée par le langage via un modèle critique qui structure la recherche de politique plutôt que de procéder par échantillonnage aléatoire ; et une mémoire d'expériences qui stocke des poids de politique pour amorcer l'adaptation à de nouvelles tâches similaires. Évalué sur le benchmark LIBERO, le framework affiche +12,3% sur les tâches longue portée, +28,5% en apprentissage one-shot, et un transfert inter-tâches passant de 0% à 31,2% sans démonstrations spécifiques aux tâches cibles. La convergence est 2,4 fois plus rapide que les méthodes d'adaptation en ligne existantes. Les résultats tiennent également sur RoboTwin 2.0, benchmark dual-bras, y compris en mode difficile randomisé. Ces performances s'attaquent à deux verrous bien identifiés du déploiement industriel des VLA : la mauvaise généralisation aux environnements non vus et la dépendance aux larges jeux de démonstrations coûteuses à collecter. Le chiffre de 31,2% de transfert sans démonstration est le plus significatif : il suggère qu'un système VLA pourrait s'adapter à une tâche inédite sans données étiquetées supplémentaires, cassant le cycle coûteux de collecte-retrain-validation. Le gain one-shot (+28,5%) est directement exploitable pour les intégrateurs robotiques qui opèrent dans des environnements variés avec peu de données disponibles. Si ces chiffres se confirment hors simulation, Agentic-VLA réduit le coût marginal de l'adaptation d'un robot à un nouveau cas d'usage, ce qui est le vrai goulot d'étranglement de la robotisation flexible. Les VLA sont des modèles combinant un encodeur vision-langage (de type LLaVA ou similaire) et un générateur d'actions motrices. Les références actuelles sont π0 de Physical Intelligence, OpenVLA et Octo. Leur talon d'Achille commun est le demo-to-reality gap : les politiques entraînées sur démonstrations se dégradent rapidement en conditions opérationnelles réelles. Agentic-VLA répond par l'adaptation en ligne continue plutôt que par pré-entraînement massif, ce qui est une orientation différente des approches à grandes données comme π0. L'article reste un preprint non relu par les pairs, sans validation sur robot physique rapportée, ce qui limite la portée immédiate des conclusions. La prochaine étape naturelle est une démonstration hardware en environnement non contrôlé.

💬 Le chiffre qui m'intéresse, c'est le 31,2% de transfert sans démonstration. Si ça tient hors simulation, ça règle le vrai problème de la robotique flexible : tu n'as plus à reconstruire un dataset complet pour chaque nouveau cas d'usage, le robot s'adapte. Reste à voir sur du vrai hardware, mais sur le papier c'est le bon angle d'attaque.

IA physiqueOpinion
1 source