Aller au contenu principal
IA physiquearXiv cs.RO59min

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

UniTacVLA, un modèle vision-langage-action (VLA) tactile, vise à résoudre un point faible connu des VLA classiques : la manipulation dextre en contact riche, comme l'insertion, l'essuyage, l'assemblage ou l'ajustement de précision. Contrairement aux approches vision-tactile-langage-action (VTLA) existantes qui traitent le signal tactile comme une simple entrée auxiliaire passive, l'équipe de recherche propose un espace latent tactile unifié qui modélise conjointement l'état tactile courant et les changements de contact futurs, via un raisonnement en chaîne de pensée tactile et une prédiction tactile progressive (coarse-to-fine). Ce prior tactile alimente ensuite un contrôleur mixte tactile-action combinant retour tactile en temps réel et retour prédit, pour corriger à haute fréquence des chunks d'action calculés à basse fréquence. Les expériences ont été menées en conditions réelles sur quatre catégories de tâches à fort contact (ajustement, insertion, essuyage, assemblage), testées à la fois en environnement propre et sous perturbations externes.

L'enjeu dépasse la simple amélioration de benchmark. La manipulation en contact riche reste l'un des goulots d'étranglement majeurs empêchant les bras robotiques et humanoïdes de passer de la démonstration en laboratoire au déploiement industriel réel, notamment pour des tâches d'assemblage fin où la seule vision ne suffit pas à garantir la précision ou la robustesse face aux perturbations. En traitant le tactile comme un signal dynamique et prédictif plutôt que comme un simple capteur passif, UniTacVLA s'attaque directement à l'écart persistant entre les VLA génériques, entraînés majoritairement sur des données visuelles, et les exigences physiques réelles de l'assemblage industriel ou de la manipulation fine en conditions non contrôlées. Les auteurs revendiquent des gains sur le taux de succès, la précision de manipulation et la robustesse au contact par rapport aux méthodes existantes, ce qui, si confirmé à plus grande échelle, renforcerait l'argument selon lequel l'intégration tactile profonde est nécessaire pour les tâches dextres, et pas seulement un ajout marginal.

Ce travail s'inscrit dans une vague plus large de recherche visant à doter les modèles VLA de capacités multimodales au-delà de la vision et du langage, à mesure que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T) poussent leurs propres modèles génération vers la production industrielle. Les architectures VTLA précédentes, limitées par un traitement passif du tactile, constituent la ligne de base que ce papier cherche à dépasser. La publication, un prépublication arXiv, ne mentionne pas de partenariat industriel ni de calendrier de déploiement commercial ; les prochaines étapes attendues porteraient sur l'extension à davantage de types de capteurs tactiles et de tâches, ainsi que sur une validation à plus grande échelle en dehors du cadre contrôlé des expériences décrites.

À lire aussi

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
1arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion
1 source
TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2606.29089) une méthode appelée TAP-VLA (Tactile Annotation Prompting for Vision-Language-Action models) visant à doter les modèles vision-langage-action du sens du toucher sans modifier leur architecture. Sur quatre tâches de manipulation à contacts complexes (vissage, insertion, assemblage de précision), TAP-VLA atteint un taux de succès de 78 %, contre moins de 50 % pour un fine-tuning purement visuel et pour les approches alternatives de fusion tactile, certaines de ces baselines ne faisant pas mieux qu'un résultat aléatoire. Le principe repose sur des capteurs visuo-tactiles capables de mesurer les champs de cisaillement (shear fields) à la surface de contact ; ces champs sont ensuite superposés sous forme de vecteurs spatialement alignés directement sur les images RGB multi-vues que le modèle consomme déjà, sans ajouter de modalité d'entrée distincte. L'enjeu est réel : les VLAs de génération actuelle, comme π0 de Physical Intelligence, OpenVLA ou RT-2 de Google DeepMind, offrent un raisonnement robuste sur les variations visuelles, sémantiques et spatiales grâce à leur pré-entraînement à grande échelle, mais restent aveugles aux forces de contact, pourtant centrales dans toute manipulation industrielle sérieuse (emboîtement de précision, vissage, gestion d'objets déformables). Intégrer le toucher comme nouvelle modalité d'entrée détériore précisément ce pré-entraînement, car les données tactiles sont absentes des corpus à grande échelle sur lesquels ces modèles sont construits, un problème de distribution shift bien documenté dans la littérature. TAP-VLA contourne l'obstacle en restant dans l'espace d'observation natif du modèle : pas de modification architecturale, pas de pré-entraînement tactile spécifique, surcoût computationnel négligeable. Ce travail s'inscrit dans une course active autour de l'embodied AI pour la manipulation de précision, où Physical Intelligence (π0, π0-FAST), Figure AI ou Apptronik cherchent à étendre les capacités de leurs humanoïdes et bras industriels au-delà du pick-and-place visuel. La question du sim-to-real pour les contacts reste l'un des derniers verrous majeurs avant un déploiement industriel à l'échelle. En évitant la refonte architecturale, TAP-VLA propose une voie d'intégration compatible avec les VLAs existants, ce qui simplifie son adoption par des équipes qui travaillent à partir de modèles déjà entraînés. La publication sur arXiv sans conférence associée indique que ce travail est encore en cours d'évaluation par les pairs ; aucun déploiement réel ou pilote industriel n'est annoncé à ce stade.

IA physiqueOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
3arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

IA physiqueOpinion
1 source
Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs
4arXiv cs.RO 

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Des chercheurs ont publié sur arXiv (référence 2602.06339, version 2, février 2026) une analyse théorique des hallucinations d'action dans les modèles VLA (Vision-Language-Action), ces architectures de fondation qui promettent une généralisation large pour le contrôle robotique de bout en bout. L'étude, centrée sur les politiques génératives à variables latentes, identifie trois catégories de barrières structurelles qui provoquent des hallucinations, c'est-à-dire des actions générées violant des contraintes physiques du monde réel : une barrière topologique (liée à la topologie de l'espace d'action), une barrière de précision (résolution insuffisante pour les tâches fines), et une barrière d'horizon (dégradation des performances sur les séquences longues). Ces barrières ne sont pas des artefacts d'implémentation corrigeables à la marge, mais des inadéquations structurelles entre l'espace des comportements robots physiquement réalisables et les architectures de modèles courantes. La portée de ce travail dépasse le cadre académique : il fournit des explications mécanistes aux échecs empiriques régulièrement rapportés lors du déploiement de politiques VLA en conditions réelles, et remet en question une hypothèse dominante du secteur selon laquelle les modèles de fondation généralistes résoudraient intrinsèquement le problème de génération d'action en robotique incarnée. Pour les intégrateurs et les équipes R&D industrielles, cela signifie que des phénomènes observés en déploiement, comme des mouvements incohérents, des échecs sur des tâches longues ou des erreurs de précision fine, ont une origine architecturale identifiable, et non pas seulement un déficit de données d'entraînement. Les auteurs soulignent que ces limitations imposent des compromis inévitables, et non des problèmes résolubles uniquement par le scaling ou l'augmentation des datasets. Le champ des VLAs s'est considérablement densifié depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA (open-source) ou encore RT-2 de Google DeepMind, qui font tous le pari d'une politique robotique unifiée entraînée sur des données massives. Cette étude apporte une perspective critique et formalisée dans un domaine encore largement dominé par des démonstrations en environnements contrôlés, souvent sans publication des métriques d'échec. Les auteurs ne proposent pas d'abandonner l'approche générative, mais tracent des directions pour améliorer fiabilité et robustesse sans sacrifier la puissance expressive de ces architectures, un prérequis non négociable pour franchir le seuil du déploiement industriel réel.

UELes équipes R&D françaises et européennes travaillant sur des politiques robotiques VLA (INRIA, CEA-List, startups robotiques) peuvent réévaluer leurs choix architecturaux et ne plus imputer uniquement à un déficit de données les échecs de déploiement observés en conditions réelles.

💬 On sait depuis un moment que les VLAs galèrent en conditions réelles, mais tout le monde imputait ça à des données insuffisantes. Ces chercheurs identifient trois barrières structurelles (topologie, précision, horizon) que le scaling seul ne résoudra pas. Pour les équipes qui pariaient sur "encore plus de données pour y arriver", c'est un mur.

IA physiqueOpinion
1 source