Aller au contenu principal
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
RecherchearXiv cs.RO2j

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques.

L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas.

Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

À lire aussi

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)
1arXiv cs.RO 

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion
1 source
AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques
2arXiv cs.RO 

AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques

Des chercheurs ont déposé en mai 2026 sur arXiv (arXiv:2605.17517) un papier présentant AffordVLA, un framework qui améliore la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le problème central: les VLA actuels encodent l'apparence globale des objets mais peinent à localiser les zones d'interaction fonctionnelle, les affordances, telles que le point de préhension ou la surface de contact optimale. AffordVLA injecte ces représentations d'affordance directement dans les couches visuelles intermédiaires du VLA via un alignement implicite, sans annotation supplémentaire ni module de perception externe. Un "teacher" d'affordance zero-shot extrait des cartes fonctionnelles conditionnées par l'instruction en langage naturel, puis les aligne avec les représentations internes du modèle pendant l'entraînement. Les expériences en simulation et en environnement réel rapportent des performances supérieures aux baselines, avec un taux de succès en manipulation amélioré, sans que l'abstract ne publie de métriques absolues chiffrées. Ce gap entre apparence globale et localisation fonctionnelle est l'un des facteurs limitants du sim-to-real gap en manipulation non structurée: les systèmes réussissent en laboratoire contrôlé mais échouent dès que l'éclairage, le fond ou la pose de l'objet varient. En internalisant la perception d'affordance dans le VLA lui-même, AffordVLA évite les erreurs en cascade des architectures hybrides couplant un VLA à un module de segmentation externe, et n'alourdit pas le temps d'inférence, un critère déterminant pour les déploiements industriels en temps réel. La suppression de la dépendance aux masques annotés réduit également le coût de mise en données pour les intégrateurs, ce qui élargit la portée pratique de l'approche. AffordVLA s'inscrit dans l'accélération des travaux académiques autour des VLA depuis RT-2 (Google DeepMind, 2023), dans un secteur aujourd'hui dominé par des systèmes propriétaires comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). Ce courant cherche à améliorer le grounding spatial sans refonte architecturale complète, une approche plus accessible pour les laboratoires sans les moyens de Physical Intelligence ou de Figure. Le papier reste un preprint non peer-reviewed; aucun partenariat industriel ni déploiement terrain n'est mentionné. La suite logique serait une validation sur des benchmarks standardisés comme BridgeV2 ou OpenX-Embodiment, et une intégration dans des pipelines open-source comme LeRobot ou OpenVLA.

RechercheOpinion
1 source
Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA
3arXiv cs.RO 

Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.22283) SOMA, un framework de mémoire spatiale conçu pour résoudre un angle mort structurel des modèles Vision-Language-Action (VLA) : leur incapacité à manipuler des objets hors du champ visuel. Le système s'appuie sur une caméra de tête mobile pour acquérir des observations multi-vues, qu'il agrège en une représentation spatiale et sémantique persistante. SOMA repose sur trois modules : une construction de mémoire spatiale par balayage angulaire, un raffinement dynamique pour maintenir la cohérence globale au fil du temps, et une récupération contextuelle qui active les indices spatiaux pertinents à l'instruction en cours d'exécution. Les chercheurs l'ont évalué sur cinq tâches réelles de manipulation hors champ, incluant des scénarios multi-étapes et à deux bras où les objets cibles sont initialement invisibles. Les résultats montrent une amélioration du taux de succès, une localisation plus rapide des cibles, moins de recherche de point de vue, et un comportement proche du "one-shot grasping" en conditions d'observabilité partielle. Des expériences complémentaires sur les benchmarks RoboCasa GR1 et SimplerEnv confirment l'efficacité du design mémoire en contexte pleinement observable. Ce travail s'attaque à un verrou souvent ignoré dans la littérature VLA : l'hypothèse implicite que tous les objets pertinents sont dans le champ de vision au moment de l'action. Cette hypothèse rend les systèmes actuels fragiles dès qu'on sort des configurations de démonstration. Le fait que SOMA induise des comportements qualitativement différents, et non de simples gains de score, est notable : une localisation en quasi-une-passe sous observabilité partielle est un résultat concret pour tout intégrateur robotique travaillant en environnement non structuré. Cela suggère que la mémoire spatiale persistante peut s'ajouter comme couche modulaire à un VLA existant, sans refonte complète de l'architecture, ce qui abaisse le seuil d'adoption. Les VLAs ont émergé comme approche dominante en robotique de manipulation depuis fin 2023, portés par Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et OpenVLA issu de Stanford et Berkeley. Ces modèles héritent de l'architecture vision-langage mais restent fondamentalement réactifs : ils traitent un flux visuel instantané sans mémoire de scène. Des travaux parallèles sur la mémoire épisodique existent en navigation mobile (méthodes SLAM-like, NeRF tactique), mais leur intégration dans des pipelines VLA de manipulation reste peu explorée. SOMA comble ce gap sur une plateforme à bras réel. Le code n'est pas encore disponible au moment de la publication, ce qui limite la reproductibilité immédiate ; son déploiement sur d'autres plateformes humanoïdes, au-delà de GR1, constituera l'étape de validation industrielle clé.

RechercheOpinion
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source