Aller au contenu principal
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
IA physiquearXiv cs.RO5h

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées.

L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service.

Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

Impact France/UE

Les équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

À lire aussi

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique
1arXiv cs.RO 

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.15971) un cadre appelé OHP-RL (Online Human Preference as Guidance in Reinforcement Learning) pour améliorer l'apprentissage par renforcement appliqué à la manipulation robotique en conditions réelles. L'approche introduit une "preference gate" dépendante de l'état du robot, qui détermine dynamiquement quand et dans quelle mesure les interventions humaines doivent influencer l'apprentissage de la politique de contrôle. Contrairement aux méthodes existantes qui traitent ces interventions comme de simples signaux d'imitation, OHP-RL les interprète comme des expressions de préférences relatives entre comportements, intégrant des contraintes de sécurité et de tâche. Le système a été évalué sur trois tâches de manipulation en contact réel sur un robot Franka, où il obtient des taux de réussite élevés, une convergence plus rapide et un volume d'interventions humaines significativement réduit par rapport aux approches antérieures. L'enjeu est bien connu des équipes de robotique industrielle : le RL en environnement réel souffre d'une exploration inefficace et potentiellement dangereuse, ce qui freine son déploiement hors laboratoire. Les méthodes humain-dans-la-boucle existantes comme HIRL ou IWR exploitent les corrections humaines comme des démonstrations à imiter, une hypothèse qui surestime la précision et la cohérence des opérateurs réels. OHP-RL change de paradigme en traitant l'intervention non pas comme une action idéale à reproduire, mais comme un signal de préférence entre deux comportements, ce qui correspond mieux à la réalité opérationnelle. Un opérateur peu expert ou fatigué génère ainsi un signal utile, et le système tolère une supervision intermittente. Pour un intégrateur ou un responsable de production, cela signifie un coût de supervision réduit pendant l'apprentissage et un déploiement potentiellement plus rapide sur des tâches de manipulation en contact, vissage, assemblage, insertion, que les pipelines de programmation classiques peinent encore à automatiser. OHP-RL se positionne à l'intersection du RLHF (Reinforcement Learning from Human Feedback, popularisé par les LLMs) et du HiL-RL pour la robotique physique, un rapprochement conceptuel qu'explorent aussi Physical Intelligence avec pi0, Google DeepMind sur les plateformes Aloha et Franka, et plusieurs labos académiques travaillant sur les VLA (Vision-Language-Action models). L'utilisation du Franka Research 3, référence académique mondiale, facilite la comparaison directe avec ces concurrents. Le papier reste un preprint arXiv sans revue par les pairs confirmée, il convient donc de lire les résultats comme prometteurs plutôt que validés ; les prochaines étapes naturelles seraient une validation sur des bras industriels à plus fort payload et une intégration dans des pipelines de déploiement continu.

UEImpact indirect : les intégrateurs européens spécialisés en manipulation en contact (assemblage, vissage, insertion) pourraient suivre cette approche pour réduire le coût de supervision lors du déploiement de RL en production, sans lien direct avec une entreprise ou réglementation française ou européenne.

IA physiquePaper
1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
2arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

IA physiquePaper
1 source
OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne
3arXiv cs.RO 

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

IA physiqueActu
1 source
Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact
4arXiv cs.RO 

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact

Des chercheurs ont publié sur arXiv (2602.22088v2) "Force Policy", une architecture de contrôle pour la manipulation robotique en contact prolongé. L'approche repose sur une séparation architecturale nette entre deux régimes d'action : un module global guidé par la vision qui pilote les mouvements en espace libre, et un module local haute fréquence qui prend le relais dès qu'un contact est établi, en exploitant le retour d'effort pour exécuter un contrôle hybride force-position. Le coeur du système est ce que les auteurs appellent un "interaction frame" : un repère local instantané, récupéré automatiquement à partir de démonstrations humaines, qui découple la régulation de force de l'exécution du mouvement. Les expériences en conditions réelles couvrent plusieurs tâches à contact riche (assemblage, insertion, vissage) et démontrent des gains mesurables en stabilité de contact, précision de régulation de force et généralisation à des objets aux géométries et propriétés physiques variées. L'enjeu industriel est direct : la manipulation en contact riche reste le principal goulot d'étranglement des robots de production et d'assemblage. Les politiques d'apprentissage actuelles, qu'il s'agisse de Diffusion Policy, d'ACT ou des approches VLA, sont conçues pour l'espace libre et degradent significativement dès qu'un outil touche une pièce. En injectant le retour d'effort dans une boucle locale haute fréquence distincte de la boucle visuelle, Force Policy adresse structurellement ce découplage plutôt que de le noyer dans un réseau monolithique. La capacité à estimer le repère d'interaction à partir de démonstrations, sans hypothèse sur la structure de la tâche, réduit l'ingénierie manuelle nécessaire au déploiement. Ce travail s'inscrit dans une ligne de recherche active sur le contrôle hybride appris, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur le compliance learning chez CMU et Stanford. Il reste à ce stade une démonstration académique, sans déploiement industriel annoncé ni partenariat constructeur mentionné. L'étape suivante naturelle serait une validation sur des cellules d'assemblage réelles, avec des volumes de cycle et des tolérances conformes aux standards industriels. Le code et les démonstrations vidéo sont disponibles sur force-policy.github.io.

IA physiquePaper
1 source