Aller au contenu principal
VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
RecherchearXiv cs.RO20h

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile.

Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable.

Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

À lire aussi

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle
1arXiv cs.RO 

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

Une équipe de chercheurs a publié TwinRL (arXiv:2602.09023), un framework de post-entraînement qui couple un jumeau numérique reconstruit par smartphone avec du reinforcement learning (RL) en monde réel pour affiner des modèles Vision-Language-Action (VLA) en manipulation robotique. La méthode se déroule en trois phases successives : un warm-up par fine-tuning supervisé (SFT), un warm-up RL dans le jumeau numérique, puis du RL directement sur robot. Sur quatre tâches de manipulation testées, TwinRL atteint un taux de succès proche de 100 % en configuration distributionnelle et hors-distribution, avec une convergence 30 % plus rapide que les méthodes de RL réel existantes. Élément frappant : seulement 20 minutes d'interaction physique sur robot sont nécessaires pour obtenir ces résultats, contre des heures ou journées typiques pour les approches concurrentes. L'importance de ce résultat tient à un verrou bien connu du secteur : les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) généralisent bien mais restent coûteux à affiner, car ils dépendent de démonstrations expertes massives et leur exploration en RL réel est lente et peu couvrante. Les auteurs montrent expérimentalement que l'espace d'exploration du RL en ligne reste structurellement contraint par la distribution de trajectoires issue du SFT initial, ce qui explique les plafonds de performance observés dans la littérature. TwinRL contourne ce problème en utilisant le jumeau numérique non pas comme outil d'augmentation de données, mais comme guide actif d'exploration : il identifie les configurations difficiles et dirige les rollouts humains là où le robot échoue, réduisant drastiquement le temps on-robot. Pour un intégrateur ou un COO industriel, cela signifie que le déploiement de robots polyvalents pourrait ne plus nécessiter des semaines de collecte de données en production. Ce travail s'inscrit dans une vague de recherches cherchant à résoudre le sim-to-real gap sans recourir à des simulateurs coûteux : ici, la reconstruction du jumeau numérique part de simples captures smartphone, ce qui abaisse significativement la barrière d'entrée. Les approches concurrentes incluent le RL en simulation pure (souvent peu transférable), la distillation de politiques, et les méthodes de curriculum learning. TwinRL se distingue par son pipeline hybride et son usage ciblé de l'humain dans la boucle. Aucune date de déploiement industriel ni partenariat commercial n'est annoncé, il s'agit d'un résultat de recherche académique, mais la faible exigence en temps robot ouvre des perspectives concrètes pour des cellules de manipulation flexible dans l'industrie manufacturière ou logistique.

RechercheOpinion
1 source
RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage
2arXiv cs.RO 

RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage

Les systèmes de reinforcement learning avec humain dans la boucle (HIL-RL) atteignent des taux de succès quasi parfaits sur le poste de travail où ils sont entraînés, mais s'effondrent lorsque le même robot est déplacé de quelques mètres vers un poste différent. La cause est simple : des variations d'éclairage (position des lampes, lumière naturelle) perturbent suffisamment la distribution des entrées visuelles pour invalider la politique apprise. Pour combler ce "cross-domain gap" sans recollecte de données terrain, des chercheurs présentent RoHIL (Robust Human-in-the-Loop), un framework de fine-tuning hors ligne évalué sur quatre tâches de manipulation robotique réelle. RoHIL repose sur trois mécanismes : un re-lighting basé sur un world model qui resynthétise le flux visuel des trajectoires sources sous plusieurs environnements HDRI virtuels sans modifier les actions ni les récompenses, un mécanisme anti-oubli appelé Illumination-Retention Replay (IRR) qui entrelace transitions d'adaptation et transitions de rétention, et un régulariseur Bellman-acteur ancré limitant la dérive de représentation par rapport à la politique source. L'enjeu industriel est direct : recollecte de démonstrations et ré-entraînement HIL à chaque nouveau poste sont incompatibles avec un déploiement à l'échelle. La fragilité aux variations lumineuses reste l'un des obstacles les plus sous-estimés entre laboratoire et production réelle. RoHIL répond à ce problème sans interaction robot supplémentaire, ce qui réduit le coût d'intégration pour les opérateurs. La combinaison IRR et régulariseur Bellman démontre qu'il est possible d'adapter une politique à de nouvelles conditions visuelles tout en préservant les performances sur l'environnement d'origine, résultat non trivial face à l'oubli catastrophique classique. Ce travail, déposé sur arXiv en mai 2025 sous soumission anonyme et vraisemblablement en cours d'évaluation par une conférence, s'inscrit dans la vague de recherches visant à rendre les politiques robotiques robustes aux variations de domaine. Les approches concurrentes incluent la randomisation de domaine à l'entraînement, les politiques multi-environnements ou l'augmentation visuelle agressive, mais ces techniques nécessitent d'anticiper les variations en amont. RoHIL se distingue par son mode entièrement offline. Aucun déploiement commercial ni partenariat industriel n'est mentionné : il s'agit d'un résultat académique à ce stade, dont les extensions naturelles porteront sur un plus grand nombre de postes, de conditions lumineuses et de tâches à degrés de liberté élevés.

RecherchePaper
1 source
Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact
3arXiv cs.RO 

Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact

Des chercheurs ont soumis sur arXiv SO-TA (Spacetime Optimal-Transport Attention, réf. 2605.20433), une architecture d'apprentissage par imitation pour la manipulation robotique à contact serré, validée sur trois tâches : insertion peg-in-hole à faible jeu, emmanchement de connecteurs BCM et effacement de marquages sur surfaces courbes. SO-TA fusionne trois modalités en simultané (vision, force/couple F/T et proprioception) via un mécanisme d'attention fondé sur le transport optimal (OT) à entropie régularisée, remplaçant l'attention softmax classique. Les contraintes marginales OT distribuent les masses d'attention entre patches visuels et sous-requêtes dérivées des données force-pose, agissant comme biais inductif structuré pour les phases de contact. La politique de contrôle est un modèle de diffusion séquentiel mappant des fenêtres d'observation en séquences d'actions de pose. Évaluée sur robot réel avec environ 200 trajectoires par condition, SO-TA atteint 100 % de succès sur le peg-in-hole serré (contre 93 % pour l'attention croisée classique) et maintient 82,5 % de succès sous perturbations réalistes (éclairage variable, distracteurs, occlusion partielle), là où une baseline par concaténation chute à 43,5 %. L'écart 82,5 % contre 43,5 % sous perturbations est le résultat structurant pour les intégrateurs industriels : il signifie qu'une politique de manipulation reste opérationnelle dans un atelier aux conditions fluctuantes, sans recalibration constante. L'usage du transport optimal impose une répartition spatiale contrôlée de l'attention, évitant la dispersion caractéristique des softmax sur des scènes encombrées. Pour la recherche, 200 rollouts suffisent à valider l'approche, soulignant l'efficacité des biais inductifs structurés face à la rareté des données de démonstration. La fusion tri-modale confirme qu'aucune modalité seule ne suffit pour piloter les phases de contact à fortes contraintes cinématiques, argument clé dans le débat sim-to-real des politiques VLA (Vision-Language-Action). La manipulation par contact représente un verrou historique du contrôle robotique, où les incertitudes géométriques et les dynamiques de frottement ont longtemps limité les méthodes analytiques. L'imitation learning bi-modale (vision + force) s'est développée depuis le début des années 2020, sans mécanisme d'attention dédié au contact discontinu. SO-TA s'inscrit dans un espace concurrentiel dense : ACT et Diffusion Policy (UMass/MIT) dominent les benchmarks de manipulation fine depuis 2023, et Physical Intelligence (Pi-0) explore la fusion multimodale à plus grande échelle. En Europe, des équipes comme celles de l'INRIA et du DLR travaillent sur des problématiques voisines. La prochaine étape logique serait de valider SO-TA sur un éventail plus large de tâches industrielles, avec des volumes de données plus importants pour confirmer la tenue à l'échelle.

UELes équipes de l'INRIA et du DLR, actives sur la manipulation à contact, peuvent s'appuyer sur SO-TA comme référence méthodologique pour leurs propres architectures d'imitation learning multimodale.

RechercheOpinion
1 source
Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables
4arXiv cs.RO 

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

Des chercheurs ont publié le 29 mai 2026 un article (arXiv:2605.29407) présentant un système robotique capable de manipuler des objets déformables, comme des vêtements, avec une récupération autonome en cas d'échec. Le système, baptisé PHASER, repose sur une architecture hiérarchique en boucle fermée : un encodeur ACT (Action Chunking with Transformers) conditionné via FiLM (Feature-wise Linear Modulation) adapte l'extraction de features selon la phase courante de la tâche, permettant à une politique unifiée de produire des comportements distincts à chaque étape sans dupliquer les modèles. Un prédicteur de phase multimodal fusionne retour visuel, force et pose en temps réel pour estimer l'état courant et détecter les échecs de contact invisibles à la caméra. Un contrôleur d'impédance hybride assure l'exécution compliante. Validé sur la tâche d'accrochage et de retrait d'un T-shirt en manipulation bimanuelle, le système fait passer le taux de succès de 56 % à 87 % grâce à la récupération autonome des erreurs. Ce résultat est notable car la manipulation d'objets déformables reste un des verrous les plus résistants de la robotique industrielle et domestique : les propriétés mécaniques imprévisibles du tissu rendent caduques les approches rigides classiques. Le problème de state aliasing, où des observations visuellement similaires exigent des actions contradictoires selon la phase, sabote les politiques d'imitation standard en inférence markovienne. En conditionnant la politique sur la phase estimée plutôt que sur l'observation brute, et en intégrant le retour de force comme signal de détection d'anomalie, les auteurs montrent qu'il est possible de construire un pipeline sim-to-real sans oracle externe. Les études d'ablation confirment que le conditionnement FiLM surpasse significativement les baselines non conditionnées et celles à token-level, et l'analyse t-SNE valide que les représentations apprises sont bien séparées par phase. L'approche s'inscrit dans la lignée des travaux sur l'imitation learning pour la manipulation dextre, notamment ACT (Chi et al., 2023) et les Diffusion Policies, qui peinent sur les objets non rigides. Elle se distingue des frameworks VLA (Vision-Language-Action) à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation par préentraînement massif plutôt que sur la structure de la tâche. PHASER adopte une stratégie inverse : contrainte forte sur la structure de phase, données limitées, récupération explicite. Les auteurs publient le code et les vidéos en open access. Les prochaines étapes naturelles incluent l'extension à d'autres classes de vêtements et la réduction de la dépendance à l'interface de télé-opération haptique pour la collecte de données d'entraînement.

RecherchePaper
1 source