Aller au contenu principal
Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables
RecherchearXiv cs.RO20h

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 29 mai 2026 un article (arXiv:2605.29407) présentant un système robotique capable de manipuler des objets déformables, comme des vêtements, avec une récupération autonome en cas d'échec. Le système, baptisé PHASER, repose sur une architecture hiérarchique en boucle fermée : un encodeur ACT (Action Chunking with Transformers) conditionné via FiLM (Feature-wise Linear Modulation) adapte l'extraction de features selon la phase courante de la tâche, permettant à une politique unifiée de produire des comportements distincts à chaque étape sans dupliquer les modèles. Un prédicteur de phase multimodal fusionne retour visuel, force et pose en temps réel pour estimer l'état courant et détecter les échecs de contact invisibles à la caméra. Un contrôleur d'impédance hybride assure l'exécution compliante. Validé sur la tâche d'accrochage et de retrait d'un T-shirt en manipulation bimanuelle, le système fait passer le taux de succès de 56 % à 87 % grâce à la récupération autonome des erreurs.

Ce résultat est notable car la manipulation d'objets déformables reste un des verrous les plus résistants de la robotique industrielle et domestique : les propriétés mécaniques imprévisibles du tissu rendent caduques les approches rigides classiques. Le problème de state aliasing, où des observations visuellement similaires exigent des actions contradictoires selon la phase, sabote les politiques d'imitation standard en inférence markovienne. En conditionnant la politique sur la phase estimée plutôt que sur l'observation brute, et en intégrant le retour de force comme signal de détection d'anomalie, les auteurs montrent qu'il est possible de construire un pipeline sim-to-real sans oracle externe. Les études d'ablation confirment que le conditionnement FiLM surpasse significativement les baselines non conditionnées et celles à token-level, et l'analyse t-SNE valide que les représentations apprises sont bien séparées par phase.

L'approche s'inscrit dans la lignée des travaux sur l'imitation learning pour la manipulation dextre, notamment ACT (Chi et al., 2023) et les Diffusion Policies, qui peinent sur les objets non rigides. Elle se distingue des frameworks VLA (Vision-Language-Action) à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation par préentraînement massif plutôt que sur la structure de la tâche. PHASER adopte une stratégie inverse : contrainte forte sur la structure de phase, données limitées, récupération explicite. Les auteurs publient le code et les vidéos en open access. Les prochaines étapes naturelles incluent l'extension à d'autres classes de vêtements et la réduction de la dépendance à l'interface de télé-opération haptique pour la collecte de données d'entraînement.

À lire aussi

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
1arXiv cs.RO 

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

RecherchePaper
1 source
Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes
2arXiv cs.RO 

Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes

Une équipe de chercheurs a publié fin avril 2026 FLASH (Fast Learning via GPU-Accelerated Simulation), un simulateur physique conçu nativement pour GPU, ciblant la manipulation d'objets déformables en contact riche. Le framework repose sur un solveur NCP (Nonlinear Complementarity Problem) qui impose simultanément les contraintes de contact et de déformation, redessiné de zéro pour exploiter le parallélisme fin des architectures GPU modernes, incluant la gestion optimisée des collisions et les layouts mémoire adaptés. Sur un seul RTX 5090, FLASH atteint plus de 3 millions de degrés de liberté simulés à 30 images par seconde. Des politiques entraînées exclusivement sur données synthétiques générées par FLASH, en quelques minutes d'entraînement, permettent un transfert sim-to-réel zéro-shot validé sur robots physiques pour des tâches de pliage de serviettes et de vêtements, sans aucune démonstration en conditions réelles. L'enjeu n'est pas anodin : la manipulation d'objets déformables représente l'un des derniers grands verrous du robot learning industriel. Les frameworks existants comme Isaac Sim (NVIDIA) excellent sur la cinématique rigide et la locomotion, mais les matériaux souples imposent des géométries en mutation continue, des milliers de vertices et des contraintes de contact instables qui rendent la simulation précise et rapide quasi incompatible. FLASH contourne ce problème non pas en portant un solveur SIMD classique sur GPU, mais en réécrivant entièrement le moteur physique autour des primitives GPU. Si les résultats de transfert annoncés se confirment hors des tâches de pliage sélectionnées dans le papier, les intégrateurs ciblant le textile, la logistique e-commerce ou la préparation alimentaire disposeraient d'un pipeline d'entraînement pratique sans collecte de données terrain. Le problème du sim-to-real gap pour le déformable est documenté depuis plus d'une décennie, sans solution généraliste convaincante. MuJoCo, Warp et Genesis ont chacun progressé sur la simulation souple, mais aucun n'avait démontré ce niveau de throughput combiné à un transfert zéro-shot sur manipulation contact-riche. FLASH s'inscrit dans une tendance lourde de 2025-2026 : repenser les moteurs physiques pour la scalabilité GPU plutôt que d'adapter des architectures CPU legacy. Les auteurs valident uniquement sur pliage de textile, ce qui laisse ouverte la question de généralisation à d'autres déformables (câbles, mousses, aliments). Aucune date de release publique du framework ni de partenariat industriel n'est mentionnée dans le preprint.

RecherchePaper
1 source
RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés
3arXiv cs.RO 

RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés

Des chercheurs de l'ISRI-AIST, le laboratoire national de recherche industrielle japonais, ont publié RoboManipBaselines, un framework open-source unifié pour l'apprentissage par imitation appliqué à la manipulation robotique. Disponible sur GitHub et accompagné d'une page projet dédiée, ce cadre couvre l'intégralité du pipeline d'imitation learning : collecte de données, entraînement de politiques et exécution en rollout, aussi bien en simulation que sur robots réels. Concrètement, il supporte plusieurs simulateurs et environnements physiques via une interface unifiée, intègre des capteurs multimodaux (dont tactiles et capteurs 3D), et propose une bibliothèque de modèles de politiques variés. Les évaluations publiées s'appuient sur des datasets publics, ce qui est explicitement conçu pour garantir la reproductibilité des résultats. Plusieurs applications de recherche sont démontrées : augmentation de données, intégration de modèles tactiles, systèmes robotiques interactifs, évaluation de la perception 3D, et extensions matérielles. Ce framework répond à un problème structurel de la recherche en manipulation robotique : l'absence de benchmarks standardisés reproductibles, qui rend la comparaison entre approches quasi impossible et ralentit les transferts vers l'industrie. En proposant un pipeline cohérent du sim au réel, RoboManipBaselines facilite l'évaluation du sim-to-real gap, l'un des verrous critiques avant tout déploiement industriel. Pour un intégrateur ou un ingénieur robotique, l'extensibilité annoncée (ajout de nouveaux robots, tâches et politiques) réduit le coût d'entrée pour tester des architectures de type VLA (Vision-Language-Action) sur des configurations matérielles propres. C'est aussi un outil de validation expérimentale qui peut accélérer la qualification de politiques avant passage en production. L'imitation learning pour la manipulation connaît une effervescence depuis 2023-2024, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA, ou encore les travaux de Stanford et Berkeley. Dans cet écosystème, plusieurs frameworks concurrents existent déjà, notamment LeRobot de HuggingFace, RoboSuite (Stanford), ou MimicGen. RoboManipBaselines se distingue par son accent explicite sur la reproductibilité via datasets publics et son ancrage dans un laboratoire national disposant de plateformes matérielles réelles. L'AIST, acteur historique de la robotique japonaise (humanoïde HRP inclus), apporte une crédibilité expérimentale que les frameworks purement académiques n'ont pas toujours. La prochaine étape naturelle serait une adoption par des équipes industrielles pour valider des politiques sur des tâches d'assemblage ou de picking en conditions non contrôlées.

RecherchePaper
1 source
AssistDLO : téléopération assistée pour la manipulation d'objets linéaires déformables
4arXiv cs.RO 

AssistDLO : téléopération assistée pour la manipulation d'objets linéaires déformables

Des chercheurs ont publié AssistDLO, un cadre de téléopération assistée conçu pour la manipulation d'objets linéaires déformables (DLOs, Deformable Linear Objects), tels que câbles, cordes ou fils industriels. Le système combine trois composants : une estimation d'état en temps réel par vision multi-vue, une assistance visuelle (VA) projetée dans l'interface opérateur, et un contrôleur de partage d'autonomie géométriquement conscient, baptisé SA-CBF, fondé sur les fonctions de barrière de contrôle (Control Barrier Functions). Le tout a été validé dans une étude utilisateur bimanuelle de dénouage de nœuds (N=22), sur des cordes de longueurs et rigidités variables. Le résultat clé : pour les opérateurs novices, SA-CBF fait passer le taux de succès de 71 % à 88 %, tandis que les opérateurs experts préfèrent la VA seule. Ce travail s'attaque à un verrou persistant de la robotique industrielle : les DLOs sont pratiquement impossibles à modéliser en temps réel en raison de leur espace de configuration de dimension infinie et de leurs dynamiques non linéaires. En téléopération, l'incertitude de profondeur aggrave encore la perception d'état. L'apport de SA-CBF est de fonctionner comme un entonnoir géométrique, guidant la saisie précise sans court-circuiter l'autorité de haut niveau de l'opérateur, contrairement aux méthodes classiques d'autonomie partagée qui utilisent de simples attracteurs géométriques. Pour des applications concrètes, câblage automobile, assemblage électronique ou chirurgie assistée, la démonstration d'un gain mesurable en conditions utilisateur réelles est plus significative qu'un résultat de simulation. Le problème de manipulation des DLOs mobilise la communauté robotique depuis plus d'une décennie, avec des approches allant du contrôle par retour visuel pur aux modèles physiques réduits. AssistDLO se distingue en intégrant explicitement le profil de l'opérateur dans la stratégie d'assistance, une piste dite "user-aware shared autonomy" encore peu exploitée à ce niveau de rigueur expérimentale. Les prochaines étapes probables incluent l'extension à des câbles multiconducteurs et l'intégration sur des plateformes industrielles existantes, potentiellement en lien avec des travaux européens sur la cobotique flexible. La conclusion des auteurs est claire : aucune stratégie fixe ne peut couvrir l'ensemble du spectre opérateur-matériau, et l'autonomie adaptative n'est plus une option mais une nécessité.

RecherchePaper
1 source