Aller au contenu principal
Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration
RecherchearXiv cs.RO6sem

Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin avril 2026 sur arXiv (2604.22102) un système baptisé "Wiggle and Go!" capable de manipuler dynamiquement une corde en zero-shot, c'est-à-dire sans essais préalables sur la tâche cible ni jeu de données réel spécifique à cette tâche. L'architecture repose sur deux étages : un module d'identification système qui observe le comportement mécanique de la corde en la faisant "osciller" brièvement, prédit ses paramètres physiques descriptifs (raideur, amortissement, distribution de masse), puis transmet ces paramètres à un optimiseur qui génère les commandes motrices pour exécuter la tâche. Sur une tâche de frappe 3D d'une cible avec la corde, le système atteint une précision moyenne de 3,55 cm, contre 15,34 cm lorsque les paramètres de la corde ne sont pas pris en compte, soit une réduction d'erreur d'un facteur supérieur à 4. Le coefficient de corrélation de Pearson entre les fréquences de Fourier des trajectoires simulées et réelles atteint 0,95 sur des trajectoires non vues pendant l'entraînement.

L'intérêt technique de cette approche est de découpler l'identification de l'objet de la politique de manipulation : un seul module d'identification système alimente plusieurs politiques différentes sans réentraînement, ce qui permet de basculer entre tâches (frappe, lancer, enroulement) sans collecte de données réelles supplémentaires. C'est précisément ce point qui est structurellement difficile dans la manipulation d'objets déformables : les cordes, câbles et textiles n'ont pas de modèle physique fixe, leur comportement varie selon le matériau, la longueur et l'humidité. Les approches concurrentes exigent soit des milliers d'essais réels pour calibrer un modèle, soit des itérations successives sur la tâche elle-même. "Wiggle and Go!" contourne les deux en exploitant des priors de simulation appris, avec une phase d'observation courte et non destructive.

La manipulation d'objets déformables est un problème ouvert en robotique depuis plus d'une décennie, avec des applications directes en logistique (câblage, lien de paquets), en chirurgie assistée et en industrie textile. Le sim-to-real reste le verrou central : les moteurs physiques peinent à reproduire le comportement non-linéaire des matériaux souples, et la moindre erreur sur un lancer dynamique est irrécupérable, comme le soulignent explicitement les auteurs. Des équipes comme celle de Pieter Abbeel (UC Berkeley) ou Deepak Pathak (CMU) travaillent sur des approches comparables par apprentissage par renforcement ou diffusion de trajectoires, mais souvent avec des données réelles massives. Ce travail s'inscrit dans une tendance croissante vers la robotique fondée sur l'identification physique légère plutôt que sur la collecte de données exhaustive, une direction qui intéresse particulièrement les intégrateurs industriels confrontés à des environnements de production variables. Le code et les vidéos sont disponibles sur le site du projet.

Dans nos dossiers

À lire aussi

D'une seule démonstration à une politique générale pour la manipulation avec contact
1arXiv cs.RO 

D'une seule démonstration à une politique générale pour la manipulation avec contact

Une équipe de recherche publie sur arXiv (réf. 2605.17601, mai 2026) un framework d'apprentissage par démonstration capable de généraliser à partir d'un seul exemple sur des tâches de manipulation impliquant des contacts répétés avec l'environnement. Le système repose sur un pipeline en quatre étapes : abstraction de la démonstration en primitives de contraintes environnementales, exploration autonome pour lever les ambiguïtés, correction ciblée par un opérateur humain pour couvrir les variantes hors-distribution, et enfin récupération en ligne des détails géométriques via interaction compliante. Validé sur sept tâches réelles multi-étapes à contact riche, le framework atteint un taux de succès supérieur à 90 %. Aucune entreprise spécifique ni plateforme robotique n'est mentionnée dans le préprint, qui reste une contribution académique sans déploiement industriel annoncé. Le point central de l'approche est de représenter une tâche non pas comme une trajectoire à imiter, mais comme une séquence de contraintes environnementales à exploiter. Ce changement de paradigme permet au robot de distinguer la structure générale d'une tâche (types de contraintes, transitions entre elles) des détails spécifiques à une instance donnée (poses exactes, géométrie locale). Pour un intégrateur ou un décideur industriel, cela signifie qu'une seule démonstration suffit potentiellement là où les méthodes de behavior cloning classiques en réclament des centaines. Le résultat de 90 %+ sur des tâches à contact riche est notable car ce domaine concentre la majorité des échecs en manipulation robotique réelle, notamment à cause de la sensibilité aux variations de pose et aux dynamiques de contact non modélisées. L'apprentissage par démonstration est un champ très actif depuis une décennie, concurrencé récemment par les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence), les architectures VLA (RT-2, GR00T N2 de NVIDIA) et les méthodes ACT (Action Chunking with Transformers). L'originalité revendiquée ici est de traiter les contraintes environnementales comme biais inductif plutôt que d'augmenter massivement les données d'entraînement ou la puissance du modèle. La limite principale reste l'absence d'évaluation sur des plateformes humanoïdes ou collaboratives standard, ce qui rend difficile la comparaison directe avec les benchmarks du secteur. Les suites naturelles seraient un passage à des environnements ouverts et une validation sur des robots commerciaux comme le Franka Research 3 ou les bras UR.

RecherchePaper
1 source
Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides
2arXiv cs.RO 

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Une équipe de recherche a publié sur arXiv (arXiv:2512.08411v2, décembre 2025) le Prismatic World Model (PRISM-WM), une architecture de modèle du monde destinée à améliorer la planification dans les systèmes robotiques à dynamiques hybrides. Le problème central que PRISM-WM cherche à résoudre est structurel : les mouvements continus sont régulièrement interrompus par des événements discrets, contacts, impacts, transitions de phases (vol vs appui, glissement vs adhérence), qui créent des discontinuités difficiles à modéliser. Les architectures classiques à réseaux neuronaux monolithiques, comme les modèles latents de type RSSM ou DreamerV3, imposent une continuité globale qui lisse ces transitions et génère des erreurs cumulatives lors des simulations à long horizon (rollouts), rendant la planification peu fiable aux frontières physiques. PRISM-WM y répond par un cadre Mixture-of-Experts (MoE) contextuel : un mécanisme de gating identifie implicitement le mode physique courant, et des experts spécialisés prédisent la dynamique de transition associée. Une contrainte d'orthogonalisation latente force la diversité des experts, prévenant l'effondrement de modes. Les expériences portent sur des benchmarks de contrôle continu incluant des humanoïdes haute dimension et des configurations multi-tâches, couplés à l'algorithme d'optimisation de trajectoires TD-MPC. Les résultats montrent que PRISM-WM réduit le drift en simulation lors des rollouts étendus, offrant un substrat de haute fidélité pour les algorithmes d'optimisation de trajectoires. Pour les équipes de contrôle en robotique humanoïde, cela adresse directement le gap simulation-réalité lié à la gestion des contacts, une limitation structurelle des approches model-based existantes. La décomposition en primitives composables ouvre aussi une piste vers des architectures plus interprétables, un enjeu concret pour les déploiements industriels où la robustesse aux variations de terrain ou de tâche est critique. PRISM-WM s'inscrit dans la dynamique des world models pour la robotique, domaine en forte progression depuis les travaux de Hafner et al. sur DreamerV3 et les avancées de TD-MPC sur des tâches de locomotion complexe. L'approche MoE transposée à la dynamique physique rejoint des tendances observées dans les grands modèles de langage (Mixtral, GPT-4). Il n'est pas associé à une entreprise commerciale identifiée ; il s'agit d'une contribution académique pure, sans pilote industriel annoncé. La prochaine étape logique serait une validation sur hardware réel, notamment sur des plateformes humanoïdes où la gestion des contacts reste un verrou technique central de la sim-to-real transfer.

RecherchePaper
1 source
SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations
3arXiv cs.RO 

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

Des chercheurs ont présenté SID (Sliding into Distribution), un cadre structuré pour la manipulation robotique capable de généraliser à partir de seulement deux démonstrations humaines. Évalué sur six tâches réelles variées (saisies, manipulations d'objets), SID atteint environ 90 % de taux de succès dans des configurations hors-distribution (OOD), c'est-à-dire avec des poses d'objets, des points de vue ou des conditions d'éclairage non vus lors de l'entraînement. La dégradation reste inférieure à 10 % en présence de distracteurs visuels ou de perturbations physiques externes. Le système s'appuie sur deux composants clés : un champ de mouvement centré sur l'objet, appris depuis des démonstrations "canonicalisées" (normalisées en pose), et une politique d'exécution égocentrique légère entraînée par flow matching conditionné, complétée par une augmentation de données par reprojection de nuage de points cinématiquement cohérente. L'intérêt de SID tient à sa frugalité en données : là où les politiques visuomotrices end-to-end standard (type ACT, Diffusion Policy) réclament des dizaines à centaines de démonstrations, SID opère à deux. C'est un signal fort pour les intégrateurs industriels qui peinent à collecter des données en volume sur cellule réelle. Le mécanisme de correction distributional est particulièrement notable : le champ de mouvement génère de larges corrections quand le robot s'écarte de la trajectoire démontrée, puis s'annule naturellement à l'approche de la zone fiable, avant de passer la main à la politique locale. Ce découplage explicite entre récupération hors-distribution et exécution fine constitue une alternative architecturale aux approches purement régressives. Les résultats suggèrent que le "sim-to-real gap" n'est pas le seul problème à résoudre : gérer le glissement distributional en ligne, sans recollecte de données, est un levier sous-exploité. Cette publication s'inscrit dans une vague de travaux sur la manipulation à faible donnée qui cherchent à dépasser les limites des transformeurs d'actions (ACT, π0 de Physical Intelligence, GR00T N2 de NVIDIA) en introduisant des structures géométriques explicites plutôt que de tout apprendre de bout en bout. Le flow matching, popularisé ces deux dernières années comme alternative plus stable à la diffusion pour la génération de trajectoires, est ici combiné à une représentation canonique de l'objet, une approche qui rappelle les travaux sur les réseaux de catégorie neurale (NCF) ou les politiques basées sur des keypoints. Le papier ne mentionne pas de partenaires industriels ni de timeline de déploiement, et reste pour l'instant au stade de preuve de concept académique sur banc réel. Les prochaines étapes naturelles seraient une extension à des objets déformables et une validation sur des bras commerciaux (Franka, xArm) dans des environnements moins contrôlés que le labo.

RecherchePaper
1 source
Manipulation dynamique de corde apprise par contrôle itératif au niveau tâche
4arXiv cs.RO 

Manipulation dynamique de corde apprise par contrôle itératif au niveau tâche

Des chercheurs ont publié une méthode d'apprentissage itératif au niveau tâche (Task-Level Iterative Learning Control, ILC) pour la manipulation dynamique de cordes par bras robotique. La démonstration porte sur le "flying knot", un nœud exécuté en mouvement dans l'espace tridimensionnel, tâche non planaire réputée difficile à automatiser. La méthode combine une unique démonstration humaine et un modèle simplifié de corde, et s'entraîne directement sur matériel réel sans recourir à de larges bases de données ni à de la simulation massive. À chaque itération, l'algorithme inverse un modèle couplé robot-corde en résolvant un programme quadratique (QP) pour propager les erreurs dans l'espace tâche vers des corrections d'action. Sept types de cordes ont été testés: chaîne métallique, tube chirurgical en latex, cordes tressées et toronnées, avec des diamètres de 7 à 25 mm et des densités de 0,013 à 0,5 kg/m. Le système atteint 100 % de réussite en 10 essais ou moins sur l'ensemble des configurations. Le transfert entre types de cordes différents s'effectue en 2 à 5 essais supplémentaires pour la plupart des paires testées. Ce résultat contredit une hypothèse courante dans la manipulation d'objets déformables (DOM): la robustesse ne passe pas nécessairement par des jeux de données massifs ou des milliers d'heures de simulation. Une seule démonstration humaine suffit à amorcer l'apprentissage, et la convergence s'effectue en moins de dix essais réels sur matériel physique, même pour des cordes aussi différentes qu'une chaîne rigide et un tube en latex souple. La capacité de transfert inter-corde en 2 à 5 essais est particulièrement significative: elle indique que le modèle interne capture suffisamment la dynamique pour s'adapter à de nouvelles propriétés mécaniques sans redémarrer l'apprentissage. Pour les intégrateurs travaillant sur du câblage automatisé, de la couture industrielle ou du conditionnement de produits souples, c'est une piste crédible vers des systèmes moins gourmands en données et plus rapidement reconfigurables sur ligne. L'ILC est une technique de contrôle classique, ici adaptée au niveau tâche plutôt qu'au niveau signal bas, ce qui la rend plus générique face à la variabilité des objets déformables. Les approches concurrentes en DOM font généralement appel à des réseaux de neurones entraînés sur simulation ou à l'apprentissage par imitation à grande échelle, deux méthodes coûteuses en données et exposées au reality gap. L'absence totale de simulation dans cette méthode est un choix délibéré qui contourne ce problème au prix d'itérations physiques, un compromis acceptable dès lors que le nombre d'essais reste faible. Les travaux sont disponibles en prépublication sur arXiv (2602.21302) et accompagnés d'un site de démonstration vidéo (flying-knots.github.io). Les suites naturelles incluent l'extension à des nœuds plus complexes, l'intégration sur des manipulateurs industriels multi-DOF, et des validations en environnements non contrôlés.

RecherchePaper
1 source