Aller au contenu principal
Manipulation dynamique de corde apprise par contrôle itératif au niveau tâche
RecherchearXiv cs.RO6sem

Manipulation dynamique de corde apprise par contrôle itératif au niveau tâche

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié une méthode d'apprentissage itératif au niveau tâche (Task-Level Iterative Learning Control, ILC) pour la manipulation dynamique de cordes par bras robotique. La démonstration porte sur le "flying knot", un nœud exécuté en mouvement dans l'espace tridimensionnel, tâche non planaire réputée difficile à automatiser. La méthode combine une unique démonstration humaine et un modèle simplifié de corde, et s'entraîne directement sur matériel réel sans recourir à de larges bases de données ni à de la simulation massive. À chaque itération, l'algorithme inverse un modèle couplé robot-corde en résolvant un programme quadratique (QP) pour propager les erreurs dans l'espace tâche vers des corrections d'action. Sept types de cordes ont été testés: chaîne métallique, tube chirurgical en latex, cordes tressées et toronnées, avec des diamètres de 7 à 25 mm et des densités de 0,013 à 0,5 kg/m. Le système atteint 100 % de réussite en 10 essais ou moins sur l'ensemble des configurations. Le transfert entre types de cordes différents s'effectue en 2 à 5 essais supplémentaires pour la plupart des paires testées.

Ce résultat contredit une hypothèse courante dans la manipulation d'objets déformables (DOM): la robustesse ne passe pas nécessairement par des jeux de données massifs ou des milliers d'heures de simulation. Une seule démonstration humaine suffit à amorcer l'apprentissage, et la convergence s'effectue en moins de dix essais réels sur matériel physique, même pour des cordes aussi différentes qu'une chaîne rigide et un tube en latex souple. La capacité de transfert inter-corde en 2 à 5 essais est particulièrement significative: elle indique que le modèle interne capture suffisamment la dynamique pour s'adapter à de nouvelles propriétés mécaniques sans redémarrer l'apprentissage. Pour les intégrateurs travaillant sur du câblage automatisé, de la couture industrielle ou du conditionnement de produits souples, c'est une piste crédible vers des systèmes moins gourmands en données et plus rapidement reconfigurables sur ligne.

L'ILC est une technique de contrôle classique, ici adaptée au niveau tâche plutôt qu'au niveau signal bas, ce qui la rend plus générique face à la variabilité des objets déformables. Les approches concurrentes en DOM font généralement appel à des réseaux de neurones entraînés sur simulation ou à l'apprentissage par imitation à grande échelle, deux méthodes coûteuses en données et exposées au reality gap. L'absence totale de simulation dans cette méthode est un choix délibéré qui contourne ce problème au prix d'itérations physiques, un compromis acceptable dès lors que le nombre d'essais reste faible. Les travaux sont disponibles en prépublication sur arXiv (2602.21302) et accompagnés d'un site de démonstration vidéo (flying-knots.github.io). Les suites naturelles incluent l'extension à des nœuds plus complexes, l'intégration sur des manipulateurs industriels multi-DOF, et des validations en environnements non contrôlés.

Dans nos dossiers

À lire aussi

SM2ITH : manipulation mobile sécurisée avec prédiction interactive des humains via contrôle prédictif hiérarchique par niveaux
1arXiv cs.RO 

SM2ITH : manipulation mobile sécurisée avec prédiction interactive des humains via contrôle prédictif hiérarchique par niveaux

Des chercheurs ont publié sur arXiv (référence 2511.17798, deuxième version) un framework baptisé SM²ITH, pour Safe Mobile Manipulation with Interactive Human Prediction via Task-Hierarchical Bilevel Model Predictive Control. L'objectif : permettre à des robots mobiles manipulateurs d'évoluer en sécurité dans des espaces partagés avec des humains, sans que ces derniers se comportent de façon prévisible ou coopérative. Le système a été validé expérimentalement sur deux plateformes distinctes, le Stretch 3 de Hello Robot et le Ridgeback-UR10 (Clearpath + bras Universal Robots), dans trois configurations : tâches de livraison avec priorités navigation/manipulation variables, séquences pick-and-place en présence de piétons, et scénarios dits "adversariaux" où l'humain adopte délibérément un comportement perturbateur vis-à-vis du robot. La contribution technique centrale est l'intégration d'un modèle de prédiction interactive du mouvement humain dans un contrôleur MPC hiérarchique via une optimisation bilinéaire. Contrairement aux approches classiques qui modélisent les humains comme des obstacles passifs (modèle en boucle ouverte) ou qui fondent les objectifs en une somme pondérée, SM²ITH anticipe la façon dont le robot influence lui-même la trajectoire de l'humain, et résout conjointement les dynamiques des deux agents. Les résultats montrent une coordination plus sûre et plus efficace que les baselines testées. Pour les intégrateurs industriels ou les équipes déployant des robots de service en milieu hospitalier ou logistique, cela signifie qu'un robot peut maintenir des priorités de tâches strictes (hiérarchie de type HTMPC) tout en s'adaptant en temps réel à un comportement humain non scriptié, y compris hostile. SM²ITH s'inscrit dans une lignée de travaux sur le Hierarchical Task MPC, une famille de méthodes d'optimisation qui gèrent simultanément des tâches de navigation et de manipulation avec des niveaux de priorité explicites, mais jusqu'ici réservées à des environnements structurés ou statiques. L'extension aux dynamiques humaines interactives est le verrou que ce papier prétend lever, au stade de la validation expérimentale en laboratoire. Sur le plan de la compétition académique, les approches concurrentes s'appuient soit sur des politiques apprises (RL, diffusion), soit sur des MPC sans modèle réactif de l'humain. Aucun acteur européen n'est directement impliqué dans cette publication. Les prochaines étapes naturelles seraient une validation hors laboratoire, sur des robots à plus haute charge utile, et une comparaison avec des méthodes de prédiction basées sur des VLA ou des modèles de fondation pour l'humain.

RecherchePaper
1 source
Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration
2arXiv cs.RO 

Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration

Des chercheurs ont publié fin avril 2026 sur arXiv (2604.22102) un système baptisé "Wiggle and Go!" capable de manipuler dynamiquement une corde en zero-shot, c'est-à-dire sans essais préalables sur la tâche cible ni jeu de données réel spécifique à cette tâche. L'architecture repose sur deux étages : un module d'identification système qui observe le comportement mécanique de la corde en la faisant "osciller" brièvement, prédit ses paramètres physiques descriptifs (raideur, amortissement, distribution de masse), puis transmet ces paramètres à un optimiseur qui génère les commandes motrices pour exécuter la tâche. Sur une tâche de frappe 3D d'une cible avec la corde, le système atteint une précision moyenne de 3,55 cm, contre 15,34 cm lorsque les paramètres de la corde ne sont pas pris en compte, soit une réduction d'erreur d'un facteur supérieur à 4. Le coefficient de corrélation de Pearson entre les fréquences de Fourier des trajectoires simulées et réelles atteint 0,95 sur des trajectoires non vues pendant l'entraînement. L'intérêt technique de cette approche est de découpler l'identification de l'objet de la politique de manipulation : un seul module d'identification système alimente plusieurs politiques différentes sans réentraînement, ce qui permet de basculer entre tâches (frappe, lancer, enroulement) sans collecte de données réelles supplémentaires. C'est précisément ce point qui est structurellement difficile dans la manipulation d'objets déformables : les cordes, câbles et textiles n'ont pas de modèle physique fixe, leur comportement varie selon le matériau, la longueur et l'humidité. Les approches concurrentes exigent soit des milliers d'essais réels pour calibrer un modèle, soit des itérations successives sur la tâche elle-même. "Wiggle and Go!" contourne les deux en exploitant des priors de simulation appris, avec une phase d'observation courte et non destructive. La manipulation d'objets déformables est un problème ouvert en robotique depuis plus d'une décennie, avec des applications directes en logistique (câblage, lien de paquets), en chirurgie assistée et en industrie textile. Le sim-to-real reste le verrou central : les moteurs physiques peinent à reproduire le comportement non-linéaire des matériaux souples, et la moindre erreur sur un lancer dynamique est irrécupérable, comme le soulignent explicitement les auteurs. Des équipes comme celle de Pieter Abbeel (UC Berkeley) ou Deepak Pathak (CMU) travaillent sur des approches comparables par apprentissage par renforcement ou diffusion de trajectoires, mais souvent avec des données réelles massives. Ce travail s'inscrit dans une tendance croissante vers la robotique fondée sur l'identification physique légère plutôt que sur la collecte de données exhaustive, une direction qui intéresse particulièrement les intégrateurs industriels confrontés à des environnements de production variables. Le code et les vidéos sont disponibles sur le site du projet.

RecherchePaper
1 source
LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques
3arXiv cs.RO 

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques

Une équipe de chercheurs a présenté LiMoDE (Lifelong Mixture of Dynamic Experts), une architecture destinée à permettre à un robot de maîtriser de nouvelles tâches de manipulation sans effacer les compétences précédemment acquises. Publiée en préprint sur arXiv (réf. 2606.26183), la méthode repose sur un schéma d'apprentissage en deux étapes. Dans un premier temps, un pré-entraînement multi-tâches construit une structure MoE (Mixture of Experts) dynamique : un nombre variable d'experts hétérogènes est activé sélectivement en fonction des informations de mouvement, chaque expert spécialisant une forme de manipulation à court terme. Dans un second temps, le mécanisme LiMoEAM (Lifelong MoE Adaptation Mechanism) ajoute de nouveaux experts "lifelong" qui se combinent dynamiquement avec les experts figés issus du pré-entraînement, transférant les connaissances acquises vers les nouvelles tâches. Le système a été évalué sur un benchmark de lifelong learning simulé ainsi que sur des tâches réelles, avec un surcoût décrit comme modéré en paramètres entraînables et en overhead d'inférence. L'intérêt de LiMoDE réside dans sa réponse au problème de l'oubli catastrophique, verrou persistant du déploiement de robots généralistes en environnement industriel réel. Là où les approches par fine-tuning efficace en paramètres (PEFT, LoRA) permettaient l'adaptation à une tâche unique mais dégradaient les performances précédentes, LiMoDE isole les compétences réutilisables dans des experts distincts et en préserve les poids lors de l'adaptation. Pour un intégrateur ou un COO industriel, cela signifie théoriquement qu'un robot pourrait acquérir de nouvelles opérations de saisie ou d'assemblage sans réentraînement complet de la flotte, réduisant les fenêtres d'indisponibilité. Le fait que la méthode n'ajoute qu'un nombre "modéré" de paramètres reste à quantifier précisément dans des configurations à grande échelle. Le problème du lifelong learning robotique est traité depuis plusieurs années dans la communauté du continual learning, notamment via des approches EWC (Elastic Weight Consolidation) ou des replay buffers. Les travaux récents sur les VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les politiques diffuses de Figure AI ont montré que des modèles pré-entraînés à large échelle s'adaptent rapidement à de nouveaux scénarios, mais peinent à maintenir les performances sur l'ensemble des tâches antérieures sans retraining. LiMoDE se positionne comme une solution architecturale intermédiaire entre le fine-tuning monolithique et le modèle généraliste à réentraînement systématique. Il s'agit à ce stade d'un article de recherche académique sans annonce de déploiement commercial ni partenariat industriel identifié.

RecherchePaper
1 source
TASC : contrôle partagé adapté à la tâche pour la télémanipulation relationnelle
4arXiv cs.RO 

TASC : contrôle partagé adapté à la tâche pour la télémanipulation relationnelle

Des chercheurs ont présenté TASC (Task-Aware Shared Control), un cadre de contrôle partagé pour la télémanipulation relationnelle, publié en preprint sur arXiv (arXiv:2509.10416v2, soumis initialement en septembre 2025). Le système assiste un opérateur humain pilotant un bras robotique à distance lors de tâches impliquant des relations spatiales entre objets : insérer une fiche dans une prise, poser un objet sur un support, aligner des composants. TASC infère l'intention de l'utilisateur au niveau de la tâche à partir des seules commandes de mouvement brutes, sans templates de tâches prédéfinis. Il construit dynamiquement un graphe d'interactions à vocabulaire ouvert depuis l'entrée visuelle, puis utilise un modèle de vision-langage (VLM) pour prédire les contraintes spatiales guidant l'assistance durant la saisie et l'interaction avec les objets. Des expériences en simulation et en environnement réel montrent une meilleure efficacité des tâches et un effort opérateur réduit par rapport aux méthodes existantes. Le code est disponible en open source sur GitHub. Le résultat le plus significatif est la généralisation zéro-shot : TASC fonctionne sur des objets et des tâches jamais vus à l'entraînement, là où les frameworks concurrents reposent typiquement sur des templates figés ou des bases d'objets préenregistrées. En inférant l'intention depuis le mouvement seul, sans capteurs de force ni signaux d'intention explicites, le système abaisse la barrière d'intégration pour les applications industrielles et médicales où l'instrumentation supplémentaire est coûteuse ou impraticable. L'usage d'un VLM pour le raisonnement sur les contraintes spatiales s'inscrit dans la lignée des architectures VLA émergentes, en ciblant spécifiquement la couche de compréhension de scène sans requérir un pipeline de génération d'actions end-to-end complet. Le contrôle partagé pour la téléopération robotique est un champ actif depuis les années 1990, mais la généralisation à des tâches relationnelles ouvertes reste un problème non résolu. Les approches concurrentes s'appuient sur des affordances prédéfinies ou sur l'imitation par apprentissage profond, notamment dans les travaux des groupes de Chelsea Finn et Sergey Levine. TASC demeure une contribution académique sans partenariat industriel ni déploiement terrain annoncé. Les marchés cibles naturels incluent la chirurgie robotisée, l'assemblage de précision en microfabrication, et la téléopération en environnements dangereux. La validation logique suivante serait une évaluation sur des plateformes commerciales comme les bras Universal Robots ou Franka, avec des opérateurs réels hors contexte laboratoire.

RecherchePaper
1 source