Aller au contenu principal
Pliage dynamique de tissu par robot grâce au contrôle prédictif basé sur l'opérateur de Koopman
RecherchearXiv cs.RO1j

Pliage dynamique de tissu par robot grâce au contrôle prédictif basé sur l'opérateur de Koopman

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a soumis sur arXiv en mai 2026 (arXiv:2605.18373) une approche de contrôle prédictif par modèle (MPC) pour le pliage dynamique de tissu par bras robotique. Le système repose sur la régression par noyau de l'opérateur de Koopman, une technique d'identification de systèmes non linéaires, pour construire un modèle linéaire de substitution du comportement du tissu. Ce modèle surrogate est entraîné à partir de données issues d'un simulateur physique haute-fidélité, puis intégré dans l'algorithme MPC à la place du modèle non linéaire coûteux, permettant de générer des trajectoires de pliage rapide. Les expériences couvrent des environnements simulés et un robot réel, démontrant la capacité à atteindre des configurations de pliage non vues à l'entraînement sans dégradation mesurée de la précision.

L'enjeu est structurant pour la manipulation d'objets déformables : le pliage dynamique de tissu, qui exploite l'inertie du textile via des mouvements rapides, bute depuis des années sur un compromis persistant entre vitesse et précision, les systèmes existants nécessitant plusieurs tentatives ou se limitant à des pièces rigides et petites. Le transfert sim-to-real est également un obstacle majeur avec les modèles physiques non linéaires du tissu, dont l'inférence haute-fidélité est prohibitive en temps réel. En linéarisant la dynamique du tissu via l'opérateur de Koopman, les auteurs allègent drastiquement la charge computationnelle du MPC, ouvrant la voie à un contrôle quasi-temps-réel pour des applications textiles industrielles (blanchisseries, e-commerce, confection). Il convient toutefois de signaler que les expériences en conditions réelles restent limitées en portée à ce stade de preprint, sans validation sur une grande diversité de matières ou de formats de vêtements.

L'opérateur de Koopman connaît depuis 2020-2021 un intérêt croissant en robotique comme alternative aux modèles neuronaux pour la linéarisation de systèmes non linéaires, notamment dans la locomotion et la manipulation. Dans le domaine du cloth manipulation, des travaux récents de Columbia, MIT ou de l'équipe derrière UniGarmentManip ont exploré les politiques par apprentissage par renforcement ou par diffusion, mais sans combiner la structure MPC avec l'identification Koopman. Aucune entreprise ni spin-off n'est associée à cette publication. Les suites logiques incluent une validation sur une plus grande variété de tissus (matières, tailles, rigidités variables) et l'intégration dans un pipeline complet combinant perception de l'état du tissu et planification de préhension, deux briques que le preprint ne couvre pas encore.

Dans nos dossiers

À lire aussi

Manipulation dynamique de corde apprise par contrôle itératif au niveau tâche
1arXiv cs.RO 

Manipulation dynamique de corde apprise par contrôle itératif au niveau tâche

Des chercheurs ont publié une méthode d'apprentissage itératif au niveau tâche (Task-Level Iterative Learning Control, ILC) pour la manipulation dynamique de cordes par bras robotique. La démonstration porte sur le "flying knot", un nœud exécuté en mouvement dans l'espace tridimensionnel, tâche non planaire réputée difficile à automatiser. La méthode combine une unique démonstration humaine et un modèle simplifié de corde, et s'entraîne directement sur matériel réel sans recourir à de larges bases de données ni à de la simulation massive. À chaque itération, l'algorithme inverse un modèle couplé robot-corde en résolvant un programme quadratique (QP) pour propager les erreurs dans l'espace tâche vers des corrections d'action. Sept types de cordes ont été testés: chaîne métallique, tube chirurgical en latex, cordes tressées et toronnées, avec des diamètres de 7 à 25 mm et des densités de 0,013 à 0,5 kg/m. Le système atteint 100 % de réussite en 10 essais ou moins sur l'ensemble des configurations. Le transfert entre types de cordes différents s'effectue en 2 à 5 essais supplémentaires pour la plupart des paires testées. Ce résultat contredit une hypothèse courante dans la manipulation d'objets déformables (DOM): la robustesse ne passe pas nécessairement par des jeux de données massifs ou des milliers d'heures de simulation. Une seule démonstration humaine suffit à amorcer l'apprentissage, et la convergence s'effectue en moins de dix essais réels sur matériel physique, même pour des cordes aussi différentes qu'une chaîne rigide et un tube en latex souple. La capacité de transfert inter-corde en 2 à 5 essais est particulièrement significative: elle indique que le modèle interne capture suffisamment la dynamique pour s'adapter à de nouvelles propriétés mécaniques sans redémarrer l'apprentissage. Pour les intégrateurs travaillant sur du câblage automatisé, de la couture industrielle ou du conditionnement de produits souples, c'est une piste crédible vers des systèmes moins gourmands en données et plus rapidement reconfigurables sur ligne. L'ILC est une technique de contrôle classique, ici adaptée au niveau tâche plutôt qu'au niveau signal bas, ce qui la rend plus générique face à la variabilité des objets déformables. Les approches concurrentes en DOM font généralement appel à des réseaux de neurones entraînés sur simulation ou à l'apprentissage par imitation à grande échelle, deux méthodes coûteuses en données et exposées au reality gap. L'absence totale de simulation dans cette méthode est un choix délibéré qui contourne ce problème au prix d'itérations physiques, un compromis acceptable dès lors que le nombre d'essais reste faible. Les travaux sont disponibles en prépublication sur arXiv (2602.21302) et accompagnés d'un site de démonstration vidéo (flying-knots.github.io). Les suites naturelles incluent l'extension à des nœuds plus complexes, l'intégration sur des manipulateurs industriels multi-DOF, et des validations en environnements non contrôlés.

RecherchePaper
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
2arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets
3arXiv cs.RO 

Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets

Des chercheurs ont publié en mai 2025 Slot-MPC (arXiv:2605.14937), un cadre de modélisation du monde combinant représentations centrées sur les objets et contrôle prédictif par modèle (MPC). L'approche encode chaque objet de la scène dans un "slot" latent distinct, appris par un encodeur visuel, puis utilise ces représentations structurées pour apprendre un modèle de dynamique conditionné sur les actions. Au moment de l'inférence, ce modèle sert de simulateur interne : l'agent planifie ses actions sur un horizon temporel fini, réoptimise à chaque pas de temps, et peut ainsi s'adapter à des situations non rencontrées pendant l'entraînement. Les expériences sont menées sur des tâches de manipulation robotique simulées, dans un cadre hors-ligne (offline) avec couverture limitée des paires état-action. La contribution principale tient à la différentiabilité du modèle appris : contrairement aux approches MPC classiques qui échantillonnent des milliers de trajectoires candidates (méthodes sans gradient, type CEM ou MPPI), Slot-MPC optimise directement les actions par descente de gradient, ce qui est significativement plus efficace en termes de calcul. Dans le cadre offline étudié, cette planification par gradient surpasse les méthodes d'échantillonnage. Les résultats montrent également que les représentations structurées objet par objet constituent un biais inductif fort : les agents Slot-MPC généralisent mieux à des situations nouvelles que les baselines à représentations latentes monolithiques, ce qui est un enjeu central pour les applications robotiques réelles où l'environnement évolue de façon imprévisible. Ce travail s'inscrit dans la lignée des recherches sur les représentations centrées sur les objets (Slot Attention de Locatello et al., 2020 ; SLATE, Dinosaur), appliquées ici au contrôle plutôt qu'à la seule perception. Il entre en compétition directe avec des modèles de monde appris comme DreamerV3 (DeepMind) ou TD-MPC2, qui utilisent des représentations latentes denses non structurées. Limite notable : toutes les expériences restent en simulation, sans transfert sim-to-real ni validation sur robot physique, ce qui est un écart important avant toute application industrielle. Le code source et les résultats complémentaires sont disponibles sur slot-mpc.github.io.

RecherchePaper
1 source
CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche
4arXiv cs.RO 

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

Une équipe de chercheurs propose CoRAL (Contact-Rich Adaptive LLM-based control), un framework publié en preprint sur arXiv (2605.02600) en mai 2025, conçu pour résoudre l'une des limites persistantes des grands modèles de langage appliqués à la robotique : la manipulation en contact riche, c'est-à-dire les tâches nécessitant des interactions physiques précises et réactives. L'architecture repose sur un découplage strict entre raisonnement de haut niveau et exécution de bas niveau. Contrairement aux approches VLA (Vision-Language-Action) qui emploient le modèle comme contrôleur direct, CoRAL utilise le LLM comme concepteur de fonctions de coût pour un planificateur par échantillonnage (MPPI, Model Predictive Path Integral). Un VLM fournit des priors sémantiques sur les paramètres physiques de l'environnement - masse et friction - affinés en temps réel par identification de système en ligne, tandis qu'une mémoire par récupération permet de réutiliser des stratégies validées sur des tâches récurrentes. Sur des scénarios incluant le retournement d'objets contre des murs via des contacts extrinsèques, CoRAL affiche un taux de succès supérieur de plus de 50 % en moyenne aux baselines VLA testées, sur des tâches jamais vues en entraînement, aussi bien en simulation que sur hardware réel. L'intérêt principal pour les intégrateurs réside dans la résilience au gap sim-to-real : en adaptant dynamiquement sa représentation des paramètres physiques lors des premières interactions, le système corrige en vol ses erreurs stratégiques sans nécessiter de re-entraînement. La séparation raisonnement/exécution garantit en outre une stabilité temps réel, le LLM étant par nature trop lent pour s'insérer dans une boucle de contrôle réactif. C'est un argument concret contre les VLA pures, qui peinent précisément sur les tâches à fort contact car leurs politiques apprises ne s'adaptent pas aux incertitudes physiques non vues. Le gain de 50 % mérite cependant d'être pondéré : les baselines exactes et le périmètre précis des tâches de test ne sont pas détaillés dans le résumé, et ce travail reste un preprint non relu par les pairs. CoRAL s'inscrit dans un champ de recherche actif qui cherche à hybrider planification symbolique et modèles de fondation pour dépasser les limites des VLA comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA. Ces modèles ont montré des capacités convaincantes sur des tâches de manipulation standards mais buttent sur les contacts complexes et les environnements non vus. Le planificateur MPPI est une méthode stochastique éprouvée en robotique, ce qui ancre CoRAL dans un socle technique solide plutôt que dans une approche purement émergente. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade - la prochaine étape naturelle serait une validation sur un spectre plus large de tâches industrielles, comme l'assemblage ou la manipulation d'objets déformables, pour mesurer la généralisation réelle de l'approche.

RecherchePaper
1 source