Contrôle de robots souples par apprentissage sur…

Cadre d'apprentissage continu pour le contrôle adaptatif de robots souples modulaires

34

1arXiv cs.RO

Cadre d'apprentissage continu pour le contrôle adaptatif de robots souples modulaires

Une équipe de recherche propose un nouveau cadre de contrôle pour robots souples modulaires (Modular Soft Robots, MSR), basé sur les principes de l'apprentissage continu, selon un article publié sur arXiv le 7 juillet 2026 (arXiv:2607.06740v1). Les MSR sont des systèmes composés de plusieurs segments interconnectés, hautement déformables et reconfigurables, utilisés notamment en intervention médicale, en rééducation et en manipulation robotique. Le problème que résout ce travail est concret : jusqu'ici, changer la morphologie d'un MSR obligeait à réentraîner entièrement son contrôleur, faute de pouvoir réutiliser les connaissances acquises sur les configurations précédentes. Le framework proposé permet au contrôleur d'apprendre séquentiellement de nouvelles configurations sans oublier les précédentes, et peut aussi fonctionner de façon distribuée pour apprendre la dynamique propre de chaque module sur un robot à configuration fixe. La validation s'est faite en deux temps : des expériences de suivi de trajectoire en boucle fermée en simulation sur un robot souple actionné par tendons, puis un test sur un bras robotique souple pneumatique à trois modules, en conditions réelles. Pour l'industrie robotique, l'apport principal est méthodologique plutôt qu'un produit prêt à déployer : il s'attaque à un goulot d'étranglement bien identifié dans la robotique souple, à savoir la difficulté à faire évoluer la morphologie d'un robot sans tout reconstruire. Les MSR intéressent particulièrement les intégrateurs travaillant sur des tâches nécessitant une compliance mécanique élevée, comme la chirurgie mini-invasive ou la manipulation d'objets fragiles, où la rigidité des robots classiques est un handicap. Un contrôleur capable de s'adapter progressivement à des changements de structure, tout en activant sélectivement seulement les modules nécessaires pour atteindre une cible (ce qui réduit la charge de calcul), pourrait accélérer l'itération de conception sur ces plateformes reconfigurables, un axe encore peu mature comparé aux robots humanoïdes rigides à actionneurs classiques. Ce travail s'inscrit dans la lignée des recherches en robotique souple qui cherchent à dompter la nonlinéarité et la redondance hyper-élevée de ces systèmes, deux caractéristiques qui rendent les approches de contrôle classiques inadaptées. L'article ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution de recherche académique, à un stade de preuve de concept en laboratoire, dont l'étape suivante logique serait l'extension à des morphologies plus complexes ou à des tâches de manipulation réelles au-delà du suivi de trajectoire.

RecherchePaper

1 source

Rapide apprentissage du contrôle de robots souples via un pas de temps implicite

42

2arXiv cs.RO

Rapide apprentissage du contrôle de robots souples via un pas de temps implicite

Des chercheurs démontrent qu'un apprentissage rapide de politiques de contrôle pour robots souples est possible grâce au pas de temps implicite, une avancée jusqu'ici jugée hors de portée en raison du coût de calcul de la simulation de mécanique des milieux continus. Leur simulateur, DisMech, est un moteur généraliste entièrement implicite capable de gérer à la fois la dynamique des corps souples et les contacts frictionnels. L'équipe introduit aussi le contrôle par delta de courbure naturelle, une méthode analogue au contrôle delta de position articulaire des manipulateurs rigides, offrant un moyen intuitif d'appliquer des commandes lors de l'apprentissage. Testée sur quatre tâches de manipulation souple et comparée à Elastica, l'un des frameworks de simulation souple les plus répandus, l'approche atteint jusqu'à 6 fois la vitesse d'exécution sur les scénarios sans contact et jusqu'à 40 fois sur les scénarios riches en contact, avec 500 environnements simulés en parallèle. Une évaluation de l'écart sim à sim, entraînement dans un simulateur puis test dans un autre, confirme que ces gains de vitesse ne sacrifient pas la précision. Cette avancée s'attaque à un verrou connu du secteur : la simulation de corps rigides a permis l'essor massif de l'apprentissage par renforcement pour les robots articulés classiques, mais la robotique souple est restée à la traîne faute d'outils accessibles et rapides. Pour les chercheurs et industriels développant des préhenseurs souples, des trompes robotiques ou des manipulateurs continus destinés à la manutention délicate, ce travail suggère que l'apprentissage de politiques par simulation, longtemps réservé aux morphologies rigides, devient enfin praticable pour les morphologies déformables. Cela pourrait accélérer le transfert de techniques d'apprentissage de bout en bout vers des applications comme la préhension d'objets fragiles ou la chirurgie assistée, où la rigidité mécanique classique est un handicap. Le fossé entre simulateurs rigides matures et frameworks souples rudimentaires explique en partie le retard de la robotique douce sur l'apprentissage par simulation, un constat que ce travail cherche à combler en misant sur un solveur implicite plutôt que sur des approches explicites plus lentes comme Elastica. L'article, publié sur arXiv en version révisée (arXiv:2511.06667v2), s'inscrit dans une dynamique de recherche visant à doter la robotique souple d'outils logiciels aussi matures que ceux dont bénéficie la robotique rigide depuis des années, ouvrant la voie à de futurs benchmarks entre frameworks concurrents.

RecherchePaper

1 source

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

42

3arXiv cs.RO

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Des chercheurs ont publié en juin 2026 (arXiv:2606.27353) un framework d'apprentissage continu permettant à un robot de s'adapter en temps réel à des dynamiques changeantes et non observées, sans nécessiter de réentraînement complet. Le système combine un modèle de dynamique analytique (prior physique) avec un résidu neuronal entraîné à capturer les effets non modélisés. Un encodeur récurrent infère en ligne la "condition cachée" courante du robot, c'est-à-dire l'état du système non directement mesurable (charge utile variable, usure mécanique, perturbations aérologiques), à partir des trajectoires état-action récentes. Cette condition estimée pilote à la fois le modèle résiduel et la politique de contrôle. Lors de l'apprentissage, la politique est optimisée par simulation différentiable en échantillonnant un ensemble de dynamiques plausibles issues du modèle latent. Sur un quadrotor réel soumis à des vents récurrents, le système récupère une perturbation connue en environ 1 seconde, soit cinq fois plus rapidement qu'un réentraînement résiduel en ligne classique, et réduit les erreurs de vol stationnaire et de suivi de trajectoire respectivement de 65,7 % et 53,3 % par rapport aux approches d'adaptation en ligne de l'état de l'art. L'enjeu industriel est direct : la quasi-totalité des contrôleurs appris actuels sont entraînés une fois, puis déployés statiquement, comme si la dynamique du robot restait constante. En pratique, batteries qui se déchargent, charges qui changent de mission en mission, surfaces de contact qui évoluent, conditions météo variables, tout cela dégrade les performances sans mécanisme de correction. L'originalité de cette approche tient à la distinction entre "reconnaissance" et "réadaptation" : plutôt que de réajuster un modèle depuis zéro à chaque perturbation rencontrée (coûteux en données et en temps), le système reconnaît une dynamique déjà vue et l'applique immédiatement via l'encodeur récurrent. Ce paradigme est particulièrement pertinent pour les intégrateurs de drones industriels, de robots manipulateurs en logistique ou de plateformes mobiles en environnement extérieur, où les cycles de déploiement sont longs et les recalibrages manuels coûteux. Les résultats valident aussi une hypothèse clé du champ sim-to-real : qu'un prior physique structuré couplé à un résidu neuronal permet de généraliser à des conditions non vues lors de l'entraînement, à condition que ces conditions aient été préalablement "vécues" lors d'autres déploiements. Ce travail s'inscrit dans une lignée de recherches sur l'adaptation dynamique de politiques robotiques incluant la randomisation de domaine (popularisée par OpenAI Robotics dès 2018), les approches méta-learning type MAML, et les méthodes d'adaptation en ligne par processus gaussiens. Le réentraînement résiduel en ligne, utilisé comme baseline de comparaison, est une technique établie mais limitée par sa latence de convergence, problème central que ce framework adresse directement par la reconnaissance latente. L'article est à ce stade un preprint non relu par les pairs, et les expériences réelles restent limitées au quadrotor ; la généralisation à des robots à pattes ou à des bras manipulateurs industriels reste à démontrer. Aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné. Les prochaines étapes probables incluent des tests sur des plateformes à dynamiques plus complexes et une validation sur des dynamiques à distribution plus large.

RecherchePaper

1 source

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

45

4arXiv cs.RO

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

Des chercheurs ont proposé un modèle de dynamique contextuel fondé sur les équations différentielles ordinaires neuronales (Neural ODE) pour améliorer le contrôle de robots opérant dans des environnements incertains et variables. Le travail, déposé en juin 2026 sur arXiv (référence 2606.15469), cible les perturbations que les contrôleurs classiques peinent à absorber: variations des conditions de contact, effets aérodynamiques et perturbations externes imprévues. La méthode repose sur une procédure d'entraînement en deux phases: le modèle inspecte l'historique des états et des actions du robot pour inférer les facteurs environnementaux courants, sans capteurs dédiés supplémentaires. La compatibilité avec le MPC (Model Predictive Control) est intégrée dès la conception. Les validations portent sur trois plateformes distinctes: un drone quadrirotor en simulation, un robot sphérique Sphero BOLT et un bras manipulateur industriel Fanuc, ces deux derniers testés en conditions réelles. L'enjeu central est la dérive de modèle lors du déploiement: un robot calibré en laboratoire voit ses performances se dégrader dès que l'environnement change, que ce soit un sol différent, une charge variable ou des turbulences. Par rapport aux approches récurrentes classiques (LSTM, GRU), les Neural ODE présentent un avantage structurel: elles modélisent la dynamique en temps continu, ce qui améliore la cohérence physique et simplifie l'interface avec les solveurs MPC. L'inférence du contexte depuis le seul historique actions-états, sans instrumentation additionnelle, réduit la barrière d'intégration pour les industriels. Le test sur un Fanuc, bras omniprésent en production manufacturière, ancre les résultats dans une réalité opérationnelle tangible. Point de réserve: l'article est un preprint et l'abstract ne publie aucune métrique chiffrée de performance, ce qui rend l'évaluation indépendante difficile à ce stade. Les Neural ODE ont été introduites en 2018 par Chen et al. (NeurIPS) comme alternative aux réseaux récurrents pour modéliser des systèmes dynamiques continus. Leur application au contrôle robotique adaptatif répond à un obstacle persistant du secteur: le sim-to-real gap, qui fragilise la fiabilité des systèmes autonomes hors conditions contrôlées. Les approches concurrentes comprennent les processus gaussiens (GP) pour l'adaptation en ligne, les algorithmes méta-apprenants (MAML, PEARL) et l'identification de systèmes en temps réel. Ce travail se distingue par l'inférence contextuelle implicite, couplée nativement au MPC plutôt qu'ajoutée en couche. Le code source est ouvert sur GitHub et des démonstrations vidéo sont accessibles. La prochaine étape logique serait une validation sur des tâches de manipulation à charge variable ou un déploiement en environnement industriel non contrôlé.

RecherchePaper

1 source

Contrôle de robots souples par apprentissage sur sous-variétés spectrales adiabatiques

À lire aussi

Cadre d'apprentissage continu pour le contrôle adaptatif de robots souples modulaires

Rapide apprentissage du contrôle de robots souples via un pas de temps implicite

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif