Préentraînement séparé des dynamiques directe et…

Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie

38

1arXiv cs.RO

Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie

Des chercheurs ont publié sur arXiv (arXiv:2512.24698v2, soumis fin 2025) un cadre d'apprentissage par renforcement baptisé "continuation-based learning" pour générer des comportements dynamiques complexes sur robots à pattes. L'approche se décompose en deux phases : un pré-entraînement de la politique de contrôle sur un modèle d'ordre réduit dit "corps rigide unique" (Single Rigid Body, SRB), qui simplifie le robot à un seul segment de masse, suivi d'un transfert progressif vers la dynamique corps-complet via une stratégie de continuation inspirée de l'homotopie mathématique. Ce transfert consiste à redistribuer graduellement la masse et l'inertie entre le tronc et les membres du robot, en définissant un chemin paramétrique continu entre les deux représentations. Le framework a été validé sur des tâches hautement dynamiques, saltos, manoeuvres assistées par un mur, et déployé avec succès sur un robot quadrupède réel, sans préciser le modèle matériel ni les métriques quantitatives de performance finale. L'intérêt technique est de s'attaquer directement au "sim-to-real gap" pour des comportements extrêmes, là où l'apprentissage par renforcement classique achoppe : produire un salto ou une manoeuvre murale exige une récompense finement calibrée ou des démonstrations de haute qualité, deux ressources coûteuses. En préentraînant sur un modèle SRB, la politique capture rapidement les patrons de mouvement essentiels dans un espace d'état simplifié, puis la continuation homotopique réduit les pertes de performance lors du passage au modèle complet. Les auteurs rapportent une convergence plus rapide et une stabilité supérieure aux méthodes de référence (fine-tuning direct, curriculum naïf), ce qui suggère que la structure géométrique du chemin de transition compte autant que la quantité de données d'entraînement. Pour un intégrateur ou un responsable R&D robotique, c'est un signal que le sim-to-real sur comportements acrobatiques devient méthodologiquement adressable, même sans démonstrations humaines. Ce travail s'inscrit dans un courant actif qui cherche à combiner modèles analytiques réduits et apprentissage profond pour dépasser les limites de chacun : les méthodes purement model-based (MPC sur SRB, très utilisées chez Boston Dynamics, ETH Zurich et ANYbotics) peinent sur les mouvements hors-domaine de validité du modèle, tandis que le RL pur souffre d'une exploration inefficace pour les comportements extrêmes. Des travaux récents comme ceux du groupe de Pieter Abbeel (UC Berkeley) ou de Zhuang Chen (CMU) explorent des voies similaires de curriculum progressif. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication ; l'article reste à ce stade un résultat de laboratoire, sans validation sur des plateformes commerciales comme Unitree B2, Spot ou ANYmal.

RecherchePaper

1 source

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

37

2arXiv cs.RO

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper

1 source

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

42

3arXiv cs.RO

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion

1 source

SRL : modèle SLIP et apprentissage par renforcement pour des sauts robotiques agiles

33

4arXiv cs.RO

SRL : modèle SLIP et apprentissage par renforcement pour des sauts robotiques agiles

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.18625) un framework hybride baptisé SRL (Spring-loaded Reinforcement Learning), conçu pour améliorer la capacité de saut des robots mobiles sur terrains variés. L'approche fusionne les signaux de contrôle feedforward issus du modèle SLIP (Spring-Loaded Inverted Pendulum, pendule à masse-ressort inversé) avec une boucle de rétroaction en temps réel pilotée par apprentissage par renforcement. Les résultats expérimentaux, obtenus en simulation sur robots bipèdes et quadrupèdes, font état d'une erreur de suivi de position inférieure à 0,1 m et d'une erreur de suivi de vitesse contenue dans un intervalle de ±3 % par rapport aux valeurs cibles. Les auteurs annoncent également une réduction significative du temps d'entraînement par rapport à la méthode RL pure utilisée comme baseline. Des validations sim-to-sim et sim-to-real sont présentées sur des scénarios de saut au sol et en escalier. L'intérêt industriel du saut robotique est réel dans les domaines de la logistique entrepôt et de la recherche et sauvetage, où franchir des obstacles sans infrastructure dédiée représente un avantage opérationnel concret. Le verrou que SRL cherche à lever est connu : le modèle SLIP fournit une dynamique physiquement cohérente mais se dégrade sur terrain irrégulier, faute de modéliser correctement les contacts et la compliance articulaire ; l'RL seul compense cette limitation mais au prix d'une exploration non guidée et coûteuse en données. La combinaison des deux réduit ce coût d'exploration tout en conservant la robustesse adaptative. Il convient toutefois de noter que l'article est une prépublication non encore évaluée par les pairs, et que les métriques de performance sont issues de simulations, la validation sim-to-real reposant sur des environnements de test dont l'amplitude n'est pas précisée dans le résumé. Le modèle SLIP est un outil analytique classique en biomécanique locomotrice, largement exploité depuis les travaux de Raibert des années 1980 pour modéliser la course et le saut des mammifères. Côté concurrents, Boston Dynamics (Spot, Atlas), Unitree Robotics (Go2, H1) et Agility Robotics (Digit) développent des capacités de franchissement d'obstacles, mais leurs approches combinent généralement MPC (Model Predictive Control) et apprentissage sans revendiquer explicitement l'intégration SLIP-RL. SRL se positionne donc sur un créneau de recherche fondamentale qui devra encore démontrer sa transposabilité à des plateformes hardware commerciales avant d'intéresser des intégrateurs industriels.

RecherchePaper

1 source

Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé

À lire aussi

Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

SRL : modèle SLIP et apprentissage par renforcement pour des sauts robotiques agiles