
Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie
Des chercheurs ont publié sur arXiv (arXiv:2512.24698v2, soumis fin 2025) un cadre d'apprentissage par renforcement baptisé "continuation-based learning" pour générer des comportements dynamiques complexes sur robots à pattes. L'approche se décompose en deux phases : un pré-entraînement de la politique de contrôle sur un modèle d'ordre réduit dit "corps rigide unique" (Single Rigid Body, SRB), qui simplifie le robot à un seul segment de masse, suivi d'un transfert progressif vers la dynamique corps-complet via une stratégie de continuation inspirée de l'homotopie mathématique. Ce transfert consiste à redistribuer graduellement la masse et l'inertie entre le tronc et les membres du robot, en définissant un chemin paramétrique continu entre les deux représentations. Le framework a été validé sur des tâches hautement dynamiques, saltos, manoeuvres assistées par un mur, et déployé avec succès sur un robot quadrupède réel, sans préciser le modèle matériel ni les métriques quantitatives de performance finale.
L'intérêt technique est de s'attaquer directement au "sim-to-real gap" pour des comportements extrêmes, là où l'apprentissage par renforcement classique achoppe : produire un salto ou une manoeuvre murale exige une récompense finement calibrée ou des démonstrations de haute qualité, deux ressources coûteuses. En préentraînant sur un modèle SRB, la politique capture rapidement les patrons de mouvement essentiels dans un espace d'état simplifié, puis la continuation homotopique réduit les pertes de performance lors du passage au modèle complet. Les auteurs rapportent une convergence plus rapide et une stabilité supérieure aux méthodes de référence (fine-tuning direct, curriculum naïf), ce qui suggère que la structure géométrique du chemin de transition compte autant que la quantité de données d'entraînement. Pour un intégrateur ou un responsable R&D robotique, c'est un signal que le sim-to-real sur comportements acrobatiques devient méthodologiquement adressable, même sans démonstrations humaines.
Ce travail s'inscrit dans un courant actif qui cherche à combiner modèles analytiques réduits et apprentissage profond pour dépasser les limites de chacun : les méthodes purement model-based (MPC sur SRB, très utilisées chez Boston Dynamics, ETH Zurich et ANYbotics) peinent sur les mouvements hors-domaine de validité du modèle, tandis que le RL pur souffre d'une exploration inefficace pour les comportements extrêmes. Des travaux récents comme ceux du groupe de Pieter Abbeel (UC Berkeley) ou de Zhuang Chen (CMU) explorent des voies similaires de curriculum progressif. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication ; l'article reste à ce stade un résultat de laboratoire, sans validation sur des plateformes commerciales comme Unitree B2, Spot ou ANYmal.
Dans nos dossiers




