
Apprentissage par imitation physique : distiller des politiques de contrôle en élasticité passive
Des chercheurs proposent Physical Imitation Learning (PIL), une méthode de co-conception contrôle-mécanique publiée sur arXiv (2604.00611). Le principe: prendre une politique de contrôle apprise par renforcement (RL) et la décomposer automatiquement en deux composantes distinctes, une contribution active (actionneurs) et une contribution passive, cette dernière étant ensuite transférée vers des articulations élastiques parallèles passives (PEJ, Passive Parallel Elastic Joints). La politique RL est ensuite ré-entraînée pour exploiter activement l'assistance mécanique des PEJ, en générant des allures mieux adaptées à leur comportement intrinsèque. En simulation sur des quadrupèdes, la méthode parvient à déléguer jusqu'à 95 % de la puissance mécanique aux PEJ sur terrain plat, et 13 % sur terrain accidenté.
L'efficacité énergétique reste un verrou critique pour le déploiement de robots mobiles autonomes: les batteries limitent l'autonomie, et les robots actuels dépensent une énergie considérable à compenser leur propre mécanique plutôt qu'à en tirer parti. PIL adresse ce problème structurellement: plutôt que d'optimiser uniquement la loi de commande active, elle redistribue la charge d'actionnement vers des composants passifs fiables et bon marché. Le cadre est présenté comme généraliste, applicable à toute morphologie robotique à articulations, ce qui élargirait son périmètre aux bras, exosquelettes et robots humanoïdes. Si les résultats se confirment en conditions réelles, l'approche pourrait allonger l'autonomie et réduire l'usure des actionneurs sur des flottes en déploiement.
L'inspiration biologique invoquée, celle de la co-évolution cerveau-corps et de la locomotion économe en énergie observée chez les animaux, est documentée depuis les travaux de Raibert (Boston Dynamics, années 1980-90) et les recherches sur les Series Elastic Actuators (SEA) du MIT. En Europe, des acteurs comme Wandercraft intègrent des mécanismes passifs dans leurs exosquelettes pour des raisons similaires. PIL se distingue en automatisant l'extraction de la composante passive depuis une politique RL existante, plutôt que de concevoir les ressorts manuellement. Les résultats demeurent toutefois entièrement en simulation; le sim-to-real gap, notamment sur terrain accidenté où l'offload chute à 13 %, constituera l'épreuve de vérité pour valider la crédibilité industrielle de cette approche.
Pertinent pour Wandercraft (France) et les labos européens (INRIA, DLR) travaillant sur la locomotion économe en énergie, mais les résultats restent en simulation et aucun transfert réel vers des acteurs EU n'est encore engagé.
Dans nos dossiers




