
Apprentissage par renforcement avec mélange d'experts pour la locomotion quadrupède tolérante aux pannes
Des chercheurs du Dynamic Legged Systems Lab de l'Istituto Italiano di Tecnologia (IIT) proposent sur arXiv (prépublication 2506.25965) une architecture de contrôle modulaire pour robots à pattes conçue pour maintenir la locomotion en cas de panne d'actionneur. Le système repose sur un mélange d'experts (Mixture-of-Experts, MoE) piloté par apprentissage par renforcement : un module de diagnostic identifie en temps réel le type de défaillance (joint bloqué, couple réduit, actionneur hors service), puis active l'expert spécialisé correspondant parmi plusieurs politiques de contrôle distinctes, chacune entraînée pour un mode de panne spécifique. Les expériences menées dans le simulateur IsaacLab montrent que ces politiques modulaires surpassent systématiquement des politiques monolithiques de taille comparable sur l'ensemble des scénarios de panne évalués. L'architecture conserve de surcroît des performances compétitives avec une capacité réseau significativement réduite, un critère déterminant pour les plateformes embarquées à ressources de calcul limitées, notamment en contexte d'exploration planétaire.
Ce résultat adresse un angle mort persistant du déploiement hors-laboratoire des robots à pattes : la robustesse aux défaillances matérielles en cours de mission. Les politiques monolithiques entraînées par RL, qui ont produit des performances remarquables sur terrain accidenté (ANYmal d'ETH Zurich, Spot de Boston Dynamics, MIT Cheetah), supposent implicitement l'intégrité de l'ensemble des actionneurs. Injecter explicitement l'état diagnostiqué de panne dans la boucle de décision permet à chaque expert de se spécialiser sur un sous-espace comportemental bien délimité, ce qui explique leur supériorité même à capacité réduite. Pour un intégrateur ou un concepteur de mission, l'architecture MoE trace une voie concrète vers des robots capables de poursuivre une mission malgré une défaillance partielle, sans intervention humaine ni recalibration à distance.
L'IIT est l'un des laboratoires européens de référence en robotique à pattes, à l'origine de la lignée hydraulique HyQ et HyQReal. La cible applicative explicitement déclarée par les auteurs est l'exploration planétaire, domaine où l'ESA et la NASA cherchent activement des solutions de mobilité résiliente pour des rovers de nouvelle génération. Les approches concurrentes, notamment les politiques adaptatives basées sur l'estimation d'état développées par le Robotics Systems Lab de l'ETH Zurich sur ANYmal, n'exploitent pas aussi directement l'information de diagnostic pour router dynamiquement vers des experts dédiés par mode de panne. Le code est publié en open source sur GitHub (dépôt iit-DLSLab/fault-locomotion-isaaclab) sous IsaacLab, ce qui facilite la reproductibilité et l'adoption par la communauté. Prochaine étape attendue : validation sur plateforme physique, les résultats actuels étant entièrement en simulation.
L'IIT, laboratoire européen de référence en robotique à pattes, publie une architecture MoE open source pour la locomotion tolérante aux pannes, offrant une base directement exploitable pour les programmes de rovers résilients de l'ESA.
Dans nos dossiers




