Aller au contenu principal
Apprentissage par renforcement avec mélange d'experts pour la locomotion quadrupède tolérante aux pannes
FR/EU ecosystemearXiv cs.RO3h

Apprentissage par renforcement avec mélange d'experts pour la locomotion quadrupède tolérante aux pannes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du Dynamic Legged Systems Lab de l'Istituto Italiano di Tecnologia (IIT) proposent sur arXiv (prépublication 2506.25965) une architecture de contrôle modulaire pour robots à pattes conçue pour maintenir la locomotion en cas de panne d'actionneur. Le système repose sur un mélange d'experts (Mixture-of-Experts, MoE) piloté par apprentissage par renforcement : un module de diagnostic identifie en temps réel le type de défaillance (joint bloqué, couple réduit, actionneur hors service), puis active l'expert spécialisé correspondant parmi plusieurs politiques de contrôle distinctes, chacune entraînée pour un mode de panne spécifique. Les expériences menées dans le simulateur IsaacLab montrent que ces politiques modulaires surpassent systématiquement des politiques monolithiques de taille comparable sur l'ensemble des scénarios de panne évalués. L'architecture conserve de surcroît des performances compétitives avec une capacité réseau significativement réduite, un critère déterminant pour les plateformes embarquées à ressources de calcul limitées, notamment en contexte d'exploration planétaire.

Ce résultat adresse un angle mort persistant du déploiement hors-laboratoire des robots à pattes : la robustesse aux défaillances matérielles en cours de mission. Les politiques monolithiques entraînées par RL, qui ont produit des performances remarquables sur terrain accidenté (ANYmal d'ETH Zurich, Spot de Boston Dynamics, MIT Cheetah), supposent implicitement l'intégrité de l'ensemble des actionneurs. Injecter explicitement l'état diagnostiqué de panne dans la boucle de décision permet à chaque expert de se spécialiser sur un sous-espace comportemental bien délimité, ce qui explique leur supériorité même à capacité réduite. Pour un intégrateur ou un concepteur de mission, l'architecture MoE trace une voie concrète vers des robots capables de poursuivre une mission malgré une défaillance partielle, sans intervention humaine ni recalibration à distance.

L'IIT est l'un des laboratoires européens de référence en robotique à pattes, à l'origine de la lignée hydraulique HyQ et HyQReal. La cible applicative explicitement déclarée par les auteurs est l'exploration planétaire, domaine où l'ESA et la NASA cherchent activement des solutions de mobilité résiliente pour des rovers de nouvelle génération. Les approches concurrentes, notamment les politiques adaptatives basées sur l'estimation d'état développées par le Robotics Systems Lab de l'ETH Zurich sur ANYmal, n'exploitent pas aussi directement l'information de diagnostic pour router dynamiquement vers des experts dédiés par mode de panne. Le code est publié en open source sur GitHub (dépôt iit-DLSLab/fault-locomotion-isaaclab) sous IsaacLab, ce qui facilite la reproductibilité et l'adoption par la communauté. Prochaine étape attendue : validation sur plateforme physique, les résultats actuels étant entièrement en simulation.

Impact France/UE

L'IIT, laboratoire européen de référence en robotique à pattes, publie une architecture MoE open source pour la locomotion tolérante aux pannes, offrant une base directement exploitable pour les programmes de rovers résilients de l'ESA.

À lire aussi

Gestes robotiques naturels et expressifs via un apprentissage par renforcement itératif avec retours humains et LLMs
1arXiv cs.RO 

Gestes robotiques naturels et expressifs via un apprentissage par renforcement itératif avec retours humains et LLMs

Des chercheurs ont publié en juin 2026 (arXiv:2606.18747) un système permettant au robot humanoïde Pepper de générer des gestes co-verbaux naturels à l'exécution, sans recours à des animations préprogrammées. L'architecture combine ChatGPT pour la génération de code gestuel en langage naturel, couplée à un pipeline d'apprentissage par renforcement à partir de retours humains (RLHF) appliqué de manière itérative. Des utilisateurs évaluent les gestes produits par Pepper lors d'une étude comparative, ces préférences servant de signal de récompense pour affiner le modèle de langage. Résultat annoncé : des mouvements jugés plus expressifs, pertinents et fluides qu'avec le seul pipeline LLM de base. L'enjeu est significatif pour les intégrateurs de robots sociaux. Aujourd'hui, la quasi-totalité des comportements gestuels déployés en production repose sur des bibliothèques d'animations conçues à la main par des experts, ce qui rend les robots rigides face à des contextes conversationnels imprévus. Les approches par apprentissage automatique peinent à capturer la naturalité perçue, un critère subjectif qui se dégrade à mesure que le nombre de degrés de liberté augmente. Ce travail propose une alternative concrète : utiliser un LLM comme générateur de comportements moteurs au runtime, puis le corriger via RLHF pour coller aux préférences réelles des utilisateurs. C'est une transposition directe de la méthode qui a rendu ChatGPT lui-même plus utile, appliquée ici au domaine de la communication non verbale humain-robot. Les résultats restent néanmoins issus d'une étude utilisateur contrôlée, pas d'un déploiement à grande échelle. Pepper est le robot social d'Aldebaran Robotics, société française rachetée par SoftBank en 2012, aujourd'hui commercialisé dans les secteurs retail, accueil et éducation. Après une phase de déception commerciale liée précisément à la rigidité comportementale du robot, plusieurs équipes académiques cherchent à relancer son potentiel via des couches IA génératives. Sur ce terrain, Pepper fait face à une concurrence croissante des agents conversationnels incarnés (avatars AR/VR) et de nouvelles plateformes comme Enchanted Tools (France) avec son robot Miroki, conçu dès l'origine pour une expressivité naturelle. La prochaine étape logique serait un déploiement en contexte réel pour mesurer le gap entre l'évaluation en laboratoire et l'acceptation en environnement ouvert, une question que les auteurs n'adressent pas encore.

UEDes travaux académiques sur Pepper (Aldebaran, origine française rachetée par SoftBank) appliquant l'RLHF à la gestualité co-verbale ouvrent une voie concrète pour réhabiliter cette plateforme en production, dans un contexte où Enchanted Tools (France) cherche à s'imposer sur le segment des robots sociaux expressifs avec Miroki.

FR/EU ecosystemePaper
1 source
Apprentissage par renforcement neuromorphique pour la locomotion de robots quadrupèdes sur terrain accidenté
2arXiv cs.RO 

Apprentissage par renforcement neuromorphique pour la locomotion de robots quadrupèdes sur terrain accidenté

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv (réf. 2605.09595) un framework d'apprentissage par renforcement basé sur l'équilibrium propagation (EP) pour contrôler la locomotion d'un quadrupède Unitree A1 à 12 degrés de liberté sur terrain accidenté. Plutôt que la rétropropagation classique, ils substituent les gradients globaux par des règles d'apprentissage locales pilotées par les états neuronaux, compatibles avec les substrats neuromorphiques et de calcul en mémoire. Le contrôleur combine un générateur de motif central (CPG) bio-inspiré avec une politique d'ajustement postural résiduel, entraîné via une variante PPO (Proximal Policy Optimization) adaptée à l'EP avec un mécanisme de clipping bilatéral du ratio pour stabiliser les mises à jour lors de la relaxation. Les résultats montrent des performances comparables à une baseline PPO classique en taux de succès, suivi de vitesse, consommation des actionneurs et stabilité corporelle, tout en réduisant la mémoire GPU de 4,3× par rapport à la rétropropagation à travers le temps (BPTT). L'ensemble des expériences reste en simulation, aucun déploiement terrain n'est documenté dans la publication. L'enjeu structurel est clair : les politiques de locomotion RL actuelles sont entraînées hors-ligne en simulation massivement parallèle, puis figées au déploiement. Elles ne s'adaptent pas à l'usure des actionneurs, aux variations de charge utile, ou au drift mécanique sur robot réel, limites critiques pour une industrialisation. En remplaçant la rétropropagation par un apprentissage local compatible avec des puces neuromorphiques (type Intel Loihi), cette approche ouvre la voie à une adaptation continue on-robot à faible consommation, sans dépendance à un GPU externe. Le gain de 4,3× en mémoire est déjà tangible pour les équipes embarquées, même si la validation reste entièrement simulée. Ces travaux s'inscrivent dans l'intense activité autour de la locomotion quadrupède par RL, dominée par l'ETH Zurich sur ANYmal et les robots Unitree. L'équilibrium propagation, formalisé par Scellier et Bengio en 2017, reste peu exploré pour le contrôle continu haute dimension, c'est l'une des premières démonstrations sur un robot à 12 DOF. Les approches concurrentes pour l'adaptation en ligne incluent RMA (Rapid Motor Adaptation, UC Berkeley) et les politiques méta-adaptatives de type MAML. L'étape suivante critique serait de valider sur hardware réel avec une puce neuromorphique embarquée et de mesurer la consommation effective en watts, deux points absents de la publication actuelle.

RecherchePaper
1 source
Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle
3arXiv cs.RO 

Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle

Des chercheurs ont publié sur arXiv (référence 2604.19344) une étude comparant deux architectures de réseaux de neurones pour le contrôle d'un robot quadrupède Unitree Go2 face à des obstacles de parkour, notamment des marches et discontinuités élevées. L'architecture testée repose sur un mécanisme dit de "mixture d'experts à portes creuses" (sparsely gated MoE) : au lieu d'activer tous les paramètres du réseau à chaque inférence, seul un sous-ensemble d'experts spécialisés est sollicité selon le contexte. Les résultats sur robot réel sont nets : la politique MoE atteint le double de taux de succès dans la traversée de grands obstacles par rapport à une baseline MLP classique, à budget computationnel identique (même nombre de paramètres actifs à l'inférence). Pour obtenir des performances équivalentes avec un MLP dense, il faut augmenter sa taille totale au niveau du MoE complet, ce qui entraîne une hausse de 14,3 % du temps de calcul. L'intérêt de ce résultat tient moins aux performances brutes qu'à ce qu'il démontre structurellement : les gains architecturaux qui ont propulsé les grands modèles de langage (Mixtral, GPT-4 et consorts utilisent des variantes MoE) sont transférables aux politiques de contrôle robotique bas niveau. Cela valide une intuition croissante dans la communauté : la scalabilité des politiques de locomotion n'est pas uniquement une question de données ou de sim-to-real, mais aussi d'architecture. Pour les équipes travaillant sur des robots embarqués avec contraintes computationnelles, l'activation creuse offre un levier concret pour améliorer les performances sans alourdir les exigences matérielles. Le parkour quadrupède s'est imposé ces deux dernières années comme un benchmark exigeant pour la locomotion, avec des travaux notables issus de Berkeley, ETH Zurich et CMU sur des plateformes similaires (ANYmal, Spot, Go1/Go2). L'approche dominante jusqu'ici reposait sur des MLP séquentiels entraînés par reinforcement learning en simulation puis transférés sur le robot physique. Cette étude, dont le code est accessible en version anonymisée, ouvre une piste d'amélioration architecturale orthogonale aux efforts habituels sur les données ou les environnements de simulation. Les prochaines étapes naturelles concerneraient l'extension à des environnements plus complexes et l'évaluation du comportement des experts spécialisés pour mieux comprendre la décomposition fonctionnelle apprise.

RecherchePaper
1 source
Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs
4arXiv cs.RO 

Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs

Une équipe du laboratoire DLS (Dynamic Legged Systems) de l'IIT (Istituto Italiano di Tecnologia) publie un benchmark comparatif de trois estimateurs d'état proprioceptifs pour robots quadrupèdes : MUSE, le filtre de Kalman étendu invariant (IEKF) et le lisseur invariant (IS). L'évaluation est conduite sur la séquence CYN-1 du GrandTour Dataset, avec trois métriques : l'ATE (Absolute Trajectory Error, précision long terme), la RPE translationnelle et rotationnelle (Relative Pose Error, précision court terme), et le temps de calcul par mise à jour sur un stack matériel et logiciel fixe. Les résultats montrent que les RPE restent comparables entre les trois approches, mais IEKF et IS surpassent MUSE sur l'ATE. Le temps de calcul diffère significativement, exposant des compromis précision-latence concrets selon la méthode choisie. L'ensemble du code d'évaluation est publié en open-source sur GitHub (iit-DLSLab/stateestimationbenchmark) pour une reproductibilité complète. L'estimation d'état proprioceptive, c'est-à-dire sans capteurs extéroceptifs comme lidars ou caméras, est critique pour les quadrupèdes opérant en milieux dégradés ou occludés. Ce travail fournit aux intégrateurs et ingénieurs robotique des critères de sélection concrets : si l'application tolère une latence plus élevée, IS ou IEKF offrent une meilleure cohérence de trajectoire à long terme ; si la contrainte est temps-réel strict, le compromis bascule vers MUSE. La publication du code complet renforce la valeur de l'étude : les équipes peuvent reproduire les benchmarks sur leur propre matériel, ce qui reste rare dans la littérature robotique comparative, où les affirmations de performance sont souvent difficiles à vérifier indépendamment. L'IIT-DLSLab est historiquement actif sur la locomotion dynamique (plateforme HyQ, puis travaux sur des robots de classe Spot), et ce benchmark s'inscrit dans un effort plus large de standardisation de l'évaluation des estimateurs d'état pour robots à pattes via le GrandTour Dataset. IEKF est un classique de l'estimation sur groupes de Lie, IS en est une extension offline à lissage, tandis que MUSE représente une approche plus récente. Des travaux concurrents existent chez ETH Zurich (ANYmal) et Carnegie Mellon, mais peu publient des benchmarks comparatifs indépendants à ce niveau de rigueur méthodologique. La prochaine étape naturelle serait d'élargir l'évaluation à d'autres séquences du GrandTour Dataset, notamment sur des terrains non structurés, pour tester la généralisation des conclusions.

UEL'IIT-DLSLab publie un benchmark open-source reproductible pour l'estimation d'état proprioceptive des quadrupèdes, offrant aux équipes européennes des critères de sélection concrets (précision long terme vs latence temps-réel) et un code directement réutilisable sur leur propre matériel.

FR/EU ecosystemePaper
1 source