Aller au contenu principal
Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle
RecherchearXiv cs.RO6sem

Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2604.19344) une étude comparant deux architectures de réseaux de neurones pour le contrôle d'un robot quadrupède Unitree Go2 face à des obstacles de parkour, notamment des marches et discontinuités élevées. L'architecture testée repose sur un mécanisme dit de "mixture d'experts à portes creuses" (sparsely gated MoE) : au lieu d'activer tous les paramètres du réseau à chaque inférence, seul un sous-ensemble d'experts spécialisés est sollicité selon le contexte. Les résultats sur robot réel sont nets : la politique MoE atteint le double de taux de succès dans la traversée de grands obstacles par rapport à une baseline MLP classique, à budget computationnel identique (même nombre de paramètres actifs à l'inférence). Pour obtenir des performances équivalentes avec un MLP dense, il faut augmenter sa taille totale au niveau du MoE complet, ce qui entraîne une hausse de 14,3 % du temps de calcul.

L'intérêt de ce résultat tient moins aux performances brutes qu'à ce qu'il démontre structurellement : les gains architecturaux qui ont propulsé les grands modèles de langage (Mixtral, GPT-4 et consorts utilisent des variantes MoE) sont transférables aux politiques de contrôle robotique bas niveau. Cela valide une intuition croissante dans la communauté : la scalabilité des politiques de locomotion n'est pas uniquement une question de données ou de sim-to-real, mais aussi d'architecture. Pour les équipes travaillant sur des robots embarqués avec contraintes computationnelles, l'activation creuse offre un levier concret pour améliorer les performances sans alourdir les exigences matérielles.

Le parkour quadrupède s'est imposé ces deux dernières années comme un benchmark exigeant pour la locomotion, avec des travaux notables issus de Berkeley, ETH Zurich et CMU sur des plateformes similaires (ANYmal, Spot, Go1/Go2). L'approche dominante jusqu'ici reposait sur des MLP séquentiels entraînés par reinforcement learning en simulation puis transférés sur le robot physique. Cette étude, dont le code est accessible en version anonymisée, ouvre une piste d'amélioration architecturale orthogonale aux efforts habituels sur les données ou les environnements de simulation. Les prochaines étapes naturelles concerneraient l'extension à des environnements plus complexes et l'évaluation du comportement des experts spécialisés pour mieux comprendre la décomposition fonctionnelle apprise.

Dans nos dossiers

À lire aussi

Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile
1arXiv cs.RO 

Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile

Une équipe de chercheurs a publié en avril 2026 sur arXiv (2604.27224) un pipeline hiérarchique de loco-manipulation pour robots quadrupèdes intégrant le retour tactile. Le système combine une politique visuotactile de haut niveau, entraînée sur des démonstrations humaines réelles, qui prédit simultanément les trajectoires de l'effecteur terminal et les signaux tactiles attendus caractérisant l'évolution du contact, avec une politique corps-entier entraînée par reinforcement learning à grande échelle en simulation et transférée zero-shot sur robot physique. Évalué sur trois tâches à contact riche (réorientation en main avec insertion, serrage de vanne, manipulation d'objets fragiles), le système affiche un gain moyen de 28,54 % par rapport aux baselines vision seule et visuotactile sans prédiction tactile. L'apport principal est de démontrer que vision et proprioception restent insuffisantes pour résoudre des contacts incertains et évolutifs, et que le retour tactile fournit une observabilité directe que les autres modalités ne peuvent pas suppléer. La mise à l'échelle de l'apprentissage tactile à un système complet de loco-manipulation quadrupède est une contribution distinctive : la littérature récente s'était concentrée sur les bras fixes et les mains dextres, laissant les plateformes mobiles en dehors du périmètre. Le transfert zero-shot sim-to-real de la politique multimodale corps-entier valide par ailleurs qu'il est possible de combler le gap simulation-réalité sur des politiques sensorielles complexes sans fine-tuning sur robot physique, un résultat concret pour les déploiements industriels. La manipulation par quadrupèdes s'est accélérée depuis 2023 avec Spot (Boston Dynamics) et ANYmal (ANYbotics, ETH Zurich), qui s'appuient cependant essentiellement sur la vision et la proprioception. L'intégration d'une couche tactile hiérarchique sur des systèmes mobiles reste une extension non triviale, absente des plateformes Unitree B2/Z1 ou des travaux sur MIT Cheetah. La suite logique inclut l'extension à des capteurs haute densité (GelSight, capacitif distribué) et à des chaînes de manipulation multi-étapes en milieu industriel réel. Ce travail est un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats au-delà du protocole expérimental décrit.

UELes résultats sur le transfert zero-shot sim-to-real et la manipulation tactile quadrupède sont directement pertinents pour ANYbotics (spin-off ETH Zurich) et ses déploiements d'inspection industrielle en Europe, où ANYmal constitue la plateforme de référence.

RecherchePaper
1 source
Apprentissage par renforcement guidé pour les sauts omnidirectionnels en 3D dans les robots quadrupèdes
2arXiv cs.RO 

Apprentissage par renforcement guidé pour les sauts omnidirectionnels en 3D dans les robots quadrupèdes

Une équipe de chercheurs a publié sur arXiv (référence 2507.16481, troisième version) une méthode d'apprentissage par renforcement guidé destinée à permettre aux robots quadrupèdes d'effectuer des sauts omnidirectionnels en trois dimensions. L'approche combine des courbes de Bézier, classiquement utilisées pour la planification de trajectoires lissées, avec un modèle de mouvement rectiligne uniformément accéléré (UARM), qui encode une intuition physique du saut directement dans la boucle d'entraînement. Les résultats sont validés en simulation et sur robot réel, mais le résumé ne précise ni la plateforme matérielle utilisée ni les métriques chiffrées de performance, ce qui limite l'évaluation indépendante de la contribution. L'intérêt principal de ce travail réside dans l'adresse simultanée de deux limitations majeures des approches existantes. Les méthodes d'optimisation classiques (MPC, trajectory optimization) produisent des sauts contrôlables mais exigent une connaissance fine des paramètres du robot et du terrain, ce qui fragilise leur robustesse en conditions réelles. À l'inverse, l'apprentissage par renforcement bout-en-bout souffre d'une complexité d'échantillonnage élevée, de millions de simulations nécessaires, et d'une imprévisibilité des trajectoires qui complique la certification de sécurité, un prérequis non négociable pour les déploiements industriels. En injectant une structure physique dans la boucle d'entraînement, les auteurs visent à réduire le coût d'apprentissage tout en produisant des mouvements explicables, dont la logique peut être auditée et certifiée. Le saut dynamique pour robots quadrupèdes est un problème ouvert depuis plusieurs années, car il concentre les défis du transfert sim-to-réel : contacts impulsionnels, rigidité des actionneurs, imprécision des estimations d'état. Le Robotics Systems Lab d'ETH Zurich (ANYmal) et les équipes de l'UC Berkeley ont déjà démontré des sauts via RL pur, tandis que Boston Dynamics et Unitree intègrent ces capacités dans leurs plateformes commerciales. Ce papier s'inscrit dans la tendance des approches hybrides modèle-apprentissage, qui cherchent à concilier la robustesse du RL avec la prévisibilité des méthodes analytiques, une direction que poursuivent également des équipes européennes comme le LAAS-CNRS ou l'INRIA.

UEDes équipes européennes comme le LAAS-CNRS et l'INRIA travaillent sur des approches hybrides modèle-apprentissage similaires pour la locomotion quadrupède, ce travail s'inscrit dans un domaine de recherche où l'Europe est présente mais sans impact direct immédiat.

RecherchePaper
1 source
Bibliothèque d'experts à mélange dynamique progressif pour l'apprentissage robotique continu
3arXiv cs.RO 

Bibliothèque d'experts à mélange dynamique progressif pour l'apprentissage robotique continu

Des chercheurs proposent DMPEL (Dynamic Mixture of Progressive Parameter-Efficient Expert Library), une architecture publiée sur arXiv (2506.05985) pour l'apprentissage continu en robotique. L'objectif est de permettre à un agent généraliste d'acquérir séquentiellement de nouvelles compétences sans effacer les précédentes, phénomène dit d'oubli catastrophique. DMPEL construit progressivement une bibliothèque d'experts à rang réduit (low-rank, dans la famille PEFT), et utilise un routeur léger pour les combiner dynamiquement en une politique end-to-end. La technique centrale, l'« expert coefficient replay », guide ce routeur vers les experts gelés correspondant aux tâches passées sans rejouer l'intégralité de l'historique d'expériences. Évalué sur LIBERO, benchmark standard de l'apprentissage continu en robotique simulée, DMPEL surpasse l'état de l'art en taux de succès lors d'adaptations séquentielles, avec un nombre minimal de paramètres entraînables. Le verrou levé est pratiquement significatif : les méthodes PEFT existantes supposent un identifiant de tâche disponible à l'inférence, hypothèse irréaliste en déploiement réel où le robot doit lui-même inférer à quelle tâche il est confronté. En s'en affranchissant, DMPEL ouvre la voie à une adaptation incrémentale sans supervision externe. Le remplacement de l'experience replay classique par l'expert coefficient replay réduit aussi sensiblement les besoins en stockage et en calcul, un argument concret pour l'embarqué industriel. Pour un intégrateur ou un décideur B2B, c'est le signal que spécialiser un robot à de nouveaux postes de travail en séquence devient techniquement plus accessible. L'apprentissage continu connaît un regain d'intérêt direct avec l'essor des politiques vision-langage-action (VLA) comme OpenVLA, RT-2 ou pi-zero, qui nécessitent une spécialisation post-entraînement par tâche. DMPEL s'inscrit dans la lignée des travaux sur les Mixture of Experts et les adaptateurs LoRA, appliqués ici à un cadre multi-tâches séquentiel. Ses concurrents directs sur LIBERO incluent EWC (Elastic Weight Consolidation), PackNet et L2P. La limite principale reste l'absence d'expériences sur robot physique : les gains mesurés en simulation ne garantissent pas le passage au déploiement terrain, un sim-to-real gap que les publications de ce type peinent encore à combler systématiquement.

RecherchePaper
1 source
Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement
4arXiv cs.RO 

Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement

Des chercheurs ont publié sur arXiv (référence 2504.14820) une approche de reinforcement learning visuel baptisée Separate Primitive Policy (S2P), conçue pour automatiser les tâches d'assemblage par insertion cheville-trou (peg-in-hole). La méthode s'inspire du comportement humain en vision binoculaire : un opérateur localise d'abord visuellement la cheville au-dessus de la surface cible, puis exécute l'insertion. S2P décompose ce processus en deux primitives apprises simultanément, la localisation et l'insertion, dans un cadre de reinforcement learning sans modèle (model-free). Les auteurs ont développé dix tâches d'insertion distinctes utilisant des formes polygonales variées comme banc d'essai standardisé, ont conduit des expériences en simulation avec contraintes de force, puis validé l'approche sur robot réel. L'intérêt principal de S2P réside dans son gain de sample efficiency, c'est-à-dire la capacité à apprendre une politique efficace avec moins d'interactions avec l'environnement, combiné à une amélioration du taux de succès même lorsque des contraintes de force sont imposées. Pour les intégrateurs industriels, c'est un signal concret : l'assemblage fin, encore largement opéré par des systèmes rigides à programmation manuelle, devient plus accessible à l'apprentissage automatique en présence de retour visuel. La compatibilité affichée avec n'importe quel algorithme RL model-free élargit le spectre d'application, même si les performances absolues restent à confirmer hors des conditions de laboratoire présentées dans le papier. Le peg-in-hole est un benchmark historique en manipulation robotique, standardisé notamment dans le cadre des compétitions NIST Assembly Task Board. Des approches concurrentes combinent typiquement vision et retour d'effort (force-torque control), ou s'appuient sur des politiques d'imitation comme les VLA (Vision-Language-Action models) de Physical Intelligence (Pi-0) ou les travaux de simulation massive de NVIDIA Isaac Lab. S2P se positionne dans un espace différent, celui du RL visuel pur avec décomposition de primitives, une direction que des équipes comme celles de DeepMind et CMU explorent également. Les prochaines étapes naturelles concernent la robustesse aux variations d'éclairage, aux tolérances mécaniques réelles, et la généralisation à des géométries non vues en entraînement.

UEImpact indirect : les équipes R&D et intégrateurs industriels européens travaillant sur l'assemblage automatisé peuvent intégrer S2P dans leur veille sur le RL visuel pour la manipulation fine, sans déploiement ni acteur européen directement impliqué.

RecherchePaper
1 source