RecherchearXiv cs.RO 16 juin 2026

LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie LoComposition (arXiv:2606.15896, juin 2026), une méthode d'apprentissage par renforcement pour la locomotion quadrupède qui décompose les objectifs en mécanismes distincts plutôt que de les fusionner dans une fonction de récompense monolithique. Le système confie à des composants séparés ce que les approches classiques entremêlent : les récompenses gèrent la spécification de tâche, des contraintes encadrent les limites opérationnelles, la minimisation d'énergie pilote les préférences de démarche, et la perception extéroceptive (cartographie d'élévation LiDAR) adapte la consommation énergétique à la difficulté du terrain. Par rapport à une baseline conventionnelle à récompense complexe, LoComposition atteint des performances comparables de franchissement de terrain tout en réduisant le coût de transport de 56 % et les violations de limites opérationnelles de 96 %. La politique entraînée en simulation se transfère ensuite en zero-shot sur un robot quadrupède Unitree Go2 physique sans recalibration manuelle.

L'apport central est la suppression des gait priors explicites, c'est-à-dire les cibles de temps de vol, de nombre de contacts au sol et de clairance des pieds, au profit de comportements de démarche émergents. Pour les équipes d'intégration, cela signifie moins d'ingénierie manuelle des récompenses et une meilleure généralisation à des terrains non vus en entraînement. La réduction de 56 % du coût de transport est directement pertinente pour les déploiements sur batteries à autonomie prolongée, scénario typique de l'inspection industrielle ou de la surveillance de site. L'analyse par ablation des chercheurs, montrant que retirer chaque composant expose un mode d'échec distinct, valide la cohérence de l'architecture et confirme que les gains ne sont pas le résultat d'un ajustement opportuniste des hyperparamètres.

Cette contribution s'inscrit dans la dynamique de locomotion quadrupède par renforcement dominée depuis 2020 par le Robotics Systems Lab de l'ETH Zurich (ANYmal, séries RMA et Parkour) et Carnegie Mellon University. Le Unitree Go2, plateforme commerciale accessible, est devenu un banc d'essai standard pour la recherche académique, ce qui facilite la reproductibilité des résultats. Du côté industriel, ANYbotics et Boston Dynamics (Spot) développent des solutions propriétaires sur des trajectoires similaires mais ne publient pas leurs méthodes. LoComposition reste à ce stade une contribution de recherche fondamentale : aucun pilote industriel ni timeline de commercialisation n'est annoncé dans le preprint.

Dans nos dossiers

Boston Dynamics Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

Locomotion économe en énergie pour quadrupèdes à pieds souples

Une équipe de chercheurs publie sur arXiv (preprint 2605.14411) une étude sur l'effet de la compliance des pieds sur l'efficacité énergétique des robots quadrupèdes. Plutôt que d'utiliser des pieds rigides, approche dominante qui simplifie le contrôle mais limite la récupération d'énergie élastique et l'absorption des impacts, les chercheurs ont intégré des pieds à ressort de rigidité variable dans un contrôleur de locomotion par apprentissage par renforcement (RL). Huit politiques ont été entraînées en simulation, chacune correspondant à l'une des huit valeurs de rigidité testées, puis évaluées croisées sur un quadrupède physique développé pour l'occasion. Résultat principal : pour une rigidité intermédiaire, la consommation d'énergie mécanique par mètre parcouru est réduite d'environ 17% par rapport aux ressorts très rigides ou très souples, avec des tendances cohérentes en simulation et sur le robot réel. Ce gain de 17% est notable dans le contexte de la locomotion quadrupède autonome, où l'autonomie énergétique reste un verrou majeur pour les déploiements terrain. Les pieds compliants permettent de stocker puis restituer de l'énergie élastique à chaque cycle de pas, un principe analogue aux tendons dans la biomécanique animale, réduisant le travail net à fournir par les actionneurs. L'étude confirme l'existence d'un optimum de compliance : trop de rigidité annule l'absorption d'impact, trop de souplesse dégrade stabilité et contrôlabilité. Ce résultat valide l'hypothèse que le co-design mécanique et algorithmique peut surpasser les approches purement algorithmiques sur le critère d'efficacité, sans nécessiter d'actionneurs plus puissants ni de refonte de l'architecture de contrôle. Historiquement, les quadrupèdes commerciaux à pieds rigides, tels que Spot de Boston Dynamics, ANYmal d'ANYbotics ou le B2 d'Unitree, ont privilégié cette approche pour simplifier la modélisation des contacts et garantir la stabilité. Des travaux antérieurs sur les actionneurs élastiques en série (SEA), notamment au MIT et au DLR, avaient exploré la compliance côté actionneur, mais rarement au niveau de l'interface pied-sol de manière aussi isolée et quantifiée. Cette étude ouvre la voie à une exploration systématique du co-design compliance/contrôle RL sur terrains variés et irréguliers, domaine où les gains potentiels pourraient être encore plus importants qu'en marche sur surface plane.

RecherchePaper

1 source

2arXiv cs.RO

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

Une équipe de chercheurs a publié le 25 juin 2026 sur arXiv (2606.25179) une étude portant sur la conception de contrôleurs de locomotion universels pour robots quadrupèdes, capables de s'adapter à plusieurs morphologies de robots différents tout en intégrant de la perception en temps réel. Les auteurs s'appuient sur le cadre MorAL (Morphology-Aware Locomotion), qu'ils étendent en comparant trois architectures : un contrôleur aveugle (baseline sans perception), MorAL+ (perception intégrée uniquement dans le critique du réseau, pas dans l'acteur), et PPAL (acteur-critique entièrement perceptif). Les politiques ont été évaluées en simulation sur terrains plats et accidentés, puis déployées sur du matériel réel via le robot ANYmal d'ANYbotics. Résultat principal : MorAL+ surpasse les deux autres configurations en robustesse et en cohérence de suivi de trajectoire, notamment parce qu'un acteur entièrement perceptif se révèle sensible au bruit de capteur, tandis qu'un acteur aveugle manque de conscience du terrain. Ce résultat va à contre-courant d'une intuition répandue dans la communauté robotique : intégrer plus de perception n'est pas toujours meilleur. Le fait que la perception placée uniquement dans le critique (et non dans l'acteur) améliore la robustesse sans fragiliser la politique face au bruit de capteur est une contribution architecturale concrète. Pour les intégrateurs industriels qui déploient des quadrupèdes en environnements non structurés (entrepôts, sites industriels, inspection d'infrastructures), cette distinction a des implications directes sur la conception des pipelines de contrôle. Elle indique aussi que le problème du sim-to-real pour la locomotion quadrupède n'est pas uniquement une question de quantité de données perceptives, mais de leur positionnement dans l'architecture d'apprentissage par renforcement. ANYmal, développé par ANYbotics (spin-off de l'ETH Zurich), est l'un des robots quadrupèdes les plus utilisés en recherche académique et en déploiements industriels pilotes, aux côtés de Spot de Boston Dynamics et des modèles Unitree (Go2, B2) qui dominent le segment prix bas. Le cadre MorAL, sur lequel s'appuie ce travail, visait déjà à entraîner des politiques transférables entre morphologies de robots différents, un problème ouvert dans la course à la généralisation inter-robots (cross-embodiment). Ce papier reste pour l'instant un preprint académique sans déploiement industriel annoncé ; les suites naturelles seraient une validation sur un ensemble plus large de morphologies quadrupèdes et des tests en conditions réelles prolongées, en dehors du cadre contrôlé d'un labo.

UEANYbotics étant un spin-off suisse de l'ETH Zurich, les conclusions architecturales sur MorAL+ intéressent directement les intégrateurs européens qui déploient des quadrupèdes en inspection industrielle ou en environnements non structurés.

RecherchePaper

1 source

3arXiv cs.RO

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

Une équipe de chercheurs publie Diff-CAST (Diffusion-guided Constraint-Aware Symmetric Tracking), un nouveau cadre de prior de mouvement pour la locomotion quadrupède biomimétique, déposé le 12 mai 2026 en preprint sur arXiv (2605.08804). La méthode substitue les modèles de diffusion aux discriminateurs GAN classiquement utilisés dans les pipelines combinant apprentissage par renforcement (RL) et imitation learning. L'architecture intègre deux composants : le SACC (Symmetric Augmented Command Conditioning), conçu pour corriger les dérives involontaires de cap lors de manœuvres complexes hors distribution, et un bloc de RL contraint (Constrained RL) chargé de garantir la conformité aux limites dynamiques des actionneurs lors du passage sur matériel physique, dans un schéma global baptisé Sim2Re. Le verrou que Diff-CAST cherche à lever est documenté dans la communauté : à mesure que les jeux de données de mouvement grossissent et se diversifient (sources multiples, données non curées), les discriminateurs GAN s'effondrent en mode collapse, incapables de modéliser des distributions multi-modales complexes. Les modèles de diffusion, dont la supériorité sur ce point est établie en génération d'images et de trajectoires, constituent une alternative logique. Si les expériences sur quadrupède réel confirment les résultats annoncés, cela ouvrirait la voie à un scaling massif de datasets hétérogènes sans perte de diversité comportementale, notamment pour des transitions fluides entre marche, trot et récupération. Il convient cependant de souligner que le papier est un preprint non évalué par les pairs, et que le gap sim-to-real reste à valider indépendamment. La locomotion quadrupède à base de RL est un domaine consolidé depuis les travaux d'ANYbotics sur ANYmal et du laboratoire Robotic Systems Lab d'ETH Zurich, prolongés par des équipes de Carnegie Mellon et Berkeley. Unitree (Go2, H1) et Boston Dynamics industrialisent ces méthodes, tandis que le secteur académique cherche à réduire la dépendance aux données de capture de mouvement coûteuses au profit de datasets non curés. Diff-CAST s'inscrit précisément dans cette tendance. Les prochaines étapes attendues sont la publication du code source, des benchmarks standardisés sur des plateformes comme Isaac Lab ou legged gym, et une validation multi-robots au-delà du quadrupède utilisé dans les expériences reportées.

RecherchePaper

1 source

4arXiv cs.RO

Locomotion agile et perceptive multi-compétences pour robots quadrupèdes en conditions réelles

Des chercheurs présentent APT-RL (Action Pretrained Transformer-based Reinforcement Learning), un framework unifié permettant à un robot quadrupède de franchir des terrains complexes en n'utilisant que ses capteurs et son calcul embarqués, sans dépendre d'une infrastructure externe. La méthode génère d'abord des jeux de données de mouvement 2D à grande échelle via optimisation de trajectoires sur une dynamique simplifiée, ce qui permet d'entraîner des compétences de locomotion variées et réutilisables. Ces compétences servent ensuite de base solide pour apprendre des tâches plus complexes en 3D, avec transition autonome entre différentes allures. Lors des tests en conditions réelles, le robot a exécuté des manœuvres agiles à travers des obstacles intérieurs et extérieurs, y compris des sauts en descente dynamiques atteignant une vitesse de pointe instantanée de 6 mètres par seconde. Une seule politique embarquée lui a permis de franchir escaliers, haies, pierres de gué, trous et branches tombées au sol, sans changer de modèle selon le type d'obstacle. L'intérêt de ce travail réside dans sa capacité à combiner plusieurs compétences motrices en un seul système embarqué et autonome, un point de friction connu dans la robotique quadrupède où la plupart des démonstrations reposent encore sur des politiques spécialisées par terrain ou sur une assistance en calcul déporté. En s'appuyant uniquement sur la perception et le calcul embarqués, APT-RL s'attaque directement à l'écart classique entre simulation et réalité, tout en montrant que des priors de mouvement générés à moindre coût en 2D peuvent se généraliser efficacement à des environnements 3D non structurés. Pour les intégrateurs travaillant sur l'inspection industrielle, la robotique de terrain ou les interventions en environnement accidenté, cela représente une piste concrète vers des robots capables de gérer la diversité des obstacles réels sans reconfiguration manuelle entre chaque scénario. Ce travail s'inscrit dans la lignée des recherches récentes en apprentissage par renforcement pour la locomotion des robots à pattes, un domaine où des plateformes comme Unitree Go2, Boston Dynamics Spot ou ANYbotics ANYmal servent de référence pour les capacités tout-terrain. Publié comme preprint sur arXiv, l'article ne précise ni laboratoire porteur ni calendrier de déploiement commercial : il s'agit à ce stade d'une contribution de recherche, sans indication de produit shippé ni de pilote industriel annoncé.

RecherchePaper

1 source