Aller au contenu principal
LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche
RecherchearXiv cs.RO1h

LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie LoComposition (arXiv:2606.15896, juin 2026), une méthode d'apprentissage par renforcement pour la locomotion quadrupède qui décompose les objectifs en mécanismes distincts plutôt que de les fusionner dans une fonction de récompense monolithique. Le système confie à des composants séparés ce que les approches classiques entremêlent : les récompenses gèrent la spécification de tâche, des contraintes encadrent les limites opérationnelles, la minimisation d'énergie pilote les préférences de démarche, et la perception extéroceptive (cartographie d'élévation LiDAR) adapte la consommation énergétique à la difficulté du terrain. Par rapport à une baseline conventionnelle à récompense complexe, LoComposition atteint des performances comparables de franchissement de terrain tout en réduisant le coût de transport de 56 % et les violations de limites opérationnelles de 96 %. La politique entraînée en simulation se transfère ensuite en zero-shot sur un robot quadrupède Unitree Go2 physique sans recalibration manuelle.

L'apport central est la suppression des gait priors explicites, c'est-à-dire les cibles de temps de vol, de nombre de contacts au sol et de clairance des pieds, au profit de comportements de démarche émergents. Pour les équipes d'intégration, cela signifie moins d'ingénierie manuelle des récompenses et une meilleure généralisation à des terrains non vus en entraînement. La réduction de 56 % du coût de transport est directement pertinente pour les déploiements sur batteries à autonomie prolongée, scénario typique de l'inspection industrielle ou de la surveillance de site. L'analyse par ablation des chercheurs, montrant que retirer chaque composant expose un mode d'échec distinct, valide la cohérence de l'architecture et confirme que les gains ne sont pas le résultat d'un ajustement opportuniste des hyperparamètres.

Cette contribution s'inscrit dans la dynamique de locomotion quadrupède par renforcement dominée depuis 2020 par le Robotics Systems Lab de l'ETH Zurich (ANYmal, séries RMA et Parkour) et Carnegie Mellon University. Le Unitree Go2, plateforme commerciale accessible, est devenu un banc d'essai standard pour la recherche académique, ce qui facilite la reproductibilité des résultats. Du côté industriel, ANYbotics et Boston Dynamics (Spot) développent des solutions propriétaires sur des trajectoires similaires mais ne publient pas leurs méthodes. LoComposition reste à ce stade une contribution de recherche fondamentale : aucun pilote industriel ni timeline de commercialisation n'est annoncé dans le preprint.

À lire aussi

Locomotion économe en énergie pour quadrupèdes à pieds souples
1arXiv cs.RO 

Locomotion économe en énergie pour quadrupèdes à pieds souples

Une équipe de chercheurs publie sur arXiv (preprint 2605.14411) une étude sur l'effet de la compliance des pieds sur l'efficacité énergétique des robots quadrupèdes. Plutôt que d'utiliser des pieds rigides, approche dominante qui simplifie le contrôle mais limite la récupération d'énergie élastique et l'absorption des impacts, les chercheurs ont intégré des pieds à ressort de rigidité variable dans un contrôleur de locomotion par apprentissage par renforcement (RL). Huit politiques ont été entraînées en simulation, chacune correspondant à l'une des huit valeurs de rigidité testées, puis évaluées croisées sur un quadrupède physique développé pour l'occasion. Résultat principal : pour une rigidité intermédiaire, la consommation d'énergie mécanique par mètre parcouru est réduite d'environ 17% par rapport aux ressorts très rigides ou très souples, avec des tendances cohérentes en simulation et sur le robot réel. Ce gain de 17% est notable dans le contexte de la locomotion quadrupède autonome, où l'autonomie énergétique reste un verrou majeur pour les déploiements terrain. Les pieds compliants permettent de stocker puis restituer de l'énergie élastique à chaque cycle de pas, un principe analogue aux tendons dans la biomécanique animale, réduisant le travail net à fournir par les actionneurs. L'étude confirme l'existence d'un optimum de compliance : trop de rigidité annule l'absorption d'impact, trop de souplesse dégrade stabilité et contrôlabilité. Ce résultat valide l'hypothèse que le co-design mécanique et algorithmique peut surpasser les approches purement algorithmiques sur le critère d'efficacité, sans nécessiter d'actionneurs plus puissants ni de refonte de l'architecture de contrôle. Historiquement, les quadrupèdes commerciaux à pieds rigides, tels que Spot de Boston Dynamics, ANYmal d'ANYbotics ou le B2 d'Unitree, ont privilégié cette approche pour simplifier la modélisation des contacts et garantir la stabilité. Des travaux antérieurs sur les actionneurs élastiques en série (SEA), notamment au MIT et au DLR, avaient exploré la compliance côté actionneur, mais rarement au niveau de l'interface pied-sol de manière aussi isolée et quantifiée. Cette étude ouvre la voie à une exploration systématique du co-design compliance/contrôle RL sur terrains variés et irréguliers, domaine où les gains potentiels pourraient être encore plus importants qu'en marche sur surface plane.

RecherchePaper
1 source
Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente
2arXiv cs.RO 

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

Une équipe de chercheurs publie Diff-CAST (Diffusion-guided Constraint-Aware Symmetric Tracking), un nouveau cadre de prior de mouvement pour la locomotion quadrupède biomimétique, déposé le 12 mai 2026 en preprint sur arXiv (2605.08804). La méthode substitue les modèles de diffusion aux discriminateurs GAN classiquement utilisés dans les pipelines combinant apprentissage par renforcement (RL) et imitation learning. L'architecture intègre deux composants : le SACC (Symmetric Augmented Command Conditioning), conçu pour corriger les dérives involontaires de cap lors de manœuvres complexes hors distribution, et un bloc de RL contraint (Constrained RL) chargé de garantir la conformité aux limites dynamiques des actionneurs lors du passage sur matériel physique, dans un schéma global baptisé Sim2Re. Le verrou que Diff-CAST cherche à lever est documenté dans la communauté : à mesure que les jeux de données de mouvement grossissent et se diversifient (sources multiples, données non curées), les discriminateurs GAN s'effondrent en mode collapse, incapables de modéliser des distributions multi-modales complexes. Les modèles de diffusion, dont la supériorité sur ce point est établie en génération d'images et de trajectoires, constituent une alternative logique. Si les expériences sur quadrupède réel confirment les résultats annoncés, cela ouvrirait la voie à un scaling massif de datasets hétérogènes sans perte de diversité comportementale, notamment pour des transitions fluides entre marche, trot et récupération. Il convient cependant de souligner que le papier est un preprint non évalué par les pairs, et que le gap sim-to-real reste à valider indépendamment. La locomotion quadrupède à base de RL est un domaine consolidé depuis les travaux d'ANYbotics sur ANYmal et du laboratoire Robotic Systems Lab d'ETH Zurich, prolongés par des équipes de Carnegie Mellon et Berkeley. Unitree (Go2, H1) et Boston Dynamics industrialisent ces méthodes, tandis que le secteur académique cherche à réduire la dépendance aux données de capture de mouvement coûteuses au profit de datasets non curés. Diff-CAST s'inscrit précisément dans cette tendance. Les prochaines étapes attendues sont la publication du code source, des benchmarks standardisés sur des plateformes comme Isaac Lab ou legged gym, et une validation multi-robots au-delà du quadrupède utilisé dans les expériences reportées.

RecherchePaper
1 source
Robot Squid Game : locomotion quadrupède pour traverser des tunnels étroits
3arXiv cs.RO 

Robot Squid Game : locomotion quadrupède pour traverser des tunnels étroits

Des chercheurs publient sur arXiv (réf. 2605.13665, mai 2026) un framework d'apprentissage par renforcement (RL) permettant à des robots quadrupèdes de traverser de manière autonome des environnements 3D confinés : tunnels, grottes et structures effondrées, avec des applications ciblées en recherche et sauvetage et en inspection d'infrastructures. La méthode repose sur deux mécanismes complémentaires : une génération procédurale de géométries de tunnels pendant l'entraînement, qui expose le robot à une grande diversité de configurations spatiales, et un paradigme enseignant-étudiant (teacher-student) de distillation de politiques. Des politiques expertes spécialisées sur des géométries spécifiques transfèrent leur connaissance à une politique étudiante unifiée, évitant ainsi le reward shaping complexe habituellement requis dans l'entraînement end-to-end. Les résultats sont validés à la fois en simulation et en expériences physiques réelles sur robot quadrupède. L'enjeu est concret : les approches classiques de locomotion quadrupède échouent régulièrement face à des espaces confinés non structurés, en raison d'allures (gaits) rigides et d'hypothèses environnementales trop simplistes. En décomposant une tâche complexe en sous-tâches apprenables indépendamment, le framework réduit la difficulté d'optimisation et améliore la généralisabilité, un résultat que les approches monolithiques end-to-end peinent à atteindre sur des géométries variées. Pour un intégrateur en sécurité civile ou en inspection de réseaux souterrains, ce type de robustesse comportementale dans des tunnels aux contraintes spatiales variables est un pas mesurable vers des déploiements autonomes réels, au-delà des démonstrations sur terrains balisés. La locomotion quadrupède en milieu confiné a été un axe central du DARPA Subterranean Challenge (2018-2021), compétition qui a exposé les limites des approches heuristiques dans des souterrains non cartographiés, avec des équipes impliquant Boston Dynamics, CMU et ANYbotics. Le paradigme teacher-student appliqué à la locomotion RL s'inscrit dans une tendance active initiée notamment par les travaux d'ETH Zurich sur ANYmal et les recherches de DeepMind sur les locomoteurs polyvalents. Ce travail reste une preprint arXiv non encore évaluée par les pairs, sans partenaire industriel annoncé ni calendrier de déploiement mentionné : les résultats présentés sont encourageants mais restent à confirmer sur des plateformes plus variées et des scénarios de terrain réels.

RecherchePaper
1 source
Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot
4arXiv cs.RO 

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Une équipe de chercheurs propose dans un article publié sur arXiv (2606.00459) un contrôleur proportionnel-dérivé (PD) adaptatif capable de limiter l'énergie mécanique d'un robot humanoïde lors d'interactions physiques avec des humains. Le système agit sur les deux composantes énergétiques du robot, énergie cinétique et énergie potentielle, sans nécessiter de capteurs de force externes ni d'estimation de couple articulaire. Les gains du contrôleur sont paramétrables : l'opérateur peut définir précisément le seuil d'énergie limite et la "sharpness", c'est-à-dire la brutalité de la transition entre comportement nominal et comportement contraint. Le contrôleur a été validé sur le robot humanoïde TALOS de PAL Robotics (1,75 m, 95 kg, 32 degrés de liberté), d'abord en simulation, puis sur le hardware réel, confirmant le comportement souple attendu et le respect des limites énergétiques définies. L'intérêt de cette approche réside dans son applicabilité large : la majorité des robots industriels et de service ne disposent pas de capteurs de force six axes ou de couple articulaire, conditions requises par les approches classiques de contrôle d'impédance ou de couple. Un contrôleur basé sur l'énergie, implémentable avec des encodeurs standards et un modèle cinématique, ouvre la voie à une couche de sécurité pHRI sur des plateformes à bas coût ou à architecture fermée. Les auteurs fournissent également une preuve formelle de stabilité avec une condition explicite, ce qui distingue cette contribution des schémas énergétiques antérieurs souvent sans garanties théoriques complètes, un point critique pour toute certification industrielle. PAL Robotics, entreprise barcelonaise spécialisée dans les robots de service et de recherche, fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens, notamment dans le cadre de projets H2020 et Horizon Europe. Le contrôle compliant pour la pHRI est un champ en compétition directe avec les approches à apprentissage par renforcement (RL) et les contrôleurs de type whole-body control (WBC) développés par des équipes comme le DLR, ETH Zurich ou Boston Dynamics. Ce travail s'inscrit dans une tendance plus large visant à sécuriser les humanoïdes sans alourdir leur architecture sensorielle, une contrainte clé pour le déploiement en milieu industriel partagé. La prochaine étape logique serait une validation en scénario de collaboration réelle, avec des humains non prévenus, pour éprouver la robustesse du seuil énergétique face à des contacts imprévus.

UEPAL Robotics (Barcelone) fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens financés par H2020/Horizon Europe ; cette couche de sécurité pHRI sans capteurs de force pourrait être directement intégrée dans les projets de collaboration humain-robot en cours au sein de l'écosystème de recherche européen.

RecherchePaper
1 source