Aller au contenu principal
Contrôle Prédictif Non Linéaire Multi-Fréquences pour la Locomotion Bipède Appuyée au Mur de Robots Quadrupèdes
RecherchearXiv cs.RO16min

Contrôle Prédictif Non Linéaire Multi-Fréquences pour la Locomotion Bipède Appuyée au Mur de Robots Quadrupèdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Cette étude, publiée sur arXiv le 1er juillet 2607 (arXiv:2607.01574), présente un nouveau cadre de contrôle baptisé MR-NMPC (commande prédictive non linéaire multi-cadence) permettant à un robot quadrupède d'adopter une locomotion bipède partiellement assistée par un mur, dans des environnements confinés. Le système repose sur deux niveaux : en haut, le MR-NMPC planifie simultanément les points de contact discrets et les trajectoires continues du centre de masse et de l'orientation du robot, à partir d'un modèle dynamique de corps rigide unique (SRB) ; en bas, un contrôleur de corps complet (WBC) non linéaire, basé sur des contraintes virtuelles et un programme quadratique, traduit ces références en commandes moteur tout en respectant la dynamique complète du système. Les auteurs ont validé leur approche exclusivement par simulation numérique, sur un robot quadrupède Unitree A1, en terrain accidenté et soumis à des perturbations externes. Résultat chiffré : le MR-NMPC atteint un taux de réussite 2,9 fois supérieur à celui d'un MPC classique combiné à un placement de pied heuristique, notamment à haute vitesse sur terrain irrégulier.

L'intérêt pratique dépasse la prouesse académique : faire tenir un quadrupède en appui partiel sur un mur pour libérer ou stabiliser ses pattes ouvre la voie à des manœuvres dans des couloirs étroits, des échafaudages ou des zones sinistrées, là où la locomotion quadrupède classique manque de portée verticale. Cela confirme aussi qu'une planification conjointe des contacts et de la trajectoire, plutôt qu'une heuristique de pose de pied, réduit nettement les échecs dynamiques en conditions difficiles, un argument technique plus qu'une démonstration marketing.

Le travail s'inscrit dans la lignée des recherches sur le contrôle prédictif des robots à pattes, où Unitree A1 sert de plateforme de référence académique peu coûteuse. Contrairement aux annonces produits d'acteurs comme Boston Dynamics ou ANYbotics, il s'agit ici d'une contribution de recherche en simulation, sans validation matérielle réelle annoncée : la prochaine étape logique serait un déploiement physique sur robot pour confirmer la robustesse observée in silico.

À lire aussi

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes
1arXiv cs.RO 

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

Une équipe de chercheurs a publié le 25 juin 2026 sur arXiv (2606.25179) une étude portant sur la conception de contrôleurs de locomotion universels pour robots quadrupèdes, capables de s'adapter à plusieurs morphologies de robots différents tout en intégrant de la perception en temps réel. Les auteurs s'appuient sur le cadre MorAL (Morphology-Aware Locomotion), qu'ils étendent en comparant trois architectures : un contrôleur aveugle (baseline sans perception), MorAL+ (perception intégrée uniquement dans le critique du réseau, pas dans l'acteur), et PPAL (acteur-critique entièrement perceptif). Les politiques ont été évaluées en simulation sur terrains plats et accidentés, puis déployées sur du matériel réel via le robot ANYmal d'ANYbotics. Résultat principal : MorAL+ surpasse les deux autres configurations en robustesse et en cohérence de suivi de trajectoire, notamment parce qu'un acteur entièrement perceptif se révèle sensible au bruit de capteur, tandis qu'un acteur aveugle manque de conscience du terrain. Ce résultat va à contre-courant d'une intuition répandue dans la communauté robotique : intégrer plus de perception n'est pas toujours meilleur. Le fait que la perception placée uniquement dans le critique (et non dans l'acteur) améliore la robustesse sans fragiliser la politique face au bruit de capteur est une contribution architecturale concrète. Pour les intégrateurs industriels qui déploient des quadrupèdes en environnements non structurés (entrepôts, sites industriels, inspection d'infrastructures), cette distinction a des implications directes sur la conception des pipelines de contrôle. Elle indique aussi que le problème du sim-to-real pour la locomotion quadrupède n'est pas uniquement une question de quantité de données perceptives, mais de leur positionnement dans l'architecture d'apprentissage par renforcement. ANYmal, développé par ANYbotics (spin-off de l'ETH Zurich), est l'un des robots quadrupèdes les plus utilisés en recherche académique et en déploiements industriels pilotes, aux côtés de Spot de Boston Dynamics et des modèles Unitree (Go2, B2) qui dominent le segment prix bas. Le cadre MorAL, sur lequel s'appuie ce travail, visait déjà à entraîner des politiques transférables entre morphologies de robots différents, un problème ouvert dans la course à la généralisation inter-robots (cross-embodiment). Ce papier reste pour l'instant un preprint académique sans déploiement industriel annoncé ; les suites naturelles seraient une validation sur un ensemble plus large de morphologies quadrupèdes et des tests en conditions réelles prolongées, en dehors du cadre contrôlé d'un labo.

UEANYbotics étant un spin-off suisse de l'ETH Zurich, les conclusions architecturales sur MorAL+ intéressent directement les intégrateurs européens qui déploient des quadrupèdes en inspection industrielle ou en environnements non structurés.

RecherchePaper
1 source
MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes
2arXiv cs.RO 

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

Des chercheurs ont publié le 26 mai 2026 sur arXiv un article présentant MuGen (Multi-Skill Generative Locomotion Controller), un framework d'apprentissage automatique visant à doter les robots humanoïdes d'une locomotion polyvalente et expressive. Le système repose sur des auto-encodeurs à quantification vectorielle (VQ-VAEs) entraînés par apprentissage par renforcement basé sur des modèles, combinés à un pipeline dit "enseignant-élève" avec distillation de politique. Le principe consiste à condenser des heures de données hétérogènes de mouvements humains en une représentation latente compacte, depuis laquelle un robot peut imiter des séquences de mouvement jamais vues à l'entraînement. À noter : l'article ne précise ni plateforme matérielle spécifique, ni métriques quantitatives concrètes (vitesse, payload, temps de cycle), ce qui est habituel pour un preprint de recherche fondamentale à ce stade. Ce qui distingue MuGen des approches classiques de locomotion humanoïde est le choix d'une représentation générative via VQ-VAE, plutôt qu'une politique spécialisée par comportement. Cette architecture permet la réutilisation de l'espace latent appris pour des tâches en aval, ouvrant la voie à un transfert de compétences sans réentraînement complet. La distillation enseignant-élève est un point structurant : la politique enseignante, puissante mais coûteuse en calcul, sert à former une politique élève légère et déployable sur matériel embarqué. Pour les intégrateurs et décideurs industriels, ce paradigme réduit le fossé sim-to-real et laisse entrevoir des robots capables d'adopter de nouveaux comportements locomoteurs à partir d'une simple séquence de référence humaine, sans fine-tuning massif. MuGen s'inscrit dans un courant de recherche actif sur l'imitation motrice pour humanoïdes, dans la lignée de travaux comme AMP (Adversarial Motion Priors, UC Berkeley), ASE ou PhysDiff. Dans l'industrie, Figure AI, Agility Robotics (Digit), Unitree et Tesla (Optimus) investissent massivement dans des pipelines similaires de whole-body control combinant motion capture et RL. L'usage de VQ-VAEs reste relativement peu exploré pour la locomotion, contrairement à son application établie en génération audio et image. Le papier étant un preprint arXiv sans révision par les pairs à ce stade, la prochaine étape déterminante sera une validation sur plateforme physique réelle avec métriques comparatives, condition sine qua non pour évaluer la portée opérationnelle de l'approche.

RecherchePaper
1 source
Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique
3arXiv cs.RO 

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper
1 source
MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique
4arXiv cs.RO 

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique

Des chercheurs présentent MAPL (Multi-Objective AI-Informed Preference Learning), un cadre d'apprentissage par renforcement pour la locomotion quadrupède qui remplace les fonctions de récompense manuelles par des préférences générées par LLM. Publié sur arXiv (réf. 2606.25398) en juin 2025, le système soumet des paires de trajectoires à un grand modèle de langage, qui les évalue selon plusieurs critères sémantiques distincts, formulés en langage naturel générique et invariants selon le terrain. Ces préférences par objectif alimentent un modèle de scoring à plusieurs têtes, dont les sorties sont agrégées en récompense scalaire pour l'optimisation de politique. Sur quatre environnements de simulation quadrupède, les auteurs rapportent des performances comparables ou supérieures à des récompenses conçues par des experts du domaine. L'intérêt de MAPL tient à sa décomposition structurée des objectifs, là où les méthodes LLM existantes se limitent à un jugement global entre comportements. En robotique industrielle, la conception de fonctions de récompense reste un goulot d'étranglement reconnu, exigeant de longues itérations entre ingénieurs RL et spécialistes métier. Substituer ce travail par des descriptions en langage naturel, réutilisables sans réécriture d'équations, réduirait le coût d'adaptation à de nouvelles tâches. La décomposition en critères distincts offre aussi une meilleure interprétabilité : il devient possible d'identifier quels objectifs sont en tension, ce qui facilite le débogage comportemental. MAPL s'inscrit dans la vague d'automatisation de la conception de récompenses via LLM, initiée notamment par EUREKA (NVIDIA, 2023), qui générait directement du code de récompense via GPT-4, et par RL-VLM-F, qui exploite des modèles vision-langage pour évaluer les comportements. La locomotion quadrupède est un benchmark standard utilisé par des projets comme ANYmal (ETH Zurich) et les plateformes Unitree. Plusieurs limites méritent d'être signalées : l'article reste un preprint non relu par les pairs, les expériences sont menées uniquement en simulation sans validation physique, et le LLM utilisé pour générer les préférences n'est pas spécifié, ce qui complique la reproductibilité. Les extensions naturelles concernent la validation sur robot réel et l'application à des morphologies plus complexes, comme les humanoïdes, où l'ingénierie de récompense est particulièrement coûteuse.

RecherchePaper
1 source