Des priors de diffusion avec contraintes pour une locom…

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

56

1arXiv cs.RO

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

Une équipe de chercheurs a publié le 25 juin 2026 sur arXiv (2606.25179) une étude portant sur la conception de contrôleurs de locomotion universels pour robots quadrupèdes, capables de s'adapter à plusieurs morphologies de robots différents tout en intégrant de la perception en temps réel. Les auteurs s'appuient sur le cadre MorAL (Morphology-Aware Locomotion), qu'ils étendent en comparant trois architectures : un contrôleur aveugle (baseline sans perception), MorAL+ (perception intégrée uniquement dans le critique du réseau, pas dans l'acteur), et PPAL (acteur-critique entièrement perceptif). Les politiques ont été évaluées en simulation sur terrains plats et accidentés, puis déployées sur du matériel réel via le robot ANYmal d'ANYbotics. Résultat principal : MorAL+ surpasse les deux autres configurations en robustesse et en cohérence de suivi de trajectoire, notamment parce qu'un acteur entièrement perceptif se révèle sensible au bruit de capteur, tandis qu'un acteur aveugle manque de conscience du terrain. Ce résultat va à contre-courant d'une intuition répandue dans la communauté robotique : intégrer plus de perception n'est pas toujours meilleur. Le fait que la perception placée uniquement dans le critique (et non dans l'acteur) améliore la robustesse sans fragiliser la politique face au bruit de capteur est une contribution architecturale concrète. Pour les intégrateurs industriels qui déploient des quadrupèdes en environnements non structurés (entrepôts, sites industriels, inspection d'infrastructures), cette distinction a des implications directes sur la conception des pipelines de contrôle. Elle indique aussi que le problème du sim-to-real pour la locomotion quadrupède n'est pas uniquement une question de quantité de données perceptives, mais de leur positionnement dans l'architecture d'apprentissage par renforcement. ANYmal, développé par ANYbotics (spin-off de l'ETH Zurich), est l'un des robots quadrupèdes les plus utilisés en recherche académique et en déploiements industriels pilotes, aux côtés de Spot de Boston Dynamics et des modèles Unitree (Go2, B2) qui dominent le segment prix bas. Le cadre MorAL, sur lequel s'appuie ce travail, visait déjà à entraîner des politiques transférables entre morphologies de robots différents, un problème ouvert dans la course à la généralisation inter-robots (cross-embodiment). Ce papier reste pour l'instant un preprint académique sans déploiement industriel annoncé ; les suites naturelles seraient une validation sur un ensemble plus large de morphologies quadrupèdes et des tests en conditions réelles prolongées, en dehors du cadre contrôlé d'un labo.

UEANYbotics étant un spin-off suisse de l'ETH Zurich, les conclusions architecturales sur MorAL+ intéressent directement les intégrateurs européens qui déploient des quadrupèdes en inspection industrielle ou en environnements non structurés.

RecherchePaper

1 source

Entraînement et évaluation des politiques de diffusion avec de longs contextes

44

2arXiv cs.RO

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

RecherchePaper

1 source

Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes

41

3arXiv cs.RO

Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes

Une équipe de chercheurs a publié sur arXiv (preprint 2605.07988) une étude empirique évaluant les bénéfices d'une colonne vertébrale motorisée pour la locomotion agile de robots quadrupèdes. Les expériences ont été conduites en simulation MuJoCo sur le Silver Badger de MAB Robotics, startup polonaise spécialisée dans les robots à pattes. La colonne vertébrale testée dispose d'un seul degré de liberté (1-DOF) dans le plan sagittal, permettant flexion et extension verticale du tronc. Cinq scénarios ont été évalués : course à haute vitesse, montée de marches, franchissement de pentes à fort angle, saut d'obstacles et progression dans des passages étroits. Les résultats indiquent que le robot équipé du spine motorisé franchit des marches plus hautes, des pentes plus raides, des obstacles plus élevés et des passages plus étroits que sa version à tronc rigide, sans que des métriques précises (angles, hauteurs, vitesses) soient communiquées dans le résumé. Ces résultats confirment empiriquement un principe observé chez les animaux mais peu exploré en robotique commerciale : la mobilité du tronc étend les capacités locomotrices sans nécessiter une refonte architecturale majeure. Pour les intégrateurs et développeurs de plateformes mobiles, l'ajout d'un seul actionneur sur le tronc pourrait élargir le domaine d'opérabilité dans des environnements complexes, entrepôts, chantiers ou milieux semi-naturels. La limite majeure reste le cadre purement simulé de l'étude : les gains rapportés n'ont pas été validés sur matériel réel, et le sim-to-real gap constitue un obstacle classique pour ce type de modification mécanique, notamment en ce qui concerne les dynamiques de contact sol/pattes. La question du spine flexible en quadrupédie robotique n'est pas nouvelle, les études sur les félins et guépards ayant démontré que la flexion du tronc allonge l'enjambée et améliore l'efficacité énergétique. En pratique, des plateformes comme ANYmal d'ANYbotics (Suisse) ou Spot de Boston Dynamics ont opté pour des troncs rigides, privilégiant la simplicité de contrôle et la robustesse mécanique. MAB Robotics, entreprise polonaise de l'écosystème UE, positionne le Silver Badger comme plateforme de recherche ouverte à ce type d'expérimentation. Les suites logiques incluent une validation sur robot physique, un spine multi-DOF, et une mesure de l'impact sur la consommation énergétique, paramètre absent de l'étude actuelle.

UEMAB Robotics (Pologne, UE) fournit la plateforme Silver Badger pour cette étude, confirmant son rôle de vecteur de recherche ouverte dans l'écosystème robotique européen des quadrupèdes, aux côtés d'ANYbotics (Suisse).

RecherchePaper

1 source

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

37

4arXiv cs.RO

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper

1 source

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

À lire aussi

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique