Aller au contenu principal
StairMaster : apprendre à franchir des escaliers ajourés périlleux pour robots quadrupèdes agiles
RecherchearXiv cs.RO3h

StairMaster : apprendre à franchir des escaliers ajourés périlleux pour robots quadrupèdes agiles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.25765) un système baptisé StairMaster, un cadre d'apprentissage par renforcement en trois étapes permettant à un robot quadrupède Unitree Go2 de gravir des escaliers creux avec une inclinaison jusqu'à 55 degrés en transfert zéro-shot depuis la simulation. L'architecture combine un mécanisme d'attention croisée (Cross-Attention) pour extraire des structures depuis des données de profondeur bruitées, une unité récurrente spatiale (SRU) maintenant une mémoire spatio-temporelle pour compenser les zones aveugles de perception, et un pipeline de modélisation haute-fidélité du capteur de profondeur en simulation répliquant les artefacts réels. Des récompenses de perception active guidées par waypoints 3D et des pénalités cinématiques sur les barreaux creux et les arêtes de marches assurent un placement précis des appuis.

Ce résultat s'attaque à l'un des problèmes les plus difficiles de la locomotion quadrupède en milieu industriel : les escaliers à barreaux creux exposent les pattes au risque de coincement, génèrent une densité de points de profondeur très faible et un bruit haute fréquence difficile à filtrer. Que le système tienne à 55 degrés sans ré-entraînement sur le robot réel valide deux hypothèses que le secteur testait depuis plusieurs années : la modélisation fidèle des artefacts capteurs peut combler le sim-to-real gap sur la perception de profondeur, et des politiques RL peuvent généraliser à des terrains extrêmes en zéro-shot. Pour les intégrateurs déployant des robots sur des infrastructures multi-niveaux, passerelles métalliques ou escaliers de secours, ce type de politique ouvre des scénarios jusqu'ici inaccessibles.

Le Unitree Go2 est devenu un banc d'essai académique de référence pour la locomotion RL, aux côtés de l'ANYmal d'ANYbotics et du Spot de Boston Dynamics. Des équipes d'ETH Zurich (RSL), CMU et UC Berkeley ont publié des politiques sur terrains difficiles, mais aucune ne revendiquait jusqu'ici le franchissement d'escaliers creux à cette inclinaison en zéro-shot. Les auteurs ne citent aucun partenariat industriel ni timeline de déploiement commercial : il s'agit à ce stade d'un résultat de laboratoire avec démonstration vidéo, dont la robustesse en conditions réelles à plus grande échelle reste à valider.

À lire aussi

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes
1arXiv cs.RO 

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

Une équipe de chercheurs a publié le 25 juin 2026 sur arXiv (2606.25179) une étude portant sur la conception de contrôleurs de locomotion universels pour robots quadrupèdes, capables de s'adapter à plusieurs morphologies de robots différents tout en intégrant de la perception en temps réel. Les auteurs s'appuient sur le cadre MorAL (Morphology-Aware Locomotion), qu'ils étendent en comparant trois architectures : un contrôleur aveugle (baseline sans perception), MorAL+ (perception intégrée uniquement dans le critique du réseau, pas dans l'acteur), et PPAL (acteur-critique entièrement perceptif). Les politiques ont été évaluées en simulation sur terrains plats et accidentés, puis déployées sur du matériel réel via le robot ANYmal d'ANYbotics. Résultat principal : MorAL+ surpasse les deux autres configurations en robustesse et en cohérence de suivi de trajectoire, notamment parce qu'un acteur entièrement perceptif se révèle sensible au bruit de capteur, tandis qu'un acteur aveugle manque de conscience du terrain. Ce résultat va à contre-courant d'une intuition répandue dans la communauté robotique : intégrer plus de perception n'est pas toujours meilleur. Le fait que la perception placée uniquement dans le critique (et non dans l'acteur) améliore la robustesse sans fragiliser la politique face au bruit de capteur est une contribution architecturale concrète. Pour les intégrateurs industriels qui déploient des quadrupèdes en environnements non structurés (entrepôts, sites industriels, inspection d'infrastructures), cette distinction a des implications directes sur la conception des pipelines de contrôle. Elle indique aussi que le problème du sim-to-real pour la locomotion quadrupède n'est pas uniquement une question de quantité de données perceptives, mais de leur positionnement dans l'architecture d'apprentissage par renforcement. ANYmal, développé par ANYbotics (spin-off de l'ETH Zurich), est l'un des robots quadrupèdes les plus utilisés en recherche académique et en déploiements industriels pilotes, aux côtés de Spot de Boston Dynamics et des modèles Unitree (Go2, B2) qui dominent le segment prix bas. Le cadre MorAL, sur lequel s'appuie ce travail, visait déjà à entraîner des politiques transférables entre morphologies de robots différents, un problème ouvert dans la course à la généralisation inter-robots (cross-embodiment). Ce papier reste pour l'instant un preprint académique sans déploiement industriel annoncé ; les suites naturelles seraient une validation sur un ensemble plus large de morphologies quadrupèdes et des tests en conditions réelles prolongées, en dehors du cadre contrôlé d'un labo.

UEANYbotics étant un spin-off suisse de l'ETH Zurich, les conclusions architecturales sur MorAL+ intéressent directement les intégrateurs européens qui déploient des quadrupèdes en inspection industrielle ou en environnements non structurés.

RecherchePaper
1 source
TRANS : navigation agile de robots quadrupèdes par apprentissage par renforcement sensible au terrain en milieu social
2arXiv cs.RO 

TRANS : navigation agile de robots quadrupèdes par apprentissage par renforcement sensible au terrain en milieu social

Des chercheurs ont publié TRANS (Terrain-aware Reinforcement learning for Agile Navigation under Social interactions), un cadre d'apprentissage par renforcement profond destiné à la navigation de robots quadrupèdes sur des terrains non structurés en présence d'humains. Disponible sur arXiv (référence 2602.12724v3), la contribution se décompose en trois pipelines distincts : TRANS-Loco, un modèle acteur-critique asymétrique pour la locomotion sur terrain accidenté, sans observation explicite du contact ni du relief ; TRANS-Nav, un cadre acteur-critique symétrique pour la navigation sociale, qui transforme directement les données LiDAR brutes en commandes motrices sous cinématique différentielle ; et enfin le pipeline unifié TRANS, qui fusionne ces deux modules pour supporter simultanément la conscience du terrain et les environnements peuplés de piétons. Des expériences sur matériel physique confirment un transfert sim-to-real fonctionnel. La portée de ces travaux tient à leur approche intégrée. La grande majorité des systèmes de navigation quadrupède séparent encore la planification de mouvement du contrôle de locomotion, ce qui génère des violations de contraintes de corps entier et une ignorance du terrain. Les méthodes bout-en-bout corrigent cette fragmentation mais exigent un capteur haute fréquence, coûteux et sensible au bruit. Plus significatif encore, quasi toutes les approches publiées supposent un environnement statique, rendant leur déploiement en milieu industriel ou public très limité. TRANS adresse les trois lacunes simultanément, et la validation sur robot réel, point souvent défaillant dans la littérature robotique académique, renforce la crédibilité opérationnelle de la méthode. Ce travail s'inscrit dans un domaine très actif où Boston Dynamics (Spot), ANYbotics (ANYmal), Unitree et Ghost Robotics déploient des quadrupèdes commerciaux mais peinent à combiner locomotion complexe et navigation sociale adaptative dans un seul système cohérent. Les approches concurrentes basées sur des cartes de hauteur ou des contrôleurs hiérarchiques séparés restent largement dominantes en industrie. La prochaine étape crédible serait une validation en conditions industrielles réelles (entrepôt, chantier, aéroport) et une comparaison quantitative formelle contre ces plateformes sur des parcours standardisés, pour confirmer si les gains en simulation se maintiennent face aux non-linéarités du monde physique.

RecherchePaper
1 source
Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants
3arXiv cs.RO 

Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants

Des chercheurs du groupe XDEI ont publié en juin 2026, via arXiv (2606.13049), les spécifications de Y-BotFrame, un framework open-source conçu pour transformer un robot quadrupède générique en assistant mobile autonome piloté par le langage naturel. L'architecture intègre trois modalités de perception en parallèle, microphone (commandes vocales), caméra RGB-D (vision) et LiDAR (cartographie 3D), et repose sur un grand modèle de langage (LLM) comme noyau cognitif central. Ce LLM prend en charge la compréhension de l'environnement, le raisonnement contextuel et la planification de tâches, puis convertit les instructions en langage naturel en unités d'action exécutables par le robot. Le système supprime le besoin d'une télécommande physique, remplacée par une interface voix et un retour visuel temps réel. Il s'agit pour l'instant d'une annonce académique accompagnée d'une vidéo de démonstration, pas d'un produit commercialisé. L'intérêt industriel de Y-BotFrame réside dans son architecture modulaire dite "plug-and-play" : chaque sous-système (navigation, perception, interaction) peut être remplacé ou mis à niveau indépendamment, ce qui abaisse le coût d'intégration pour des déploiements sectoriels spécifiques (inspection, logistique d'entrepôt, assistance en environnement structuré). La chaîne voix-vers-action sans contrôleur dédié réduit la barrière de qualification opérateur, un argument concret pour les déployeurs B2B. Reste que les métriques de performance concrètes, latence de la boucle LLM, robustesse en conditions dégradées, autonomie, sont absentes du résumé publié, ce qui est typique des papiers arXiv en phase préliminaire. Les robots quadrupèdes à LLM embarqué forment un segment en effervescence : Unitree (Go2, H1) et Boston Dynamics (Spot) dominent le hardware, tandis que des frameworks comme LeRobot (HuggingFace), Open-X Embodiment ou π₀ (Physical Intelligence) se disputent la couche logicielle d'apprentissage généraliste. Y-BotFrame se positionne non pas comme un modèle VLA entraîné, mais comme une couche d'orchestration système, plus proche de ROS 2 avec un LLM que d'un modèle de politique end-to-end. La prochaine étape logique pour l'équipe XDEI sera de publier des benchmarks sur un hardware cible identifié et des résultats de déploiement réel hors laboratoire.

RecherchePaper
1 source
Apprentissage par renforcement guidé pour les sauts omnidirectionnels en 3D dans les robots quadrupèdes
4arXiv cs.RO 

Apprentissage par renforcement guidé pour les sauts omnidirectionnels en 3D dans les robots quadrupèdes

Une équipe de chercheurs a publié sur arXiv (référence 2507.16481, troisième version) une méthode d'apprentissage par renforcement guidé destinée à permettre aux robots quadrupèdes d'effectuer des sauts omnidirectionnels en trois dimensions. L'approche combine des courbes de Bézier, classiquement utilisées pour la planification de trajectoires lissées, avec un modèle de mouvement rectiligne uniformément accéléré (UARM), qui encode une intuition physique du saut directement dans la boucle d'entraînement. Les résultats sont validés en simulation et sur robot réel, mais le résumé ne précise ni la plateforme matérielle utilisée ni les métriques chiffrées de performance, ce qui limite l'évaluation indépendante de la contribution. L'intérêt principal de ce travail réside dans l'adresse simultanée de deux limitations majeures des approches existantes. Les méthodes d'optimisation classiques (MPC, trajectory optimization) produisent des sauts contrôlables mais exigent une connaissance fine des paramètres du robot et du terrain, ce qui fragilise leur robustesse en conditions réelles. À l'inverse, l'apprentissage par renforcement bout-en-bout souffre d'une complexité d'échantillonnage élevée, de millions de simulations nécessaires, et d'une imprévisibilité des trajectoires qui complique la certification de sécurité, un prérequis non négociable pour les déploiements industriels. En injectant une structure physique dans la boucle d'entraînement, les auteurs visent à réduire le coût d'apprentissage tout en produisant des mouvements explicables, dont la logique peut être auditée et certifiée. Le saut dynamique pour robots quadrupèdes est un problème ouvert depuis plusieurs années, car il concentre les défis du transfert sim-to-réel : contacts impulsionnels, rigidité des actionneurs, imprécision des estimations d'état. Le Robotics Systems Lab d'ETH Zurich (ANYmal) et les équipes de l'UC Berkeley ont déjà démontré des sauts via RL pur, tandis que Boston Dynamics et Unitree intègrent ces capacités dans leurs plateformes commerciales. Ce papier s'inscrit dans la tendance des approches hybrides modèle-apprentissage, qui cherchent à concilier la robustesse du RL avec la prévisibilité des méthodes analytiques, une direction que poursuivent également des équipes européennes comme le LAAS-CNRS ou l'INRIA.

UEDes équipes européennes comme le LAAS-CNRS et l'INRIA travaillent sur des approches hybrides modèle-apprentissage similaires pour la locomotion quadrupède, ce travail s'inscrit dans un domaine de recherche où l'Europe est présente mais sans impact direct immédiat.

RecherchePaper
1 source