KYON : quadrupède semi-modulaire roues-pattes aux capac…

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

35

1arXiv cs.RO

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

Des chercheurs ont publié sur arXiv (2602.09370v2) un cadre d'apprentissage par renforcement baptisé PAPL (Phase-Aware Policy Learning), conçu pour permettre à des robots quadrupèdes de se déplacer sur une planche de skateboard. Le défi central est la nature cyclique et multi-phasée de l'activité : pousser, glisser et freiner mobilisent des objectifs de contrôle distincts et des interactions fortement dépendantes de la perception. Pour y répondre, PAPL intègre des couches FiLM (Feature-wise Linear Modulation) conditionnées par phase dans les réseaux acteur et critique de l'agent, permettant à une politique unifiée de capturer les comportements propres à chaque phase tout en partageant la connaissance générale du robot entre elles. Les évaluations en simulation valident la précision du suivi de commande, des études d'ablation quantifient la contribution de chaque composant, et les auteurs comparent l'efficacité locomotrice à des baselines pattes seules et pattes-roues. Un transfert sim-to-real est également démontré sur plateforme physique, bien que l'abstract ne précise pas le modèle de robot utilisé ni les métriques de performance obtenues. L'intérêt principal de cette approche tient à sa capacité à gérer des comportements multi-modaux au sein d'une politique unique, sans multiplier les modules spécialisés par phase. Utiliser un skateboard comme vecteur de locomotion est économique en énergie et compact, ce qui ouvre des perspectives concrètes dans des environnements industriels ou logistiques où les robots doivent couvrir de longues distances sans recharger. La démonstration du transfert simulation-réel est l'élément le plus scruté par la communauté robotique : le sim-to-real gap reste l'obstacle central à la généralisation des politiques apprises par renforcement, et chaque validation hardware crédibilise un cadre. À noter toutefois que l'abstract ne fournit aucune métrique chiffrée précise (vitesse, taux de succès, distance), ce qui limite l'évaluation indépendante des performances avant lecture du papier complet. PAPL s'inscrit dans un courant de recherche plus large visant à doter les robots à pattes de modes de mobilité hybrides ou étendus. Les couches FiLM, initialement développées pour le raisonnement visuel conditionné en apprentissage automatique, trouvent ici une application originale dans le contrôle moteur cyclique. Sur le plan concurrentiel, les plateformes pattes-roues comme l'ANYmal WE d'ANYbotics ou les variantes hybrides de Unitree explorent une voie différente : l'intégration des roues y est mécanique, non comportementale. L'approche PAPL est donc structurellement distincte et potentiellement complémentaire à ces architectures. Ce travail reste à ce stade un preprint arXiv sans déploiement commercial annoncé ; les suites logiques seraient une validation sur plateforme standardisée et une soumission en conférence majeure comme ICRA ou IROS 2026.

RecherchePaper

1 source

StairMaster : apprendre à franchir des escaliers ajourés périlleux pour robots quadrupèdes agiles

44

2arXiv cs.RO

StairMaster : apprendre à franchir des escaliers ajourés périlleux pour robots quadrupèdes agiles

Des chercheurs ont publié sur arXiv (2606.25765) un système baptisé StairMaster, un cadre d'apprentissage par renforcement en trois étapes permettant à un robot quadrupède Unitree Go2 de gravir des escaliers creux avec une inclinaison jusqu'à 55 degrés en transfert zéro-shot depuis la simulation. L'architecture combine un mécanisme d'attention croisée (Cross-Attention) pour extraire des structures depuis des données de profondeur bruitées, une unité récurrente spatiale (SRU) maintenant une mémoire spatio-temporelle pour compenser les zones aveugles de perception, et un pipeline de modélisation haute-fidélité du capteur de profondeur en simulation répliquant les artefacts réels. Des récompenses de perception active guidées par waypoints 3D et des pénalités cinématiques sur les barreaux creux et les arêtes de marches assurent un placement précis des appuis. Ce résultat s'attaque à l'un des problèmes les plus difficiles de la locomotion quadrupède en milieu industriel : les escaliers à barreaux creux exposent les pattes au risque de coincement, génèrent une densité de points de profondeur très faible et un bruit haute fréquence difficile à filtrer. Que le système tienne à 55 degrés sans ré-entraînement sur le robot réel valide deux hypothèses que le secteur testait depuis plusieurs années : la modélisation fidèle des artefacts capteurs peut combler le sim-to-real gap sur la perception de profondeur, et des politiques RL peuvent généraliser à des terrains extrêmes en zéro-shot. Pour les intégrateurs déployant des robots sur des infrastructures multi-niveaux, passerelles métalliques ou escaliers de secours, ce type de politique ouvre des scénarios jusqu'ici inaccessibles. Le Unitree Go2 est devenu un banc d'essai académique de référence pour la locomotion RL, aux côtés de l'ANYmal d'ANYbotics et du Spot de Boston Dynamics. Des équipes d'ETH Zurich (RSL), CMU et UC Berkeley ont publié des politiques sur terrains difficiles, mais aucune ne revendiquait jusqu'ici le franchissement d'escaliers creux à cette inclinaison en zéro-shot. Les auteurs ne citent aucun partenariat industriel ni timeline de déploiement commercial : il s'agit à ce stade d'un résultat de laboratoire avec démonstration vidéo, dont la robustesse en conditions réelles à plus grande échelle reste à valider.

RecherchePaper

1 source

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

42

3arXiv cs.RO

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper

1 source

WaveForward : un robot quadrupède omnidirectionnel sur roulettes passives

48

4arXiv cs.RO

WaveForward : un robot quadrupède omnidirectionnel sur roulettes passives

Une équipe de chercheurs présente WaveForward, un robot quadrupède à roues passives (roulettes pivotantes standard, dites casters) capable de se déplacer dans toutes les directions sans roues motorisées. Publiée le 25 juin 2026 sur arXiv (référence 2606.25299), l'étude propose une architecture de contrôle par apprentissage par renforcement de type acteur-critique asymétrique, qui exploite en phase d'entraînement des informations privilégiées sur les angles et vitesses instantanées des roulettes, informations non accessibles à l'inférence sur le robot réel. Le système génère le mouvement en actionnant les articulations des pattes pour modifier l'axe de rotation des roulettes et créer différents modes de propulsion par oscillation. Lors de tests de slalom et de changements de mode de propulsion, le COT (coût de transport) a été réduit jusqu'à 89,1 % par rapport à une locomotion purement en pas de jambes. Cette réduction de 89,1 % du COT positionne ce type de robot hybride dans une plage d'efficacité énergétique comparable aux AMR à roues conventionnels, sans les contraintes mécaniques et électroniques liées aux roues motorisées. L'usage de roulettes passives standard et bon marché ouvre une voie de conception bien moins coûteuse que les architectures rivales équipées de roues actionnées, comme l'ANYmal-W d'ETH Zurich, le Spot avec module de roues de Boston Dynamics, ou le B2-W d'Unitree. La technique d'acteur-critique asymétrique, où l'acteur opère sans les états des roulettes à l'inférence, illustre concrètement l'apport du privileged learning au sim-to-real en locomotion robotique, une direction de recherche portée depuis quelques années par les labos de l'ETH ASL et de CMU. Les robots hybrides roues-pattes constituent un champ actif depuis une décennie, avec des jalons comme le Centauro de l'IIT de Gênes, les travaux ETH sur ANYmal-W et les déploiements commerciaux récents d'Unitree (B2-W) et Ghost Robotics. L'originalité de WaveForward réside dans l'élimination du sous-système de roues motorisées, principale source de coût et de complexité électronique, en exploitant la dynamique des roulettes pivotantes via la commande des pattes seules. À ce stade, le travail reste une démonstration académique : aucun déploiement industriel ni partenaire commercial n'est mentionné. Les prochaines étapes logiques incluent des tests sur terrains non structurés et une évaluation de robustesse face aux irrégularités de surface, conditions où les roulettes passives montrent typiquement leurs limites face à des roues actionnées.

UEETH Zurich (ANYmal-W) et l'IIT de Gênes (Centauro) sont cités comme références de l'état de l'art, mais l'équipe WaveForward n'est pas identifiée comme européenne ; l'approche roulettes passives bon marché reste un signal indirect pour les équipes R&D EU sur les robots hybrides roues-pattes.

RecherchePaper

1 source

KYON : quadrupède semi-modulaire roues-pattes aux capacités bimanuelles agiles

À lire aussi

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

StairMaster : apprendre à franchir des escaliers ajourés périlleux pour robots quadrupèdes agiles

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

WaveForward : un robot quadrupède omnidirectionnel sur roulettes passives