Aller au contenu principal
RecherchearXiv cs.RO1h

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus.

Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé.

Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

Impact France/UE

Travail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

À lire aussi

HeLoM : apprentissage hiérarchique pour la locomotion et la manipulation corps entier par un robot hexapode
1arXiv cs.RO 

HeLoM : apprentissage hiérarchique pour la locomotion et la manipulation corps entier par un robot hexapode

Des chercheurs ont publié sur arXiv (arXiv:2509.23651v3) HeLoM, un framework hiérarchique d'apprentissage pour la manipulation whole-body par un robot hexapode. L'objectif central est la manipulation non-préhensile, c'est-à-dire pousser des objets sans les saisir, une stratégie qui contourne la complexité de la conception de prises tout en exploitant le contact direct pour contrôler la pose d'un objet. Le système repose sur une architecture à deux niveaux : un planificateur haut niveau qui définit les comportements de poussée, et un contrôleur bas niveau qui maintient la stabilité locomotrice et génère des commandes articulaires dynamiquement cohérentes. En pratique, les pattes avant assurent l'interaction avec l'objet tandis que les pattes arrière fournissent la propulsion. Les expériences en monde réel montrent que le robot peut pousser des objets de tailles et propriétés physiques variées, et a priori inconnues, vers des poses cibles définies. L'intérêt de HeLoM pour le secteur robotique tient à deux points. Premièrement, il démontre qu'un système hexapode peut réaliser une manipulation efficace sans bras ni préhension, en mobilisant la totalité de la cinématique du corps, une approche qui s'applique par extension à d'autres plateformes multi-pattes. Deuxièmement, la robustesse face aux propriétés inconnues de l'objet (masse, forme irrégulière) illustre un progrès sur le gap sim-to-real : le framework, validé en simulation, transfère dans le monde physique sans connaissance a priori des paramètres de l'objet. Pour un intégrateur industriel, cela signifie potentiellement une manipulation de charges lourdes ou encombrantes sans recourir à un bras robotique dédié. L'approche s'inscrit dans un courant plus large de recherche sur la loco-manipulation whole-body, où des laboratoires comme ETH Zurich (ANYmal), Carnegie Mellon (loco-manipulation quadrupède) et Boston Dynamics travaillent à unifier locomotion et manipulation dans un cadre unique. HeLoM se distingue en ciblant spécifiquement l'hexapode, morphologie plus stable mais moins explorée que le quadrupède pour la manipulation. La publication est un preprint arXiv (version 3), sans mention de déploiement industriel ni de partenariat. Les prochaines étapes naturelles seraient l'extension à des comportements de tirage ou de levage, et des tests sur des charges plus importantes avec mesure explicite du payload maximal, absent des résultats actuellement publiés.

RecherchePaper
1 source
Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
2arXiv cs.RO 

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper
1 source
Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation
3arXiv cs.RO 

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

Des chercheurs ont publié sur arXiv (référence 2508.17466v3) un framework de deep learning destiné à améliorer les capacités de préhension des robots quadrupèdes équipés d'un bras manipulateur, une configuration connue sous le nom de loco-manipulation. L'approche repose sur une méthodologie sim-to-real développée dans l'environnement de simulation Genesis, où des milliers d'interactions synthétiques ont été générées sur des objets courants pour produire des cartes annotées pixel par pixel de qualité de préhension. Ces données ont servi à entraîner un réseau de neurones convolutif inspiré de l'architecture U-Net, qui fusionne en entrée des flux multi-modaux issus de caméras embarquées : images RGB, cartes de profondeur, masques de segmentation et cartes de normales de surface. En sortie, le modèle produit une heatmap identifiant le point de préhension optimal. Le système complet a été validé sur un vrai robot quadrupède, qui a exécuté de façon autonome la séquence complète : navigation vers l'objet cible, perception, prédiction de la pose de préhension, puis saisie effective. Le principal intérêt de ce travail est de montrer qu'un pipeline sim-to-real bien conçu peut substituer la collecte de données physiques, historiquement le goulet d'étranglement du développement en manipulation robotique. Pour les intégrateurs et décideurs industriels, cela suggère qu'il devient possible de déployer des capacités de manipulation sur robots mobiles sans investissement massif en démonstrations réelles. Cela dit, l'abstract ne fournit aucun taux de succès quantifié, aucune comparaison avec une baseline, et aucun détail sur le nombre d'objets testés ou la robustesse aux variations d'éclairage et de pose : des lacunes habituelles dans les preprints mais qui freinent l'évaluation sérieuse de la transférabilité industrielle. Ce travail s'inscrit dans un champ académique très actif autour des robots quadrupèdes à bras, popularisé par des plateformes comme l'ANYmal de ANYbotics (Suisse) ou le Spot d'Boston Dynamics, tous deux cibles régulières de recherches en loco-manipulation. L'environnement Genesis, relativement récent, se positionne comme alternative à Isaac Sim (NVIDIA) et MuJoCo pour la génération de données synthétiques. L'architecture U-Net, initialement conçue pour la segmentation médicale, est ici réutilisée pour un problème de régression spatiale, une transposition qui gagne du terrain en robotique de manipulation. Ce papier, en version 3 de révision, reste un travail de recherche en laboratoire : aucun déploiement opérationnel ni partenariat industriel n'est mentionné.

UEImpact indirect limité : ANYbotics (Suisse) est citée comme plateforme cible type, mais le travail est un preprint académique sans affiliation institutionnelle européenne identifiée ni déploiement opérationnel.

RecherchePaper
1 source
Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité
4arXiv cs.RO 

Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité

Des chercheurs ont publié sur arXiv (référence 2510.26067, version 2, octobre 2025) un framework d'apprentissage par renforcement intégrant un réseau de neurones à graphes (GNN) dans l'algorithme Soft Actor-Critic (SAC) pour contrôler la locomotion de robots tenségrité. Le système représente la topologie physique du robot sous forme de graphe, où chaque nœud correspond à un composant structurel (tige rigide ou câble élastique) et chaque arête encode les couplages mécaniques. Validé sur un robot tenségrité à 3 barres, le framework maîtrise trois primitives de déplacement : suivi de trajectoire en ligne droite et virage bidirectionnel. Aucun réglage supplémentaire n'a été nécessaire pour le passage simulation-vers-matériel, et les politiques apprises s'exécutent directement sur le robot physique avec une locomotion stable. Le résultat le plus significatif pour les intégrateurs et concepteurs de robots est le transfert sim-to-real sans fine-tuning : c'est précisément le point d'échec habituel des méthodes RL appliquées aux structures à dynamique fortement couplée. Les robots tenségrité combinent tiges rigides et câbles élastiques en tension permanente, ce qui rend leur dynamique sous-actionnée et difficile à modéliser fidèlement, un écart classique entre simulation et réalité. Le fait que le GNN encode explicitement les contraintes topologiques du robot explique en partie cette robustesse : la politique apprend la physique structurelle, pas seulement une carte entrée-sortie. Les résultats montrent également une meilleure efficacité d'échantillonnage et une tolérance accrue aux variations de bruit et de raideur des câbles, deux paramètres qui fluctuent inévitablement sur matériel réel. Les robots tenségrité ont émergé comme plateforme de recherche sérieuse notamment via les travaux de la NASA (robot SUPERball) et des universités comme UC Berkeley, en raison de leur légèreté et de leur résilience aux chocs, des atouts pour l'exploration spatiale ou la recherche et le sauvetage. Jusqu'ici, leur contrôle reposait essentiellement sur des politiques MLP standard ou des méthodes de contrôle classique, peu adaptées à la complexité des couplages internes. Ce travail s'inscrit dans une tendance plus large d'architectures GNN pour robots morphologiquement complexes, en compétition avec des approches comme les transformers de morphologie ou le contrôle basé modèle avec apprentissage des paramètres. Les prochaines étapes naturelles incluent l'extension à des structures plus complexes (6 barres, tenségrités sphériques) et des environnements non structurés, domaines où aucun déploiement industriel n'est encore annoncé à ce stade.

RecherchePaper
1 source