HeLoM : apprentissage hiérarchique pour la locomotion e…

FT-WBC : apprentissage d'un contrôle corps entier tolérant aux défaillances pour la loco-manipulation de robots à pattes

44

1arXiv cs.RO

FT-WBC : apprentissage d'un contrôle corps entier tolérant aux défaillances pour la loco-manipulation de robots à pattes

Des chercheurs ont publié le 24 juin 2026 sur arXiv (référence 2606.24466) un cadre de contrôle baptisé FT-WBC (Fault-Tolerant Whole-Body Control), conçu pour maintenir la stabilité et la capacité de manipulation des robots à pattes équipés d'un bras lorsqu'un ou plusieurs actionneurs tombent en panne. Le système repose sur une architecture à politiques découplées haut/bas du corps, et intègre deux modules clés : un Fault Estimator (FE), qui prédit les articulations défaillantes à partir de l'historique proprioceptif du train inférieur, et un Posture Adaptation Module (PAM), qui convertit les commandes de posture potentiellement déstabilisantes générées par la politique du bras en commandes sûres et exécutables pour le torse. Les expériences en simulation et sur robot réel montrent une amélioration significative du taux de survie et du volume d'espace de travail atteignable sous deux régimes de panne : actionneur affaibli (weakening failure) et actionneur bloqué (locked failure). Le transfert sim-to-real s'effectue en zero-shot, sans ré-entraînement. L'enjeu central de ce travail est le couplage entre stabilité locomotrice et accessibilité du bras lors d'une dégradation matérielle, un problème que les méthodes de tolérance aux pannes existantes laissaient largement non résolu, car elles traitaient la locomotion seule. Dans un déploiement industriel ou de service réel, les défaillances d'actionneurs ne sont pas des scénarios théoriques : elles surviennent sur des robots en fonctionnement prolongé, en environnements poussiéreux ou sous contraintes mécaniques répétées. Le fait que FT-WBC préserve autant que possible l'espace de travail du bras tout en synthétisant une allure compensatoire est un signal concret que la robustesse opérationnelle des manipulateurs à pattes commence à être prise en compte au niveau du contrôle, et pas seulement au niveau mécanique. Le domaine de la loco-manipulation sur pattes s'est structuré autour de plateformes comme l'ANYmal de ANYbotics équipé du bras HEBI, le Spot d'Boston Dynamics avec Spot Arm, ou encore l'Unitree B2-W. Ces systèmes ont démontré leur mobilité en terrain non structuré, mais leur robustesse aux pannes en cours de tâche reste un angle mort de la littérature. FT-WBC s'inscrit dans une tendance de recherche qui vise à rapprocher les conditions de laboratoire des conditions réelles d'exploitation, notamment pour les applications d'inspection industrielle, de manutention en entrepôt ou d'intervention en environnements à risque. L'article ne mentionne pas de partenaires industriels ni de calendrier de commercialisation : il s'agit pour l'instant d'un résultat académique, dont la validation reste limitée aux scénarios présentés dans le papier.

RecherchePaper

1 source

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

44

2arXiv cs.RO

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper

1 source

Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique

47

3arXiv cs.RO

Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (référence 2410.18647, désormais à sa quatrième révision) une étude empirique sur les lois d'échelle des données appliquées à l'apprentissage par imitation en manipulation robotique. Le protocole est rigoureux : plus de 40 000 démonstrations collectées dans de nombreux environnements et avec des objets variés, suivies de plus de 15 000 exécutions réelles sur robot, ce qui en fait l'une des études de scaling en manipulation les plus extensives à ce jour. Résultat central : la performance de généralisation d'une politique d'imitation suit une relation en loi de puissance avec le nombre d'environnements et d'objets d'entraînement. Surtout, quatre collecteurs de données travaillant une seule après-midi ont suffi pour obtenir environ 90 % de taux de réussite en déploiement zéro-shot sur des objets inconnus dans des environnements non vus, sur deux tâches distinctes. Ce que cette recherche établit, c'est que la diversité des environnements et des objets prime largement sur le volume brut de démonstrations : au-delà d'un certain seuil de démonstrations par environnement ou par objet, en ajouter davantage n'améliore plus la généralisation. Ce résultat remet en cause la stratégie intuitive qui consiste à multiplier les répétitions dans un même contexte, et oriente clairement la priorité vers la couverture de distribution plutôt que la densité d'annotation. Pour les intégrateurs industriels et les équipes robotique qui budgètent la collecte de données, l'implication est directe : mieux vaut disperser les efforts sur des scènes variées que d'accumuler des trajectoires dans un seul setup. Le fait d'atteindre 90 % de succès en zéro-shot sur des objets inédits est également un signal fort sur la maturité du paradigme VLA (Vision-Language-Action) en manipulation monomode. Ce travail s'inscrit dans le sillage des succès de scaling en NLP et vision par ordinateur, que des équipes comme DeepMind (RT-2), Physical Intelligence avec Pi-0, ou encore NVIDIA avec GR00T cherchent à transposer en robotique. L'étude reste purement académique pour l'instant, aucun déploiement industriel n'étant annoncé, et les tâches testées demeurent mono-bras sur périmètre contrôlé. Une limite à noter : les vidéos de démonstration et les protocoles d'évaluation exacts ne sont pas tous publics dans la version arXiv, ce qui rend difficile la comparaison directe avec d'autres benchmarks. Les prochaines étapes logiques seront d'étendre ces lois d'échelle aux politiques multi-tâches et de tester leur robustesse sur des plateformes humanoïdes comme Figure 03 ou Optimus Gen 3, où la distribution des états physiques est bien plus large.

RecherchePaper

1 source

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

42

4arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

HeLoM : apprentissage hiérarchique pour la locomotion et la manipulation corps entier par un robot hexapode

À lire aussi

FT-WBC : apprentissage d'un contrôle corps entier tolérant aux défaillances pour la loco-manipulation de robots à pattes

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes