L'architecture du critique est cruciale :…

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

42

1arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

CWI : système d'imitation du corps entier pour la loco-manipulation de robots humanoïdes

33

2arXiv cs.RO

CWI : système d'imitation du corps entier pour la loco-manipulation de robots humanoïdes

Des chercheurs ont publié fin juin 2026 sur arXiv (réf. 2606.27676) le framework CWI (Composite Whole-Body Imitation), une architecture de contrôle pour robots humanoïdes visant à coordonner locomotion et manipulation bimanuelle en simultané. Le système a été évalué en simulation puis déployé sur un LimX Oli, humanoïde pleine taille du fabricant chinois LimX Robotics. L'approche repose sur une dissociation du recours aux données de capture de mouvement (MoCap) : les données MoCap de manipulation diversifiées pilotent le contrôle du haut du corps, tandis que la locomotion est guidée par deux discriminateurs adversariaux (Adversarial Motion Prior, AMP) entraînés sur des clips curatés de marche et d'accroupissement. Une architecture multi-critique réduit les conflits entre objectifs de locomotion, de manipulation et de style de mouvement ; une étape de distillation enseignant-élève produit ensuite une politique conditionnée uniquement sur les poses des mains et des commandes de vitesse et hauteur. La loco-manipulation reste l'un des verrous majeurs de la robotique humanoïde. Les méthodes purement par renforcement, sans MoCap, souffrent de récompenses creuses et nécessitent des curricula finement réglés ; les méthodes imitant le corps entier butent sur le déséquilibre des datasets, les trajectoires de locomotion trop dynamiques dégradant la stabilité globale. CWI propose une dissociation architecturale qui contourne les deux écueils. Le résultat pratique est une téléopération sans équipement MoCap complet, ce qui abaisse le seuil d'intégration industrielle. Pour les intégrateurs et les décideurs B2B, cela signifie qu'un humanoïde capable d'agir dans des environnements mixtes (déplacements et saisie d'objets) devient envisageable sans infrastructure de capture de mouvement coûteuse. Cela dit, la publication ne fournit aucune métrique de temps de cycle ni de volumes de déploiement, ce qui invite à lire ces résultats comme une preuve de concept compétitive, pas comme un produit shipé. CWI s'inscrit dans une vague de travaux combinant apprentissage par renforcement et imitation de mouvement humain, dont l'Adversarial Motion Prior (AMP) de Peng et al. constitue la brique fondatrice. LimX Robotics reste un acteur discret face aux mastodontes du secteur : Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) ou encore Boston Dynamics (Atlas) travaillent sur des architectures comparables intégrant contrôle corps entier et politiques Vision-Language-Action (VLA). CWI ne mentionne ni calendrier de déploiement industriel, ni partenariat commercial : il s'agit d'un preprint arXiv sans revue par les pairs publiée. Les prochaines étapes probables passeront par une validation en conditions réelles plus variées et une publication dans une conférence robotique de référence (ICRA, IROS ou RAL).

RecherchePaper

1 source

Fermeture de la boucle en VLA humanoïde : jetons d'objets 3D persistants pour une loco-manipulation vérifiable

46

3arXiv cs.RO

Fermeture de la boucle en VLA humanoïde : jetons d'objets 3D persistants pour une loco-manipulation vérifiable

Des chercheurs viennent de publier sur arXiv (2607.18016v1) une nouvelle méthode baptisée Persistent Object Tokenization (POT), testée sur un robot humanoïde Unitree G1 dans le cadre d'un système appelé POT-VLA. Le problème ciblé est ce que les auteurs nomment la "divergence d'état objet" : dans les politiques vision-langage-action (VLA) actuelles, l'état de l'objet utilisé pour décider d'un mouvement du corps entier peut différer de celui utilisé ensuite pour vérifier si l'action a bien produit la relation physique voulue, un décalage qui devient critique lors de déplacements, contacts, occlusions ou phases de récupération. POT maintient des enregistrements 3D d'objets indexés par rôle, construits à partir d'observations RGB-D, et les convertit en tokens exploitables par un module d'action corps entier. Sur huit familles de tâches réelles, POT-VLA fait passer le taux de réussite de 39 sur 80 à 71 sur 80 par rapport à une base directe GR00T-N1.7 comparable. Sur un protocole externe aligné sur le benchmark Being-0, le système obtient 44 succès sur 50 tâches de service, contre 37 sur 50 rapportés dans l'article Being-0 original. Pour l'industrie de la robotique humanoïde, ce travail s'attaque à un angle mort souvent glissé sous le tapis dans les démonstrations impressionnantes : la capacité réelle à maintenir une relation géométrique correcte entre un bras et un objet pendant une tâche longue, plutôt que la seule génération d'une trajectoire plausible. En rendant l'état objet à la fois exploitable et vérifiable via des contrôles de prédicats géométriques, le système ferme la boucle entre perception et exécution, un point sensible pour les intégrateurs qui cherchent des garanties de fiabilité au-delà des vidéos de démonstration soigneusement sélectionnées. Les gains les plus marqués concernent justement les tâches nécessitant le maintien prolongé d'une relation 3D, ce qui suggère que l'abstraction d'objet persistant comble une limite structurelle des architectures VLA actuelles plutôt qu'un simple réglage fin. Ce papier s'inscrit dans la course actuelle autour des politiques VLA pour humanoïdes, dominée par des architectures comme GR00T (NVIDIA), utilisée ici comme base de comparaison directe, et des benchmarks de référence comme Being-0 pour les tâches de service. L'usage d'un Unitree G1, plateforme largement adoptée dans la recherche académique en loco-manipulation, ancre les résultats dans un cadre reproductible plutôt que propriétaire. Les auteurs ne mentionnent pour l'instant ni déploiement pilote ni calendrier de commercialisation : il s'agit d'une contribution de recherche, destinée à être étendue à davantage de familles de tâches et potentiellement intégrée à d'autres piles VLA que GR00T.

RecherchePaper

1 source

Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication

47

4arXiv cs.RO

Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication

Des chercheurs ont proposé une architecture de commande unifiée pour manipulateurs macro-micro, publiée sur arXiv (2602.01948v2), ciblant les applications d'assemblage industriel de précision. Ce type de système associe un bras macro (robot industriel à large espace de travail) à un micro-manipulateur léger à haute bande passante. Dans l'approche classique, le macro assure le positionnement pendant que le micro gère l'interaction avec l'environnement, ce qui plafonne la bande passante de contrôle en force. L'architecture présentée intègre le bras macro dans la boucle d'interaction active, obtenant un gain de bande passante d'un facteur 2,1 par rapport à l'approche leader-suiveur état de l'art, et d'un facteur 12,5 face au contrôle en force robot traditionnel. Les auteurs ajoutent des modèles de substitution (surrogate models) pour simplifier la synthèse du contrôleur et son adaptation aux changements matériels. La validation s'appuie sur trois scénarios expérimentaux : collision avec un objet, suivi de trajectoire en force, et tâches d'assemblage industriel. Ces gains de bande passante répondent à un verrou concret en intégration robotique : une réactivité faible impose des vitesses d'approche réduites et des tolérances relâchées, pénalisant les cadences de production. Multiplier par douze la réactivité du contrôle en force ouvre la voie à des assemblages à ajustement serré comparables aux systèmes passifs à Remote Center of Compliance (RCC) mécanique, mais avec la flexibilité d'un système actif reprogrammable. Les surrogate models adressent un frein souvent négligé : le coût de reconfiguration lors d'un changement d'outil ou de charge utile. Les résultats restent cependant à l'échelle laboratoire et devront être confirmés sur des cycles de production réels, avec variabilité des pièces et dégradation des actionneurs dans le temps. La manipulation macro-micro est étudiée depuis les années 1990, d'abord pour la microchirurgie avant de migrer vers la fabrication industrielle. L'approche leader-suiveur, prise comme référence dans l'étude, reste la baseline académique dominante mais est peu déployée en production. Les acteurs industriels actifs sur la compliance active incluent Bota Systems pour les capteurs force-couple d'extrémité de bras, ainsi que KUKA et Franka Robotics (racheté par Agile Robots) sur l'impédance control. Côté recherche académique, le DLR et l'ETH Zurich développent des architectures proches. La suite logique serait un pilote industriel avec des métriques de cycle time et de taux de rejet pour valider le potentiel de commercialisation.

UEDLR et ETH Zurich sont cités comme acteurs académiques proches de ces travaux, et KUKA ainsi que Franka Robotics, deux acteurs européens leaders sur l'impédance control, sont les bénéficiaires industriels naturels si ces gains de bande passante (×12,5 vs force control classique) se confirment en conditions de production réelles.

RecherchePaper

1 source

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

À lire aussi

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

CWI : système d'imitation du corps entier pour la loco-manipulation de robots humanoïdes

Fermeture de la boucle en VLA humanoïde : jetons d'objets 3D persistants pour une loco-manipulation vérifiable

Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication