
CLAW : génération de mouvements corps entier composables et annotés en langage naturel
Une équipe de chercheurs a publié CLAW (Composable Language-Annotated Whole-body Motion Generation), un pipeline open source conçu pour générer à grande échelle des données de mouvement annoté en langage naturel pour robots humanoïdes, appliqué ici au Unitree G1. Le système compose des primitives de mouvement paramétrées par six variables, type de déplacement, cap, vitesse, hauteur du bassin (pelvis height) et durée, et les exécute dans le simulateur MuJoCo pour produire des trajectoires physiquement cohérentes. Deux interfaces navigateur sont proposées : un mode clavier en temps réel pour l'exploration, et un éditeur de séquences en timeline pour la collecte de données en batch. En parallèle, un moteur de génération d'annotations basé sur des templates produit des descriptions en langage naturel à deux niveaux de granularité : segment individuel et trajectoire complète. Le code est disponible publiquement sur GitHub sous la référence arXiv:2604.11251.
L'enjeu central est le goulot d'étranglement des données pour entraîner des contrôleurs whole-body conditionnés au langage (VLA, Vision-Language-Action). La capture de mouvement réelle est coûteuse, peu scalable et limitée en diversité ; les modèles génératifs text-to-motion existants produisent des sorties purement cinématiques, sans garantie de faisabilité physique, un écueil critique pour le déploiement réel. CLAW apporte une réponse intermédiaire : la simulation MuJoCo ancre les trajectoires dans la physique, tandis que la composition modulaire de primitives permet une diversité combinatoire élevée. C'est une approche sim-to-real pragmatique qui vise à réduire le fossé entre données d'entraînement et comportement robot en conditions réelles, sans le coût d'un studio de mocap.
Le Unitree G1, robot humanoïde chinois positionné sur le segment accessible (prix catalogue autour de 16 000 USD), est une plateforme de recherche de plus en plus utilisée dans la communauté académique, notamment face aux plateformes fermées comme Figure 02 ou Apptronik Apollo. CLAW s'inscrit dans une dynamique plus large de démocratisation des pipelines de données pour la robotique humanoïde, aux côtés de travaux comme le dataset HumanoidBench ou les approches de Physical Animation de Berkeley. La mise à disposition publique du système est son principal atout différenciant : elle permet aux laboratoires sans ressources de mocap de constituer des jeux de données whole-body annotés pour leurs propres expériences de contrôle en langage. Les prochaines étapes attendues, non annoncées dans ce papier, concernent le transfert réel sur G1 et la validation des politiques entraînées sur ces données synthétiques.
Les laboratoires européens de recherche en robotique humanoïde peuvent exploiter ce pipeline open source pour constituer des jeux de données whole-body annotés sans infrastructure de mocap coûteuse.


