IA physiquearXiv cs.RO 20 avril 2026

CLAW : génération de mouvements corps entier composables et annotés en langage naturel

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié CLAW (Composable Language-Annotated Whole-body Motion Generation), un pipeline open source conçu pour générer à grande échelle des données de mouvement annoté en langage naturel pour robots humanoïdes, appliqué ici au Unitree G1. Le système compose des primitives de mouvement paramétrées par six variables, type de déplacement, cap, vitesse, hauteur du bassin (pelvis height) et durée, et les exécute dans le simulateur MuJoCo pour produire des trajectoires physiquement cohérentes. Deux interfaces navigateur sont proposées : un mode clavier en temps réel pour l'exploration, et un éditeur de séquences en timeline pour la collecte de données en batch. En parallèle, un moteur de génération d'annotations basé sur des templates produit des descriptions en langage naturel à deux niveaux de granularité : segment individuel et trajectoire complète. Le code est disponible publiquement sur GitHub sous la référence arXiv:2604.11251.

L'enjeu central est le goulot d'étranglement des données pour entraîner des contrôleurs whole-body conditionnés au langage (VLA, Vision-Language-Action). La capture de mouvement réelle est coûteuse, peu scalable et limitée en diversité ; les modèles génératifs text-to-motion existants produisent des sorties purement cinématiques, sans garantie de faisabilité physique, un écueil critique pour le déploiement réel. CLAW apporte une réponse intermédiaire : la simulation MuJoCo ancre les trajectoires dans la physique, tandis que la composition modulaire de primitives permet une diversité combinatoire élevée. C'est une approche sim-to-real pragmatique qui vise à réduire le fossé entre données d'entraînement et comportement robot en conditions réelles, sans le coût d'un studio de mocap.

Le Unitree G1, robot humanoïde chinois positionné sur le segment accessible (prix catalogue autour de 16 000 USD), est une plateforme de recherche de plus en plus utilisée dans la communauté académique, notamment face aux plateformes fermées comme Figure 02 ou Apptronik Apollo. CLAW s'inscrit dans une dynamique plus large de démocratisation des pipelines de données pour la robotique humanoïde, aux côtés de travaux comme le dataset HumanoidBench ou les approches de Physical Animation de Berkeley. La mise à disposition publique du système est son principal atout différenciant : elle permet aux laboratoires sans ressources de mocap de constituer des jeux de données whole-body annotés pour leurs propres expériences de contrôle en langage. Les prochaines étapes attendues, non annoncées dans ce papier, concernent le transfert réel sur G1 et la validation des politiques entraînées sur ces données synthétiques.

Impact France/UE

Les laboratoires européens de recherche en robotique humanoïde peuvent exploiter ce pipeline open source pour constituer des jeux de données whole-body annotés sans infrastructure de mocap coûteuse.

Dans nos dossiers

Figure Unitree Apptronik Apollo arXiv cs.RO

À lire aussi

1arXiv cs.RO

TEXEDO : mise à l'échelle à l'inférence pour la génération de mouvements humanoïdes guidée par le langage et le contrôleur

Des chercheurs ont publié TEXEDO, un cadre d'inférence pour améliorer la génération de mouvements de robots humanoïdes guidée par texte, sans réentraîner le modèle sous-jacent. Présenté sur arXiv (2606.22998) et validé en déploiement réel sur un Unitree G1, le système génère plusieurs mouvements candidats à partir d'un prompt textuel, puis sélectionne le meilleur via un modèle de récompense à deux composantes : un vérificateur de faisabilité dynamique, distillé depuis des simulations de contrôleurs whole-body pour prédire l'exécutabilité physique, et un vérificateur d'alignement sémantique dans un espace d'embedding partagé texte-mouvement. La faisabilité physique est imposée comme contrainte dure ; l'alignement sémantique sert d'objectif de sélection parmi les candidats valides. Les résultats montrent des améliorations en fidélité de tracking et en cohérence textuelle, en simulation comme sur le G1 en conditions réelles. Ce travail adresse une limite structurelle des générateurs actuels : entraînés sur des données de mouvements humains re-ciblés vers des morphologies robotiques, ils ignorent les contraintes propres aux contrôleurs physiques réels, équilibre, dynamiques de contact, limites d'actuation, modes de défaillance spécifiques à chaque plateforme. Des mouvements "sémantiquement plausibles" s'avèrent ainsi souvent inexécutables sur le matériel, un écart bien documenté dans la communauté robotique. TEXEDO applique à la génération de mouvements le principe de "test-time compute scaling" popularisé par les LLMs de type o1 ou o3 : allouer du calcul supplémentaire à l'inférence plutôt qu'au réentraînement. Pour un intégrateur ou un ingénieur robotique, cela signifie qu'un générateur existant peut être amélioré en déploiement sans pipeline de fine-tuning coûteux, ce qui est un argument pratique solide. TEXEDO s'inscrit dans la compétition autour de la programmation des robots par langage naturel, face à des approches VLA (Vision-Language-Action) end-to-end comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La distinction clé est que TEXEDO cible exclusivement la couche de génération de mouvements, en amont du contrôleur, sans chercher à unifier perception, langage et action dans un seul modèle. Le Unitree G1, humanoïde commercial répandu dans les labos de recherche autour de 16 000 dollars, sert ici de banc de test réel, ce qui renforce la portée des résultats par rapport à des évaluations purement simulées. La suite logique serait d'étendre le cadre à d'autres plateformes humanoïdes et d'autres familles de générateurs préentraînés.

💬 Le test-time compute scaling arrive en robotique physique, et c'est une direction que j'attendais : tu peux améliorer un générateur de mouvements existant à l'inférence, sans pipeline de fine-tuning, ce que les approches VLA end-to-end comme pi-0 ne proposent pas. Validé sur un vrai G1, pas en sim. Reste à voir si ça généralise à d'autres plateformes.

IA physiqueOpinion

1 source

2arXiv cs.RO

IA généralisable par ancrage de représentation et alignement langage-action pour les modèles VLA

Le laboratoire à l'origine de ce travail publie Anchor-Align, une méthode de finetuning pour les politiques vision-langage-action (VLA), décrite dans un article arXiv (2607.13429, juillet 2026, projet en ligne sur anchoralignvla.github.io). Le problème ciblé est concret : quand un modèle vision-langage préentraîné est affiné sur des démonstrations robotiques par clonage comportemental (behavior cloning), il perd progressivement les représentations qui lui permettaient de généraliser visuellement et sémantiquement. Le co-entraînement sur des données web texte-image, remède habituel, ne corrige pas le vrai défaut : les pertes de langage et d'action portent sur des observations différentes, ce qui laisse un désalignement langage-action invisible aux benchmarks de manipulation classiques. Anchor-Align ajoute deux objectifs d'entraînement, l'un qui distille les représentations couche par couche d'une copie figée du VLM d'origine, l'autre qui convertit chaque action cible en étiquette discrète de direction de mouvement pour entraîner conjointement langage et action sur la même observation robotique. Sur un bras robotique physique xArm7, avec deux architectures VLA largement utilisées, les taux de réussite passent de 28% à 54% pour l'une et de 37% à 60% pour l'autre. L'enjeu dépasse la seule courbe de performance : c'est une remise en cause d'un présupposé du secteur des VLA, celui du "plus de données de co-entraînement suffit" pour éviter l'oubli catastrophique. En montrant qu'il existe un désalignement structurel que les benchmarks de manipulation standards ne détectent pas, les auteurs pointent un angle mort méthodologique qui concerne tous les laboratoires construisant des politiques de type RT-2, OpenVLA, Pi-0 ou GR00T. Pour les équipes qui finetunent des VLA pour des tâches industrielles, le message est que préserver les représentations préentraînées et apprendre correctement l'action ne sont pas des objectifs contradictoires, contrairement à l'hypothèse implicite du compromis généralisation-performance. Il faut toutefois noter que la majorité des gains rapportés (LIBERO-PRO, LIBERO-Plus, CALVIN) proviennent de simulation, avec seulement deux architectures testées en conditions réelles sur un unique bras robotique, ce qui limite la portée immédiate pour un déploiement industriel à grande échelle. Le contexte est celui d'une course intense autour des modèles VLA depuis l'émergence de RT-2 puis des systèmes open source comme OpenVLA, où le clonage comportemental sur démonstrations téléopérées est devenu la recette standard malgré ses limites connues de généralisation. Anchor-Align se positionne comme une brique méthodologique plutôt qu'un produit ou un robot, sans annonce de partenariat industriel ni de calendrier de déploiement pour l'instant. La suite logique serait une validation sur davantage d'architectures et de plateformes physiques, ainsi qu'une comparaison directe avec les techniques de co-entraînement existantes utilisées par les acteurs commerciaux du secteur, pour voir si le gain se maintient à l'échelle des flottes industrielles réelles.

IA physiqueActu

1 source

3arXiv cs.RO

NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel

NORM-Nav est un framework zero-shot présenté en mai 2026 dans un preprint arXiv (2605.16979) pour la navigation de robots mobiles en environnements humains. Le système associe un grand modèle de langage (LLM) à une perception temps réel par fusion vision-LiDAR: l'opérateur formule des règles comportementales en langage naturel, le LLM les parse en contraintes structurées, et celles-ci sont encodées sous forme de costmaps multi-couches couvrant quatre dimensions (géométrique, sémantique, directionnel, vitesse), directement compatibles avec les planificateurs grid-based standards comme ceux utilisés sous ROS. Des expériences en simulation et en environnement réel indiquent une amélioration des taux de succès de tâche et des trajectoires statistiquement plus proches des références humaines par rapport aux baselines testées, sans réentraînement du planificateur de base. L'enjeu concret est le suivant: les costmaps conventionnels traitent la navigation comme un problème géométrique pur, produisant des trajectoires techniquement valides mais socialement inadaptées, frôlement de passants, ignorance des sens de circulation, vitesse inappropriée en zone dense. Pour un intégrateur déployant des AMR en environnement hospitalier, en entrepôt partagé ou en espace public, cette limite est un frein réel à l'acceptation opérationnelle. NORM-Nav adresse ce verrou en mode zero-shot, sans données de démonstration spécifiques à l'environnement cible, ce qui simplifie le pipeline de déploiement. La compatibilité native avec les planificateurs standard constitue l'argument industriel clé: pas de refonte architecturale, pas de rupture avec la stack ROS existante. La navigation socialement consciente (social navigation) est un chantier actif depuis une décennie, porté par des travaux comme CADRL, SARL ou ORCA, et plus récemment par des approches LLM comme NavGPT ou LM-Nav. NORM-Nav s'inscrit dans cette tendance mais mise sur l'intégration costmap plutôt que sur un planificateur de bout en bout, choix conservateur et pragmatique pour l'industrie. Le preprint ne cite ni partenaires industriels ni timeline de commercialisation, le positionnant clairement comme contribution académique à ce stade. Une soumission en conférence (IROS 2026 ou CoRL 2026) est vraisemblable. Sur le terrain concurrent, Boston Dynamics (Spot en environnements mixtes), les acteurs AMR comme Exotec, et plusieurs projets académiques franco-européens travaillent sur la cohabitation robots-humains, bien qu'aucun n'utilise exactement cette approche de grounding linguistique sur couches costmap.

UELes intégrateurs européens d'AMR en milieu hospitalier ou logistique pourraient tester cette approche zero-shot compatible ROS pour améliorer l'acceptation sociale de leurs flottes sans refonte architecturale.

IA physiquePaper

1 source

4arXiv cs.RO

Modèle vision-langage-action pour la génération compositionnelle de mouvements à partir de démonstrations avec champs neuronaux centrés sur l'objet

Des chercheurs publient sur arXiv (identifiant 2607.07129, soumission de type "new", juillet 2026) un framework d'apprentissage par démonstration pour la génération de mouvement robotique compositionnel. La méthode combine des représentations neuronales centrées objet, des neural fields canoniques associés à des déformations conditionnées par une variable latente, pour rendre des scènes en capturant variations de position et de géométrie de façon lisse et interprétable. Pour la génération de mouvement, un mélange d'experts temporel (temporal mixture-of-experts) utilise un mécanisme de gating qui combine dans le temps des primitives de mouvement conditionnées par objet, produisant des trajectoires complètes. En simulation, le modèle accomplit des tâches de manipulation à long horizon avec significativement moins de données d'entraînement que les méthodes de référence basées sur l'image. Des expériences en conditions réelles confirment la robustesse au bruit, une généralisation au niveau catégoriel grâce à des modèles de segmentation pilotés par le langage, et la capacité d'opérer directement sur des représentations de scène en 3D. Cette approche s'attaque à un problème central de l'apprentissage par démonstration en robotique: généraliser au-delà des configurations de scène vues à l'entraînement sans faire exploser les besoins en données. En ancrant le mouvement dans une structure visuelle explicite plutôt que dans des pixels bruts, la méthode promet une efficacité data nettement supérieure, un enjeu critique pour les intégrateurs industriels qui ne disposent pas des volumes de démonstrations que collectent les grands laboratoires spécialisés en modèles vision-langage-action. Si ces résultats se confirment à plus grande échelle, cette compositionnalité spatio-temporelle pourrait réduire le coût de déploiement de bras manipulateurs dans des environnements variés, sans réentraînement complet à chaque nouvelle configuration. Le travail s'inscrit dans la double lignée des "movement primitives", qui structurent le mouvement en briques réutilisables, et des neural fields appliqués à la robotique, qui représentent la géométrie de façon compacte. Il se positionne comme alternative modulaire et interprétable face aux modèles VLA end-to-end à grande échelle, généralement plus gourmands en données mais plus généralistes. L'article, validé en simulation et par des expériences réelles limitées, ne mentionne aucun déploiement industriel ni partenariat commercial: il s'agit à ce stade d'une contribution académique dont la suite logique serait une évaluation sur des plateformes robotiques partagées et des benchmarks standardisés.

IA physiqueActu

1 source