TEXEDO : mise à l'échelle à l'inférence pour la génération de mouvements humanoïdes guidée par le langage et le contrôleur
Des chercheurs ont publié TEXEDO, un cadre d'inférence pour améliorer la génération de mouvements de robots humanoïdes guidée par texte, sans réentraîner le modèle sous-jacent. Présenté sur arXiv (2606.22998) et validé en déploiement réel sur un Unitree G1, le système génère plusieurs mouvements candidats à partir d'un prompt textuel, puis sélectionne le meilleur via un modèle de récompense à deux composantes : un vérificateur de faisabilité dynamique, distillé depuis des simulations de contrôleurs whole-body pour prédire l'exécutabilité physique, et un vérificateur d'alignement sémantique dans un espace d'embedding partagé texte-mouvement. La faisabilité physique est imposée comme contrainte dure ; l'alignement sémantique sert d'objectif de sélection parmi les candidats valides. Les résultats montrent des améliorations en fidélité de tracking et en cohérence textuelle, en simulation comme sur le G1 en conditions réelles.
Ce travail adresse une limite structurelle des générateurs actuels : entraînés sur des données de mouvements humains re-ciblés vers des morphologies robotiques, ils ignorent les contraintes propres aux contrôleurs physiques réels, équilibre, dynamiques de contact, limites d'actuation, modes de défaillance spécifiques à chaque plateforme. Des mouvements "sémantiquement plausibles" s'avèrent ainsi souvent inexécutables sur le matériel, un écart bien documenté dans la communauté robotique. TEXEDO applique à la génération de mouvements le principe de "test-time compute scaling" popularisé par les LLMs de type o1 ou o3 : allouer du calcul supplémentaire à l'inférence plutôt qu'au réentraînement. Pour un intégrateur ou un ingénieur robotique, cela signifie qu'un générateur existant peut être amélioré en déploiement sans pipeline de fine-tuning coûteux, ce qui est un argument pratique solide.
TEXEDO s'inscrit dans la compétition autour de la programmation des robots par langage naturel, face à des approches VLA (Vision-Language-Action) end-to-end comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La distinction clé est que TEXEDO cible exclusivement la couche de génération de mouvements, en amont du contrôleur, sans chercher à unifier perception, langage et action dans un seul modèle. Le Unitree G1, humanoïde commercial répandu dans les labos de recherche autour de 16 000 dollars, sert ici de banc de test réel, ce qui renforce la portée des résultats par rapport à des évaluations purement simulées. La suite logique serait d'étendre le cadre à d'autres plateformes humanoïdes et d'autres familles de générateurs préentraînés.
Dans nos dossiers




