
MotionVLA : un modèle vision-langage-action pour les robots humanoïdes
Une équipe de l'AIGeeksGroup a publié le 18 juin 2026 sur arXiv (2606.15142) MotionVLA, un modèle de type Vision-Language-Action conçu pour générer du mouvement humanoïde réaliste à partir d'images de scène et d'instructions textuelles. Le coeur de la contribution repose sur DSFT (Dual-Stream Frequency Tokenizer), un tokeniseur qui décompose le signal de mouvement en deux flux distincts : un flux Base capturant la sémantique de pose basse fréquence, et un flux Phys encodant la dynamique physique haute fréquence. Cette séparation s'appuie sur une analyse en transformée en cosinus discrète (DCT) du corpus HumanML3D, qui révèle un déséquilibre concret : cinq coefficients DCT suffisent à couvrir 93 % de l'énergie des positions articulaires, mais seulement 37 % de l'énergie des vélocités. Les deux flux sont compressés indépendamment par troncature DCT et encodage BPE, puis réinjectés dans un transformeur autorégressif basé sur Qwen3.5 2B. Sur les benchmarks HumanML3D et MBench, MotionVLA réduit l'écart de diversité avec les données réelles de plus de 50 % et améliore la cohérence mouvement-condition de 3,8 %.
Ce résultat pointe une limite structurelle des approches à codebook unique, qui dominent actuellement la génération de mouvement humanoïde : en forçant des signaux hétérogènes dans un espace de quantification commun, ces méthodes sous-représentent systématiquement les composantes dynamiques hautes fréquences au profit de la géométrie de pose. Pour les équipes travaillant sur le contrôle de robots humanoïdes ou la synthèse d'animation procédurale, cela signifie que la qualité du mouvement généré peut sembler plausible en posture statique mais manquer de naturel en transition. L'architecture duale de MotionVLA, malgré un backbone léger de 2 milliards de paramètres, obtient des gains mesurables sans augmenter significativement le coût de calcul.
MotionVLA s'inscrit dans un mouvement de recherche plus large qui adapte les VLA, initialement développés pour le contrôle robotique visuomoteur, à la génération de comportement humanoïde. Le modèle s'appuie sur Qwen3.5, la famille de modèles open-weight d'Alibaba, et le code source est disponible sur GitHub (AIGeeksGroup/MotionVLA). À ce stade, il s'agit exclusivement d'un résultat de recherche académique évalué sur des benchmarks synthétiques standard, sans déploiement industriel ni partenariat hardware annoncé. Les acteurs comme Figure AI, 1X, Agility Robotics ou Fourier Intelligence, qui investissent dans la génération de mouvement pour leurs humanoïdes, suivent de près ce type de travaux, même si le chemin du benchmark de laboratoire vers un déploiement sim-to-real reste non démontré ici.
Dans nos dossiers




