
WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action
Des chercheurs ont publié le 25 juin 2026 sur arXiv (arXiv:2606.25591) WOLF-VLA, un cadre unifié qui combine la synthèse de trajectoires par contrôle optimal (OC) en corps entier avec un dataset multimodal à grande échelle, dans le but d'entraîner des modèles VLA (Vision-Language-Action) capables de piloter la locomotion d'humanoïdes directement depuis des instructions en langage naturel. Le dataset couvre six familles de tâches de locomotion, paramétrées par des variations d'environnement, de couleurs d'objets, de placements et de distracteurs visuels. L'entrainement utilise des trajectoires articulaires dynamiquement cohérentes, des observations visuelles ego-centriques et des instructions textuelles. Les résultats annoncés font état d'une robustesse notable aux variations de conditions initiales et de performances compétitives sur plusieurs tâches et configurations d'environnement. Le dataset complet, les checkpoints de modèle et la suite de benchmarks en simulation seront publiés en open source.
Ce travail comble un angle mort important : si les VLA ont prouvé leur efficacité en manipulation (voir Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), leur extension à la locomotion en corps entier, contact-riche et dynamiquement contrainte, restait quasi inexploitée. Les trois verrous identifiés par les auteurs sont précis -- pénurie de données, absence de démonstrations dynamiquement consistantes, et difficulté à encoder optimalité et sécurité dans un pipeline d'apprentissage -- ce sont exactement les obstacles qui ont maintenu la locomotion hors du champ VLA. La génération de trajectoires via contrôle optimal comme source de données supervisées est une approche méthodologiquement solide pour contourner la dépendance aux démonstrations humaines ou téléopérées.
Ce papier s'inscrit dans un mouvement plus large vers des politiques de locomotion instruction-guidées, concurrent de travaux comme ANYmal (ETH Zurich / ANYbotics), Digit (Agility Robotics) ou les approches reinforcement learning de Boston Dynamics. La release open source du benchmark constitue la contribution potentiellement la plus durable : établir un référentiel reproductible pour la locomotion humanoïde VLA permettrait de structurer les comparaisons dans un domaine où les métriques sont encore disparates. Aucun déploiement physique n'est mentionné dans cet article, qui reste une contribution de recherche en simulation -- le transfert sim-to-real sur des plateformes comme Unitree H1 ou Figure 03 constitue la prochaine étape non résolue.
Le benchmark open source pourrait servir de référence aux laboratoires européens travaillant sur la locomotion humanoïde (ETH Zurich/ANYbotics notamment), mais aucun acteur français ni institution de l'UE n'est directement impliqué dans cette publication.
Dans nos dossiers




