VLK : apprentissage de la loco-manipulation humanoïde à partir d'interactions synthétiques dans des scènes reconstruites
Des chercheurs ont publié fin juin 2026, via arXiv (2606.30645), une méthode baptisée VLK (Vision-Language-Kinematics) permettant à un humanoïde d'apprendre à se déplacer et à manipuler des objets à partir d'observations égocentriques, sans aucune annotation humaine. Le pipeline génère automatiquement 48 000 trajectoires supervisées en reconstruisant des environnements intérieurs en 3D grâce à la technique de 3D Gaussian Splatting, puis en synthétisant des trajectoires de navigation et d'interaction avec des objets en exploitant les données de scène privilégiées, et enfin en rendant les images égocentriques correspondantes après coup. Une politique VLK est ensuite entraînée à prédire des trajectoires cinématiques corps entier à court horizon, converties en commandes physiques par un tracker corps entier. Les expériences physiques ont été réalisées sur le robot humanoïde Unitree G1, sur des tâches de navigation et de transport d'un objet unique dans des scènes reconstruites.
L'intérêt technique de cette approche est de répondre à un verrou de données structurel : aucune source existante ne fournit à grande échelle le triplet complet (images égocentriques synchronisées, instructions en langage naturel, trajectoires cinématiques compatibles avec un humanoïde). VLK résout ce problème par génération synthétique totale, sans capture de mouvement, sans télé-opération, sans annotation. Cela positionne la méthode comme un levier de scalabilité réel pour les politiques VLA (Vision-Language-Action) appliquées aux humanoïdes, à condition que le rendu synthétique soit suffisamment fidèle pour passer le sim-to-real, ce que les auteurs revendiquent mais sur un périmètre de tâches encore limité (transport mono-objet, scènes intérieures).
Le contexte situe ce travail dans la vague des politiques génératives pour humanoïdes, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (Nvidia) ou des approches diffusion-based de Figure. Le Unitree G1, plateforme abordable à environ 16 000 dollars, est devenu un banc de test standard dans la communauté académique, ce qui facilite la reproductibilité. La reconstruction par Gaussian Splatting, popularisée depuis 2023, permet ici de créer des environnements d'entraînement photoréalistes à partir de scans de quelques minutes. Les prochaines étapes naturelles seront d'étendre la méthode à la manipulation bi-manuelle, à des scènes plus dynamiques et à des horizons de prédiction plus longs, où la dérive cinématique reste un problème ouvert.
Dans nos dossiers




