
Wh0 : des modèles du monde génératifs comme source extensible de données égocentrées de manipulation manuelle
Des chercheurs ont publié Wh0, un cadre exploitant des modèles vidéo génératifs pour produire en masse des données d'entraînement égocentrées de mains humaines manipulant des objets. Conditionné sur du langage, des objets et des scènes, le système génère WM-H, un dataset de 50 000 épisodes de vidéos d'interaction humain-objet, puis convertit ces séquences en supervision exploitable par un robot via reconstruction du mouvement de la main et édition visuelle. Co-entraîné avec un volume limité de données robotiques réelles, Wh0 adapte des modèles VLA (Vision-Language-Action) pré-entraînés à la manipulation dextre. Évalué sur 18 tâches réelles de manipulation fine, le système porte le taux de succès zéro-shot sur des tâches inédites de 8,3 % à 38,9 % par rapport à un modèle entraîné uniquement sur données robotiques.
Ce résultat pointe vers un constat croissant dans le secteur : la téléopération reste coûteuse et difficile à passer à l'échelle, tandis que la simulation classique (IsaacSim, MuJoCo) bute sur le sim-to-real gap. Wh0 propose une troisième voie en ancrant la génération dans des vidéos égocentrées réalistes, puis en résolvant le mismatch d'embodiment par édition visuelle. Pour un intégrateur ou un décideur industriel, la valeur est double : réduire le coût de collecte de données et couvrir une diversité d'objets et de scènes difficile à atteindre en lab. Le résultat zéro-shot ne préjuge pas du déploiement industriel à grande échelle, mais les ablations internes confirment que l'alignement scène/embodiment est le levier dominant de performance, devant le simple volume de génération.
La manipulation dextre est l'un des fronts les plus disputés de la robotique physique en 2026, face à des acteurs comme Physical Intelligence (Pi-0), Figure (Helix) et NVIDIA (GR00T N2) qui mobilisent d'importants budgets de téléopération pour atteindre la généralisation. Des approches basées sur des vidéos Internet existantes comme HOI4D avaient montré la richesse du signal égocentré humain, mais l'écart entre la main humaine et l'effecteur robot restait un obstacle non résolu. Wh0 publie son code et ses données en open source, ce qui pourrait bénéficier à des équipes européennes travaillant sur la préhension fine, comme Enchanted Tools ou Pollen Robotics. La prochaine étape logique serait l'extension à des architectures bi-manuelles ou à des mains multi-doigts, non couvertes par les 18 tâches de l'évaluation actuelle.
L'open-source de Wh0 et du dataset WM-H (50 000 épisodes) réduit la barrière d'entrée pour des équipes européennes travaillant sur la manipulation dextre, notamment Enchanted Tools et Pollen Robotics.
La téléopération coûte cher, la simulation bute sur le sim-to-real gap, tout le monde le sait. Wh0 prend une troisième voie : générer en masse des vidéos égocentrées réalistes de mains humaines, puis aligner l'embodiment par édition visuelle, et ça fait passer le taux de succès zéro-shot de 8 % à presque 40 % sur des tâches inédites. C'est open source, donc des équipes comme Enchanted Tools ou Pollen Robotics ont maintenant un dataset sérieux sans y mettre le budget de Physical Intelligence.




