Aller au contenu principal
Wh0 : des modèles du monde génératifs comme source extensible de données égocentrées de manipulation manuelle
IA physiquearXiv cs.RO2h

Wh0 : des modèles du monde génératifs comme source extensible de données égocentrées de manipulation manuelle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs ont publié Wh0, un cadre exploitant des modèles vidéo génératifs pour produire en masse des données d'entraînement égocentrées de mains humaines manipulant des objets. Conditionné sur du langage, des objets et des scènes, le système génère WM-H, un dataset de 50 000 épisodes de vidéos d'interaction humain-objet, puis convertit ces séquences en supervision exploitable par un robot via reconstruction du mouvement de la main et édition visuelle. Co-entraîné avec un volume limité de données robotiques réelles, Wh0 adapte des modèles VLA (Vision-Language-Action) pré-entraînés à la manipulation dextre. Évalué sur 18 tâches réelles de manipulation fine, le système porte le taux de succès zéro-shot sur des tâches inédites de 8,3 % à 38,9 % par rapport à un modèle entraîné uniquement sur données robotiques.

Ce résultat pointe vers un constat croissant dans le secteur : la téléopération reste coûteuse et difficile à passer à l'échelle, tandis que la simulation classique (IsaacSim, MuJoCo) bute sur le sim-to-real gap. Wh0 propose une troisième voie en ancrant la génération dans des vidéos égocentrées réalistes, puis en résolvant le mismatch d'embodiment par édition visuelle. Pour un intégrateur ou un décideur industriel, la valeur est double : réduire le coût de collecte de données et couvrir une diversité d'objets et de scènes difficile à atteindre en lab. Le résultat zéro-shot ne préjuge pas du déploiement industriel à grande échelle, mais les ablations internes confirment que l'alignement scène/embodiment est le levier dominant de performance, devant le simple volume de génération.

La manipulation dextre est l'un des fronts les plus disputés de la robotique physique en 2026, face à des acteurs comme Physical Intelligence (Pi-0), Figure (Helix) et NVIDIA (GR00T N2) qui mobilisent d'importants budgets de téléopération pour atteindre la généralisation. Des approches basées sur des vidéos Internet existantes comme HOI4D avaient montré la richesse du signal égocentré humain, mais l'écart entre la main humaine et l'effecteur robot restait un obstacle non résolu. Wh0 publie son code et ses données en open source, ce qui pourrait bénéficier à des équipes européennes travaillant sur la préhension fine, comme Enchanted Tools ou Pollen Robotics. La prochaine étape logique serait l'extension à des architectures bi-manuelles ou à des mains multi-doigts, non couvertes par les 18 tâches de l'évaluation actuelle.

Impact France/UE

L'open-source de Wh0 et du dataset WM-H (50 000 épisodes) réduit la barrière d'entrée pour des équipes européennes travaillant sur la manipulation dextre, notamment Enchanted Tools et Pollen Robotics.

💬 Le point de vue du dev

La téléopération coûte cher, la simulation bute sur le sim-to-real gap, tout le monde le sait. Wh0 prend une troisième voie : générer en masse des vidéos égocentrées réalistes de mains humaines, puis aligner l'embodiment par édition visuelle, et ça fait passer le taux de succès zéro-shot de 8 % à presque 40 % sur des tâches inédites. C'est open source, donc des équipes comme Enchanted Tools ou Pollen Robotics ont maintenant un dataset sérieux sans y mettre le budget de Physical Intelligence.

À lire aussi

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée
1arXiv cs.RO 

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Key-Gram (arXiv:2605.18556, mai 2026) est un preprint qui propose un cadre de mémoire conditionnelle séparant explicitement la connaissance linguistique du raisonnement visuel dans les politiques de manipulation robotique. Là où les architectures VLA (Vision-Language-Action) actuelles fusionnent langage et vision dans un backbone partagé, Key-Gram décompose une instruction en "key-grams" (unités sémantiques propres à la tâche), récupère des priors linguistiques via un lookup déterministe O(1) dans une table externe, puis injecte ces entrées dans des couches cachées sélectionnées via gating contextuel et fusion convolutive légère. Appliqué aux modèles π₀ et π₀.₅ de Physical Intelligence, le système enregistre des gains relatifs de 29,5 %/9,9 % sur le benchmark de simulation RoboTwin2.0, de 35,8 %/4,5 % sur LIBERO-Plus en transfert sans fine-tuning sur le domaine cible, et de 15,4 %/8,1 % sur des tâches longues en manipulation bimanuelle réelle. Ces résultats quantifient un problème structurel rarement isolé dans la littérature VLA : la compétition de modalités dans le backbone partagé, où raisonnement visuel et compréhension linguistique se disputent la capacité de calcul. Le gain de 35,8 % sur LIBERO-Plus sans réentraînement cible est la donnée la plus exploitable pour les intégrateurs industriels : il suggère qu'une mémoire externe améliore la généralisation entre tâches sans fine-tuning complet, réduisant directement le coût de déploiement sur des lignes de production variées. La table de mémoire, extensible sans mise à jour du backbone et chargeable en mémoire hôte à l'inférence, permet d'ajouter de nouveaux vocabulaires de tâches sans redéploiement de l'ensemble du modèle. Physical Intelligence (Pi), fondée en 2023 par d'anciens chercheurs de Google et de l'UC Berkeley, a développé π₀ en 2024 comme VLA généraliste pour la manipulation bimanuelle. Key-Gram s'appuie sur ce backbone sans le modifier, ce qui constitue son atout principal : la séparation de la composante linguistique est architecturalement propre et non-destructive. Sur ce créneau de la généralisation compositionnelle, Google DeepMind, Figure AI (architecture Helix) et 1X Technologies proposent des approches concurrentes à base de transformers multi-modaux. La principale limite du papier est l'absence de validation sur des backbones autres que π, ce qui laisse ouverte la question de la généricité de la méthode.

💬 35% de gain sur LIBERO-Plus sans réentraînement, c'est le chiffre à retenir. L'idée de sortir le vocabulaire de tâche dans une table externe (plutôt que de tout enfouir dans le backbone partagé), c'est architecturalement propre et ça permet d'ajouter de nouvelles tâches sans redéployer l'ensemble du modèle. Reste que pour l'instant ça n'a été validé que sur π₀, donc faut voir si ça tient sur d'autres architectures avant de crier victoire.

IA physiqueOpinion
1 source
FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples
2arXiv cs.RO 

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Une équipe de chercheurs a publié sur arXiv (référence 2606.08555) FAWAM, un modèle d'action robotique intégrant les signaux de force à trois niveaux distincts du pipeline de manipulation : la perception, la prédiction et l'exécution en boucle fermée. Concrètement, le système encode des signaux force/couple sur six axes (6-DoF wrench) pour moduler la génération d'actions, prédit conjointement les actions futures et les efforts en bout d'effecteur afin de modéliser explicitement l'évolution du contact, puis utilise cette trajectoire de wrench prédite comme référence d'exécution pour corriger les actions en temps réel via un module de correction résiduelle. Sur plusieurs tâches de manipulation nécessitant des contacts riches -- vissage, insertion, assemblage par contrainte -- FAWAM affiche un taux de succès moyen supérieur de 36,25 % aux baselines purement visuelles et de 21,25 % aux baselines force-aware existantes. Il s'agit d'un preprint, sans déploiement industriel annoncé à ce stade. L'apport technique est notable pour les intégrateurs et les équipes R&D en manipulation apprise : la plupart des politiques modernes type Diffusion Policy, ACT ou des VLA (Vision-Language-Action models) traitent la force comme une modalité d'observation annexe, sans lui donner de rôle prédictif dans la dynamique future du contact. FAWAM repositionne le signal force comme variable de première classe dans l'architecture du modèle, ce qui permet une correction online des actions sans nécessiter de replanification complète. C'est précisément ce découplage entre prédiction de wrench et correction résiduelle qui explique le gain de performance : le robot anticipe l'effort attendu avant de l'observer, et ajuste en conséquence dès qu'un écart apparaît. Pour un COO ou un directeur technique envisageant des cellules d'assemblage automatisées, cela représente une réduction significative du gap simulation-réalité sur les tâches à contact fort. La manipulation en contact riche reste l'un des derniers verrous majeurs de la robotique industrielle polyvalente, là où les approches vision-seule échouent dès que les tolérances sont serrées ou les surfaces glissantes. Des travaux récents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques de manipulation de Google DeepMind intègrent parfois la proprioception mais rarement le couple d'axe complet en boucle de prédiction. FAWAM s'inscrit dans un courant émergent de world action models orientés contact, aux côtés de travaux comme RoboDex ou des approches de manipulation tactile de Berkeley et Carnegie Mellon. La prochaine étape logique serait une validation sur robot humanoïde ou sur bras industriel en environnement semi-structuré, ce que le preprint ne couvre pas encore.

IA physiqueOpinion
1 source
ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets
3arXiv cs.RO 

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

ShapeGen, présenté dans un preprint arXiv (2604.15569) publié en avril 2026, propose une méthode de génération automatique de données d'entraînement pour les politiques de manipulation robotique. L'enjeu central est la généralisation intra-catégorie : un robot doit savoir saisir n'importe quelle tasse, bouteille ou outil, pas uniquement les objets vus pendant l'entraînement. La méthode opère en deux étapes. La première construit une bibliothèque de formes 3D (Shape Library) en apprenant des déformations spatiales (warpings) qui font correspondre des points fonctionnellement équivalents entre objets d'une même catégorie. La seconde étape, Function-Aware Generation, exploite cette bibliothèque pour produire automatiquement des démonstrations physiquement plausibles sur de nouveaux objets géométriquement variés, avec une annotation humaine minimale. Le pipeline est dit "simulator-free" : il génère des données directement en 3D, sans recourir à un moteur de simulation classique comme MuJoCo ou Isaac Sim. Des expériences en environnement réel valident l'amélioration de la généralisation des politiques ainsi entraînées. Le problème adressé est structurel dans le déploiement industriel des bras manipulateurs : collecter manuellement des corpus de démonstrations sur des centaines de variantes d'objets est coûteux en main-d'oeuvre et logistiquement difficile. ShapeGen automatise cette diversification morphologique, ce qui pourrait réduire significativement le coût de préparation des données pour des politiques visuomotrices (VLA, diffusion policies). Si les résultats réels se confirment à plus grande échelle, cela allège directement le goulot d'étranglement data dans le cycle de développement robotique, en particulier pour les intégrateurs qui doivent adapter des cellules à des référentiels produits variables. La claim "simulator-free" mérite cependant d'être nuancée : le pipeline repose sur des modèles 3D et des transformations géométriques qui constituent en eux-mêmes une forme de simulation implicite. Les benchmarks présentés restent limités en termes de diversité de tâches et d'objets testés. La généralisation intra-catégorie est un axe de recherche actif depuis plusieurs années, exploré notamment via des approches comme PointNet, Category-Level 6D Pose Estimation (Wang et al., 2019) ou les politiques basées sur des représentations implicites (NeRF, SDF). ShapeGen se positionne dans la lignée des travaux sur la génération de données synthétiques pour la manipulation, concurrençant des approches comme RoboGen ou MimicGen (NVIDIA), qui utilisent également la génération automatique pour diversifier les démos. Le projet est affilié à des auteurs du milieu académique (page projet hébergée sur GitHub personnel), sans affiliation industrielle explicite déclarée dans le preprint. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (RLBench, FurnitureBench) et une intégration dans des pipelines VLA existants pour mesurer le gain réel sur des tâches longue-distance.

IA physiqueActu
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
4arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

IA physiquePaper
1 source