
$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction
Des chercheurs présentent μ₀ (mu-zéro), un modèle mondial 3D à base de traces d'interaction, publié en préprint sur arXiv (2506.13769) en juin 2025. Plutôt que de reconstruire des pixels denses comme les modèles vidéo, ou d'exiger des étiquettes d'action spécifiques à chaque morphologie robotique, μ₀ prédit des trajectoires 3D lisses pour des points saillants : objets, outils, mains et zones de contact, encodées en points de contrôle B-spline. Le système TraceExtract extrait automatiquement cette supervision depuis des vidéos diversifiées, en sélectionnant des points clés, construisant des traces alignées globalement et associant chaque segment à des légendes linguistiques hiérarchiques. L'architecture couple un backbone vision-langage préentraîné à un expert de traces modulaire. Dans les expériences de laboratoire, μ₀ dépasse les baselines en prédiction de traces 2D et 3D, y compris les approches VLM tokenisées.
L'enjeu central est l'interopérabilité cross-embodiment : permettre à une politique robotique d'opérer sur différentes morphologies sans données d'action spécifiques. Les VLA comme π₀ de Physical Intelligence ou GR00T N2 de NVIDIA nécessitent des téléopérations coûteuses pour étiqueter les actions, freinant la scalabilité. μ₀ contourne ce verrou en apprenant une représentation intermédiaire agnostique à l'embodiment, couplable ensuite à des experts d'action légers par morphologie cible. Résultat notable : malgré un préentraînement entièrement sans étiquettes d'action, les politiques trace-conditionnées atteignent des performances compétitives avec π₀, un VLA entraîné avec supervision d'action complète. Si cette généralisation se confirme à l'échelle, des politiques de manipulation pourraient être entraînées massivement sur des vidéos génériques, humaines ou issues de la simulation, sans collecte de données robot-spécifiques.
La robotique de manipulation cherche depuis des années à s'affranchir des données proprioceptives labellisées, coûteuses à collecter. Deux approches dominent actuellement : les modèles vidéo pixel-dense comme UniSim ou Genie, et les VLA directs comme OpenVLA, π₀ ou GR00T N2, chacun présentant ses propres limites de scalabilité ou de spécificité. μ₀ propose un troisième espace latent, la trace 3D compacte, entraînable sur des vidéos brutes. Les concurrents les plus proches incluent les travaux de point-tracking tels que TAPIR et CoTracker, ainsi que les modèles d'action en espace latent. Le papier reste un préprint de laboratoire sans déploiement industriel annoncé, et la robustesse en environnement réel non contrôlé reste à démontrer. Les prochaines étapes logiques incluent la validation sur des flottes multi-robots hétérogènes et l'intégration dans des pipelines d'imitation learning à grande échelle.
Dans nos dossiers




