Transfert simulation-réel efficace de modèles monde-action à partir de données synthétiques
Le fossé sim-to-real reste un défi central pour déployer des politiques de manipulation apprises, car il permet en théorie de remplacer des démonstrations réelles coûteuses par des données synthétiques bon marché à grande échelle. Publiée le 30 juin 2026 (arXiv:2606.31101), une étude teste si un "world-action model", un modèle combinant prédiction visuelle et contrôle moteur, peut être entraîné uniquement en simulation puis déployé sans aucune démonstration réelle. L'équipe part de Cosmos Policy, un modèle de diffusion vidéo adapté au contrôle visuomoteur, et construit des environnements simulés avec une randomisation poussée des domaines. Les démonstrations d'entraînement, environ 800 par tâche, sont générées automatiquement via le pipeline de planification de mouvement AnyTask, sans donnée réelle. Trois tâches sont testées: soulever un objet, ouvrir un tiroir, et effectuer un pick-and-place. Déployé en zero-shot sur un bras robotique Franka, le modèle atteint un taux de réussite moyen de 35%.
Ce résultat, même modeste, répond à une question ouverte du secteur: les world-action models peuvent-ils transférer du simulateur au monde réel sans coûteuses démonstrations humaines? Jusqu'ici, aucun travail n'avait démontré ce transfert pour la manipulation robotique. Un taux de 35% reste loin des standards attendus pour un déploiement industriel, souvent supérieurs à 80%, et confirme que le fossé sim-to-real demeure un obstacle réel, non résolu par la seule échelle des données synthétiques. Pour les intégrateurs et décideurs B2B, le signal est clair: remplacer la téléopération humaine par de la donnée simulée reste au stade de preuve de concept, pas de solution prête à l'emploi.
Le travail s'inscrit dans la lignée des modèles de fondation robotiques récents comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure, qui cherchent tous à réduire la dépendance aux démonstrations réelles. Cosmos Policy dérive des travaux de NVIDIA sur les modèles de monde Cosmos. La méthode AnyTask pour générer automatiquement des trajectoires en simulation illustre une tendance plus large: automatiser la création de données d'entraînement plutôt que multiplier les téléopérations en laboratoire, approche également explorée par Physical Intelligence ou Skild AI. Les auteurs présentent ce résultat comme une première preuve de faisabilité, sans calendrier de commercialisation ni partenariat industriel annoncé.




