
MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL
Des chercheurs ont publié MIND-V, un modèle de monde hiérarchique conçu pour générer automatiquement des vidéos d'entraînement de manipulation robotique à long horizon, problème resté en grande partie non résolu jusqu'ici. L'architecture s'articule autour de trois modules : un Semantic Reasoning Hub (SRH) qui s'appuie sur un vision-language model pré-entraîné pour la planification de tâches, un Behavioral Semantic Bridge (BSB) qui traduit ces instructions abstraites en représentations invariantes au domaine, et un Motor Video Generator (MVG) chargé du rendu vidéo conditionnel. Pour garantir la cohérence physique des séquences générées, les auteurs ont introduit une phase de post-entraînement par reinforcement learning GRPO pilotée par une récompense inédite, la Physical Foresight Coherence (PFC), qui mobilise V-JEPA2 (le modèle de monde de Meta) comme arbitre de physique dans l'espace latent. Les expériences en simulation montrent des résultats état de l'art sur les benchmarks long-horizon, selon les auteurs.
Le problème central que MIND-V adresse est la pénurie de données diversifiées pour l'intelligence incarnée : entraîner des politiques de manipulation requiert des milliers d'épisodes réussis sur des tâches enchaînées, données coûteuses à collecter en réel et difficiles à simuler de façon convaincante. L'approche est entièrement autonome, sans trajectoires définies manuellement, ce qui la distingue des générateurs de vidéos robotiques antérieurs limités à des clips courts et des gestes simples. La valeur opérationnelle est directe pour les équipes qui développent des VLA (Vision-Language-Action models) : des pipelines de synthèse de données à grande échelle pourraient réduire significativement la dépendance aux démonstrations téléopérées, principal goulot d'étranglement des robots comme Figure 03, Optimus ou 1X NEO.
Ce travail s'inscrit dans une vague de recherche sur les world models pour la robotique, aux côtés de Dreamer, GAIA-1 adapté au robot, et du propre V-JEPA2 de Meta qu'il intègre comme brique de validation physique. L'article, initialement soumis en décembre 2024 (arXiv:2512.06628) et mis à jour en juin 2026, reste à ce stade un résultat en simulation uniquement : aucun déploiement physique ni intégration industrielle n'est mentionné, et le franchissement du sim-to-real gap reste à démontrer sur hardware réel.
Dans nos dossiers




