PRISM : échantillonnage guidé par les priors dans les modèles du monde
Une équipe de chercheurs a publié PRISM (PRior-guided Imagination Sampling in world Models), un framework de planification basée sur les modèles du monde pour le contrôle continu en robotique. L'approche cible un angle précis : dans la planification par MPC (Model Predictive Control), la qualité des actions candidates générées pour évaluation compte autant que la précision du simulateur lui-même. PRISM repose sur un modèle de monde latent de style JEPA (Joint Embedding Predictive Architecture) auquel est attaché un MLP léger branché sur l'encodeur gelé du modèle. Ce MLP prédit un prior gaussien conditionné à l'état courant ; au moment de la planification, PRISM fusionne ce prior dans la distribution d'échantillonnage via une mise à jour Product-of-Gaussians pondérée par précision, une opération en forme fermée sans paramètres additionnels. Les gains mesurés atteignent +35 points de pourcentage sur la tâche Cube et +32 points sur PushT face à un MPC standard sur modèle du monde, sans surcoût d'inférence significatif.
Pour les praticiens du contrôle robotique, l'enjeu est concret. Les planificateurs existants compensent l'inefficacité d'exploration en important des encodeurs visuels indépendants ou des VLMs (Vision Language Models) de grande taille pour construire un prior d'actions, ce qui alourdit l'architecture et complique le déploiement embarqué. PRISM extrait ce prior directement des représentations apprises par le modèle du monde, depuis le même jeu de données d'entraînement, sans composant externe. Le mécanisme s'auto-régule naturellement : le prior est confiant là où les données sont denses, et s'efface là où elles sont rares. Pour un ingénieur en manipulation industrielle ou un intégrateur système, c'est un gain d'efficacité d'échantillonnage sans refonte de l'infrastructure existante.
PRISM s'inscrit dans la lignée des travaux sur les modèles du monde pour le contrôle incarné, dont JEPA (Meta/LeCun), TD-MPC2 et Dreamer v3 sont des jalons récents, et dont l'efficacité en phase de planification reste un problème ouvert. Les approches concurrentes privilegient des modèles de grande taille intégrant nativement un prior d'action, comme les VLA (Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), une philosophie diamétralement opposée à la compacité revendiquée par PRISM. Point de vigilance : les benchmarks utilisés, Cube et PushT, sont des environnements de manipulation simulés relativement standards. La validation sur hardware réel et en manipulation dextre en conditions non structurées reste à venir, ce qui tempère la portée opérationnelle des gains annoncés.
Dans nos dossiers




