
ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés
Des chercheurs ont publié sur arXiv (référence 2604.16405) un système d'évaluation baptisé ICAT, Incident-Case-Grounded Adaptive Testing, ciblant une lacune précise des modèles de monde vidéo-génératifs : leur capacité à prédire les risques physiques dans des contextes d'action incarnée. Ces modèles, utilisés comme simulateurs neuronaux pour la planification et l'apprentissage de politiques en robotique embarquée, sont soumis à des scénarios de risque construits à partir de rapports d'incidents réels et de manuels de sécurité. ICAT structure ces sources en mémoires de risques, puis les récupère et les compose pour générer des cas de test avec chaînes causales et étiquettes de sévérité. Les expériences menées sur un benchmark dérivé de cette méthode révèlent que les modèles de monde courants omettent fréquemment les mécanismes déclencheurs des situations dangereuses et mal-calibrent systématiquement le niveau de sévérité des conséquences.
Ce résultat a des implications directes pour quiconque envisage d'utiliser des world models comme substrat d'entraînement ou de planification pour des systèmes robotiques en environnement réel. Un modèle qui minimise ou ignore les signaux de danger dans ses rollouts imaginés peut inculquer des préférences comportementales non sûres à la politique apprise, sans que l'ingénieur ne le détecte en phase de simulation. Le gap sim-to-real prend ici une dimension nouvelle : ce n'est plus seulement une question de fidélité physique (textures, friction, dynamique), mais de fiabilité dans la représentation des conséquences graves. Pour les intégrateurs qui s'appuient sur des VLA (Vision-Language-Action models) entraînés sur des trajectoires synthétiques, c'est un signal d'alerte concret sur l'absence de métriques de sécurité standardisées dans les pipelines d'évaluation actuels.
Les modèles de monde vidéo-génératifs, dont UniSim, DreamerV3, ou les approches issues de Genie et GameNGen, ont connu un regain d'intérêt comme alternatives aux simulateurs physiques classiques (MuJoCo, Isaac Sim), notamment pour leur capacité à généraliser à partir de vidéos brutes. Mais leur évaluation reste dominée par des métriques visuelles (FID, FVD) peu corrélées à la sécurité opérationnelle. ICAT propose un protocole ancré dans les données d'incidents industriels, ce qui le différencie des benchmarks synthétiques existants. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade ; il s'agit d'une contribution académique, et la robustesse du benchmark lui-même reste à valider sur un périmètre de modèles plus large.



