
WorldArena 2.0 : extension du benchmark de modèles du monde incarnés sur les modalités, fonctionnalités et plateformes
WorldArena 2.0 est un benchmark pour l'évaluation des "world models incarnés" (embodied world models), présenté dans un preprint arXiv (2605.17912) en mai 2026. Ces modèles prédictifs entraînent des agents à anticiper l'évolution de leur environnement selon leurs propres actions, une capacité fondamentale pour la robotique autonome. Le benchmark étend l'évaluation sur trois axes : la modalité (de la vision seule vers la perception visuotactile, intégrant le toucher), la fonctionnalité (au-delà de la planification, vers l'utilisation du world model comme environnement d'entraînement par renforcement interactif), et la plateforme (depuis les simulateurs vers des robots physiques à morphologies variées). La suite est accessible sur world-arena.ai sous un protocole standardisé mesurant qualité perceptuelle, utilité interactive et performances cross-plateforme.
Le principal apport est de combler un angle mort méthodologique : les benchmarks existants pour les world models se limitaient à la prédiction vidéo hors-ligne, dans des simulateurs, sans évaluer leur utilité dans une boucle RL ni leur comportement sur robots réels. Cette restriction rendait presque impossible de trancher si un world model est réellement utile pour un intégrateur : capable de générer des expériences synthétiques fiables pour affiner une politique de contrôle, et robuste face aux imprécisions du contact physique. L'extension visuotactile est particulièrement significative, le retour haptique étant un verrou connu du sim-to-real pour la manipulation.
Ce benchmark succède à une première version de WorldArena centrée sur la simulation, et répond à une critique croissante dans la communauté : les métriques de qualité vidéo (FID, PSNR) ne prédisent pas la performance effective d'un agent sur robot physique. Sur le plan concurrentiel, WorldArena 2.0 s'inscrit aux côtés d'initiatives comme RoboVerse ou les suites d'évaluation des VLAs (Vision-Language-Action models) portées par DeepMind et Meta AI. Aucun acteur français ou européen n'est mentionné dans ce preprint, qui reste une contribution académique sans partenariat industriel annoncé. Les étapes suivantes logiques incluent l'extension à des humanoïdes complets et l'intégration de modalités supplémentaires comme la proprioception.
Dans nos dossiers




