
Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique
Une étude soumise sur arXiv le 8 mai 2025 (arXiv:2605.06388) remet en question le choix dominant des espaces latents dans les modèles de monde pour la robotique. Les auteurs comparent six encodeurs, répartis en deux familles, selon un protocole d'évaluation commun sur le dataset BridgeV2, référence de manipulation robotique généraliste. Les encodeurs de reconstruction testés sont VAE (standard actuel) et Cosmos (NVIDIA) ; les encodeurs sémantiques incluent V-JEPA 2.1 (Meta), Web-DINO et SigLIP 2 (Google). Le cadre évalué est celui des modèles de diffusion latente conditionnés par l'action (LDM), utilisés comme proxy de simulation pour tester des politiques de contrôle robot sans déploiement physique. L'évaluation repose sur trois axes : fidélité visuelle pixel-level, performance en planification et évaluation de politiques en aval, et qualité intrinsèque des représentations latentes.
Les résultats invalident une hypothèse implicite courante dans le domaine : une bonne reconstruction pixel ne suffit pas à produire un bon modèle de monde opérationnel. VAE et Cosmos atteignent les meilleurs scores de fidélité visuelle, mais V-JEPA 2.1 domine sur l'axe le plus critique, la performance des politiques, tandis que Web-DINO et SigLIP 2 excellent sur les deux axes restants, et ce à toutes les échelles de modèles testées. Pour un intégrateur ou un labo qui construit des pipelines sim-to-real, cela implique que le choix de l'encodeur dans la stack LDM n'est pas un détail d'implémentation : il conditionne directement la qualité des politiques apprises. La fidélité visuelle, souvent retenue comme métrique de validation principale, s'avère un indicateur trompeur du potentiel d'un modèle de monde pour le contrôle robotique.
Ce travail s'inscrit dans une course de fond autour des modèles de monde pour la robotique, impliquant des acteurs comme Physical Intelligence (pi-0), Figure AI et des équipes académiques autour des RoboVLMs. L'adoption des LDMs comme infrastructure d'évaluation de politiques s'est accélérée depuis 2023 avec l'essor des VLAs (Vision-Language-Action models). Le VAE reste l'encodeur par défaut dans la majorité des implémentations ouvertes, héritage direct des pipelines de diffusion image (Stable Diffusion, LDM de Rombach et al., 2022). Ce preprint, non encore évalué par des pairs, plaide pour un pivot vers les encodeurs à représentations sémantiques, une direction qui converge avec les travaux de Meta sur V-JEPA 2 et de Google sur SigLIP. Les étapes suivantes naturelles incluraient une validation sur des datasets robotiques plus diversifiés et des expériences en déploiement physique réel pour confirmer le transfert sim-to-real.
Dans nos dossiers




