Dossier World models — page 2

239 articles · page 2 sur 5

Les world models pour l'IA physique : Cosmos, Genie, V-JEPA, simulation différentiable comme alternative au sim2real classique.

51arXiv cs.RO RechercheOpinion

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Une équipe de chercheurs a publié fin juin 2026 SC3-Eval (arXiv:2606.18610), un cadre d'évaluation des politiques de manipulation robotique basé sur la génération vidéo cohérente. Le principe : plutôt que de rouler une politique en conditions réelles, un modèle fondamental vidéo pré-entraîné simule les trajectoires du robot et prédit si la tâche aboutit. SC3-Eval repose sur trois mécanismes de cohérence complémentaires. La cohérence dynamique avant-inverse entraîne simultanément le modèle à prédire les images à partir des actions et à récupérer les actions à partir des images, ancrant les rollouts à un espace d'action physiquement plausible. La cohérence multi-vue oblige le modèle à reconstruire chaque caméra depuis les autres, maintenant la cohérence spatiale sur de longs épisodes. Enfin, à l'inférence, un signal d'incertitude par chunk d'actions interrompt les rollouts dont les images générées divergent des actions demandées. Évalué sur sept politiques vision-langage-action (VLA) réelles, SC3-Eval atteint une corrélation de Pearson de 0,929 avec les résultats terrain et un MMRV de 0,119, surpassant trois baselines vidéo existantes. Ce résultat a une portée pratique immédiate : évaluer une politique de manipulation en conditions réelles est coûteux, lent et difficile à paralléliser. Un corrélat simulé à 0,929 constitue un substitut crédible pour filtrer les candidats politiques avant déploiement physique, réduisant potentiellement les cycles d'itération de plusieurs semaines à quelques heures. Fait notable, SC3-Eval reproduit fidèlement les modes d'échec observés en réel, permettant un diagnostic fin au niveau tâche plutôt qu'un classement agrégé, ce qui est plus actionnable pour un intégrateur. Le cadre se généralise par ailleurs à des tâches hors distribution d'entraînement, un point critique pour les équipes qui développent des politiques généralistes. Ce travail s'inscrit dans la vague d'adoption des modèles VLA commerciaux et de recherche, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix, OpenVLA, dont l'évaluation standardisée reste un goulot d'étranglement reconnu. Les approches alternatives passent par des simulateurs physiques classiques (MuJoCo, Isaac Sim) ou des rollouts réels coûteux ; les world models vidéo comme UniSim ou IRASim avaient amorcé cette direction mais se heurtaient à la dérive autorégressiveet à l'incohérence multi-caméras que SC3-Eval adresse directement. Le code et les données ne sont pas encore publiés au moment de la préprint, ce qui limite l'adoption immédiate. La prochaine étape logique sera de valider la méthode sur des plateformes humanoïdes à plus haute dimensionnalité, où le coût d'évaluation réelle est encore plus prohibitif.

Dossier World models — page 2

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Luo Jianlán : le vrai Scaling Law de la robotique naît dans la boucle fermée du déploiement réel

WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne

LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace

PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

PRISM : échantillonnage guidé par les priors dans les modèles du monde

ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents

NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Modification des activations latentes : affinage à l'inférence des politiques apprises pour une navigation multi-robots plus sûre

Modèles du monde locaux et globaux couplés pour un apprentissage par renforcement efficace du premier ordre

SKIP : paradigme d'interpolation par images-clés éparses pour modèles du monde incarnés efficaces

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

Tous les points ne se valent pas : synthèse de scènes LiDAR 4D avec conscience de l'incertitude

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

Vérificateur d'actions mondiales : modèles du monde auto-améliorés via asymétrie avant-inverse

Apprentissage auto-régressif forcé : vers un modèle du monde pour la navigation robotique à long horizon

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

GE-Sim 2.0 : une feuille de route vers des simulateurs vidéo en boucle fermée pour la manipulation robotique

Dextérité extrinsèque émergente en scènes encombrées via l'apprentissage de politique sensible à la dynamique

L’IA physique : le prochain marché que surveille déjà Wall Street

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

GigaAI dévoile son système « Dual Pyramid » d'IA générale physique pour surmonter le mur du passage à l'échelle de l'IA incarnée

GEM-4D : modèles du monde vidéo enrichis par la géométrie pour la manipulation robotique

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans

Pre-VLA : vérification préemptive à l'exécution pour fiabiliser les déroulements de modèles VLA et du monde

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées

WorldArena 2.0 : extension du benchmark de modèles du monde incarnés sur les modalités, fonctionnalités et plateformes

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

OrbiSim : des modèles du monde comme moteurs physiques différentiables pour l'IA incarnée

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

DiLA : modèles du monde à représentation d'actions latentes disentangled

Modèle du monde multimodal pour interactions physiques : prédictions visuelles et tactiles simultanées pour une précision accrue