Dossier World models

307 articles

Les world models pour l'IA physique : Cosmos, Genie, V-JEPA, simulation différentiable comme alternative au sim2real classique.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO RechercheActu

Modèle du monde ancré : alignements latents prédictifs pour l'action (LeapBot-WA)

Une équipe de recherche a publié sur arXiv (référence 2607.23969v1) LeapBot-WA, un nouveau modèle de type World Action Model (WAM) pour le contrôle robotique. Contrairement aux WAM classiques qui génèrent des vidéos pixel par pixel pour prédire l'évolution d'une scène, ce qui gaspille de la capacité de calcul sur des détails visuels sans intérêt pour la tâche et rend les politiques vulnérables aux distracteurs visuels, LeapBot-WA adopte une architecture "Predictive-Latent" en s'appuyant sur le Joint-Embedding Predictive Architecture (JEPA), utilisé comme "ancre du monde" (World-Anchor). Le système prédit la dynamique physique directement dans un espace latent abstrait plutôt que de reconstruire des images. Pour relier cet espace latent aux modèles de diffusion, les auteurs introduisent un Isotropic Semantic Autoencoder (ISAE), qui remodèle l'espace latent pour éviter les dérives hors variété. L'architecture repose aussi sur un Mixture-of-Transformers asymétrique : un Anchor Diffusion Transformer guide l'entraînement d'un Action Diffusion Transformer, puis est retiré à l'inférence pour ne conserver aucun surcoût de calcul. Sur les benchmarks LIBERO et RoboTwin 2.0, LeapBot-WA atteint l'état de l'art parmi les modèles prédictifs et rivalise avec les meilleurs WAM génératifs, sans pré-entraînement massif sur trajectoires. Le code est disponible sur GitHub (LeapWM/leapbot-wa). Pour l'industrie robotique, ce résultat questionne un présupposé répandu : que la génération vidéo pixel par pixel est nécessaire pour qu'un modèle de monde capture une dynamique physique exploitable. En montrant qu'un espace latent compact suffit à égaler des générateurs vidéo lourds, tout en gagnant en robustesse zero-shot face à des environnements inédits et en démontrant un transfert réel sur robot physique, LeapBot-WA plaide pour des architectures VLA plus légères et déployables, un enjeu concret pour les intégrateurs cherchant à réduire la latence d'inférence en production plutôt qu'en démonstration. Le travail s'inscrit dans la filiation du JEPA popularisé par les travaux de Yann LeCun sur l'apprentissage auto-supervisé non génératif, appliqué ici pour la première fois comme socle central d'un WAM plutôt que comme simple module auxiliaire. Il se positionne face aux générateurs vidéo dominants du secteur (type Pi-0, GR00T N2 ou Helix) qui misent sur la synthèse pixel. Les auteurs annoncent la publication du code mais ne mentionnent pas encore de partenariat industriel ni de calendrier de déploiement commercial.

Dossier World models

Modèle du monde ancré : alignements latents prédictifs pour l'action (LeapBot-WA)

Robot-Factored World Models via le rendu de robots

ViTacWorld : passage à l'échelle des modèles du monde visuo-tactiles pour la manipulation robotique riche en contacts

Tencent Robotics X en open source de trois modèles fondation incarnés : le scientifique en chef Zhang Zhengyou explique l'architecture cérébrale à trois couches pour la vitesse de réaction des robots

KineBench : évaluation des modèles du monde incarnés par ancrage cinématique sans IDM

Robot quadrupède : navigation par imagination latente prédictive

Test-Time Scaling pour les modèles d'action du monde via évaluation géométrique zéro-shot

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

Robbyant lance LingBot-World 2.0, avec génération de monde en temps réel sur une heure

Open-AoE : un jeu de données ouvert de manipulation égocentrique et une chaîne d'outils pour l'apprentissage incarné

WALA : apprendre des actions latentes exécutables à partir de démonstrations étiquetées et de vidéos sans action

De l'IA du monde à l'IA incarnée : une feuille de route pour l'intelligence physique en monde ouvert

Regardez : le premier modèle d'IA nativement incarnée promet des robots plus intelligents et plus performants

Le titre traite d'un article de recherche technique, pas de robotique, je le traduis directement

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot

KAM-WM : cartes d'affordance cinématique à partir de modèles du monde latents pour la manipulation robotique

Chemin de planification dans des modèles du monde physiquement viables

Point Completion 3D pour les modèles du monde : une méthode plus précise d'apprentissage de la dynamique

RoboWorld : des simulateurs neuronaux rapides et fiables pour évaluer les politiques robotiques génériques

Le Fil IA fondée par des anciens de Tsinghua lève des centaines de millions de yuans : « on ne veut pas de l'étiquette modèle du monde »

WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés

Modélisation du monde en contexte pour le contrôle robotique

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique

DynaWM : distillation consciente de la dynamique avec modèle du monde pour une locomotion fluide sur escaliers continus

Modèles du monde pour la manipulation robotique

Des milliards investis dans l'IA incarnée, mais le déploiement en usine reste hors de portée

DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

Alibaba et ByteDance redoublent d'efforts sur l'IA incarnée : l'apport des géants d'internet à la robotique

WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne

PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

Daxiao Robot a levé des centaines de millions de dollars : son fondateur révèle les fractures de l'industrie de l'IA incarnée

FlowMPC : amélioration des politiques de correspondance de flux avec des modèles du monde

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance

ContactWorld : ce qui compte dans les modèles du monde vision-tactile pour la manipulation par contact

Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

World Pilot : piloter les modèles VLA avec des a priori monde-action

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts