IA physique : des modèles du monde aux modèles d'action, un tutoriel concis pour la robotique
Un article publié sur arXiv (2607.00836) dresse un état des lieux conceptuel des "world models" utilisés en robotique et en simulation générative, un terme dont le périmètre varie fortement selon les communautés de recherche. Les auteurs proposent une définition unifiée : un modèle du monde est un système conditionné par l'action qui prédit l'évolution future des observations ou des états pertinents pour une tâche donnée. Ils distinguent deux grandes familles : les modèles dans l'espace des observations, qui prédisent des images ou vidéos brutes, et les modèles dans l'espace des états, qui travaillent sur des représentations compactes. Chaque approche est comparée selon quatre critères : fidélité visuelle, structuration spatiale, interprétabilité physique et facilité d'usage pour le contrôle. Le papier introduit ensuite les "world action models", qui relient ces prédictions du futur à des actions robotiques exécutables, avec quatre paradigmes identifiés : imaginer puis exécuter, prédiction d'action conditionnée par des features vidéo, modélisation conjointe vidéo-action, et prédiction vidéo auxiliaire pour l'apprentissage de politiques.
Cette clarification terminologique a une portée pratique pour les équipes qui développent des politiques robotiques : elle aide à choisir entre un modèle générateur de pixels, coûteux en calcul mais riche visuellement, et un modèle d'état plus léger, plus proche du contrôle temps réel mais moins interprétable. Elle formalise aussi un débat de fond du secteur : les modèles de génération vidéo produisent des démonstrations spectaculaires, mais leur utilité réelle pour piloter un bras ou un humanoïde reste à prouver, faute de garanties physiques strictes, ce qui rejoint les critiques récurrentes sur l'écart entre démo et déploiement réel. En distinguant explicitement l'approche "imaginer puis exécuter" des méthodes qui apprennent directement une politique conjointe vidéo-action, le tutoriel donne aux intégrateurs une grille de lecture pour évaluer les annonces commerciales selon ce qu'elles modélisent vraiment, plutôt que sur la seule qualité de leurs vidéos.
Ce travail arrive alors que les world models occupent une place croissante dans la course aux modèles vision-langage-action, portée par des systèmes comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui combinent tous, à des degrés divers, prédiction du futur et génération d'actions. Sans analyser directement ces produits commerciaux, la taxonomie proposée offre un cadre académique pour resituer ces systèmes les uns par rapport aux autres, à un moment où la recherche universitaire tente de structurer conceptuellement un domaine dont la vitesse de publication industrielle a largement dépassé la théorie.
Dans nos dossiers




