Aller au contenu principal
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
IA physiquearXiv cs.RO2h

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace.

L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours.

Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

Impact France/UE

Les laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 Le point de vue du dev

La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

À lire aussi

IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3
1NVIDIA Developer Blog 

IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3

NVIDIA a annoncé Cosmos 3, un modèle fondamental de frontière dédié à l'IA physique, conçu pour doter les robots, les véhicules autonomes et les espaces intelligents d'une capacité de compréhension du monde réel. L'architecture de Cosmos 3 repose sur trois composantes intégrées : des modèles de raisonnement physique, des modèles de monde et des modèles d'action, permettant à un système de percevoir son environnement, d'anticiper les événements à venir et de produire des séquences d'actions adaptées à une incarnation physique et à une tâche spécifiques. Ce type d'approche unifiant raisonnement, simulation et action au sein d'un seul modèle fondamental représente un changement de paradigme pour les intégrateurs robotiques. Jusqu'ici, ces trois briques étaient souvent développées séparément, ce qui générait des lacunes au niveau du transfert sim-to-real. Un modèle entraîné à raisonner sur la physique du monde avant de planifier l'action offre théoriquement une meilleure généralisation sur des tâches non vues en production, bien que les benchmarks industriels indépendants restent à confirmer. NVIDIA avait introduit la plateforme Cosmos en janvier 2025 au CES, positionnant alors ses modèles génératifs de monde comme infrastructure pour les fabricants de robots et les constructeurs automobiles. Cosmos 3 s'inscrit dans cette trajectoire d'itération rapide, face à une concurrence directe : Google DeepMind avec les modèles Gemini Robotics et RT-2, Physical Intelligence (pi) avec Pi-0, et Figure AI avec ses propres VLA. L'enjeu pour NVIDIA est de s'imposer comme couche d'infrastructure fondamentale de l'IA physique, au-delà du seul matériel GPU.

UENVIDIA Cosmos 3 pourrait devenir une couche d'infrastructure fondamentale adoptée par les intégrateurs robotiques européens (ABB, KUKA, Stäubli), mais l'impact réel dépendra des benchmarks industriels indépendants et des conditions d'accès à la plateforme.

💬 Le vrai pari de NVIDIA avec Cosmos 3, c'est de s'imposer comme couche d'infrastructure logicielle de l'IA physique, au-delà du GPU. Raisonner sur la physique avant de planifier l'action, et unifier les trois briques dans un seul fondamental, c'est exactement ce qui manquait pour réduire les galères de transfert sim-to-real qui plombent les déploiements robotiques depuis des années. Sans benchmarks industriels indépendants, ça reste du déclaratif, mais la direction est la bonne.

IA physiqueOpinion
1 source
Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique
2arXiv cs.RO 

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique

Une équipe de chercheurs propose PhysGen, un cadre d'apprentissage publié en prépublication sur arXiv (réf. 2603.00110v2), qui exploite des modèles de génération vidéo pré-entraînés comme substituts de simulateurs physiques pour la manipulation robotique. L'idée centrale est de traiter la vidéo générée de manière autorégressive comme un proxy du monde physique, et d'y greffer des actions robotiques continues via une représentation unifiée baptisée "physical tokens", des jetons partagés qui fusionnent la modalité vidéo et les commandes motrices. Pour assurer la convergence, PhysGen intègre du masquage causal, de la cinématique inverse, une prédiction multi-tokens anticipative (L-MTP) et du cache clé-valeur (KV caching). Sur les benchmarks Libero et ManiSkill, le système surpasse OpenVLA de 13,8 points et WorldVLA de 8,8 points. Plus frappant : en conditions réelles, PhysGen atteint les performances de π₀ (Physical Intelligence) sur des tâches physiquement exigeantes, notamment la saisie d'objets transparents, sans avoir bénéficié d'un pré-entraînement spécifique aux données d'action. L'enjeu pour l'industrie est direct : la pénurie de données robotiques à grande échelle reste le principal frein à la généralisation des politiques de manipulation. PhysGen contourne ce goulot en recyclant des modèles vidéo entraînés sur des corpus massifs d'internet pour en extraire une intuition physique implicite, permanence des objets, dynamique de contact, sans collecter de trajectoires robot. Le fait de rivaliser avec π₀ sans son pré-entraînement propriétaire sur des données d'action est une validation partielle de l'hypothèse que le "sim-to-real gap" peut être réduit par la connaissance du monde visuel plutôt que par des démonstrations téléopérées. Cela dit, les résultats restent issus d'un papier de recherche avec des benchmarks sélectifs ; la robustesse sur des scènes industrielles non structurées reste à démontrer. PhysGen s'inscrit dans un courant actif qui voit les laboratoires de robotique piller les architectures de génération multimodale pour nourrir leurs politiques de contrôle : UniSim, Genie, et surtout WorldVLA avaient déjà exploré cette piste. Physical Intelligence (π₀) représente aujourd'hui la référence en termes de performances sur tâches réelles grâce à son pré-entraînement massif sur données d'action hétérogènes, ce qui rend la comparaison de PhysGen d'autant plus significative. OpenVLA (Berkeley) constitue le concurrent open-source direct. La prochaine étape logique pour les auteurs serait une évaluation sur des manipulateurs industriels multi-DOF en environnement non contrôlé, et une intégration avec des pipelines de données synthétiques pour réduire encore la dépendance aux démonstrations humaines.

IA physiqueOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
3arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

IA physiqueOpinion
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
4arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

IA physiqueOpinion
1 source