MIND-V : modèle du monde hiérarchique pour la…

PhysisForcing : simulateur du monde renforcé par la physique pour la manipulation robotique

42

1arXiv cs.RO

PhysisForcing : simulateur du monde renforcé par la physique pour la manipulation robotique

Une équipe de chercheurs propose PhysisForcing (arXiv 2606.28128, juin 2026), un cadre d'entraînement conçu pour corriger les incohérences physiques des modèles de génération vidéo utilisés comme simulateurs du monde pour la manipulation robotique. Ces modèles, généralistes ou affinés sur des données robotiques, produisent régulièrement des artefacts problématiques : trajectoires discontinues, déformations d'objets en mouvement et interactions robot-objet illogiques lors des contacts. PhysisForcing intègre deux mécanismes : une perte d'alignement de trajectoire au niveau pixel (supervision des features DiT via des trajectoires de points de référence) et une perte d'alignement sémantique relationnel (alignement avec les relations inter-régions d'un encodeur vidéo figé). Sur les benchmarks R-Bench, PAI-Bench et EZS-Bench, les gains atteignent +22,3 % sur Wan2.2-I2V-A14B et +9,2 % sur Cosmos3-Nano par rapport aux baselines, soit +7,1 % et +3,7 % au-dessus du fine-tuning classique. Le variant Cosmos3-Nano obtient le meilleur score global. Dans le protocole de planification en boucle fermée WorldArena, le taux de succès passe de 16,0 % à 24,0 %. Ce résultat valide une hypothèse importante : la fidélité physique d'un simulateur vidéo se répercute directement sur les performances des politiques robotiques en aval. Le bond de 8 points sur WorldArena n'est pas un indicateur de génération d'image, c'est un signal de planification-exécution dans un simulateur. Pour les équipes de recherche et les intégrateurs, cela signifie que les world models vidéo peuvent désormais servir de banc d'essai crédible, réduisant la dépendance aux trajectoires réelles. Le framework étant applicable aux architectures DiT existantes sans modification structurelle, son adoption potentielle est large. Cela suggère aussi que le "demo gap" des world models vidéo est adressable par une supervision ciblée, et non par davantage de données brutes. PhysisForcing s'inscrit dans le sillage de Cosmos (NVIDIA, fin 2024), qui a lancé la dynamique des simulateurs vidéo généralistes pour la robotique. Des travaux concurrents comme UniSim (Google DeepMind) ou IRASim explorent des directions similaires. Aucun acteur européen n'est impliqué dans ce papier. Il s'agit d'un preprint non encore évalué par des pairs, sans code open-source annoncé ni déploiement industriel. Les prochaines étapes naturelles incluent la validation sim-to-real sur matériel réel et l'intégration dans des pipelines de politiques VLA (Vision-Language-Action).

IA physiqueOpinion

1 source

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

45

2arXiv cs.RO

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.13672) WEAVER (World Estimation Across Views for Embodied Reasoning), une architecture de modèle de monde (world model, WM) dédiée à la manipulation robotique. Le système, multi-vue, est entraîné à prédire des représentations latentes futures et des valeurs de récompense via une perte de flow-matching. Sur robot physique, WEAVER atteint une corrélation ρ = 0,870 entre trajectoires simulées et taux de succès réel en évaluation de politique (policy evaluation). Appliqué à l'amélioration de politique (policy improvement), il produit un gain de 38 % de taux de succès réel au-dessus du modèle de fondation robotique π₀.₅ de Physical Intelligence. En planification à l'inférence (test-time planning), il ajoute 14 % de succès supplémentaires, avec une vitesse de génération 5 à 10 fois supérieure aux WMs précédents. Le code, les modèles et les vidéos sont publiquement accessibles. Les modèles de monde représentent un levier structurant pour la robotique : évaluer ou améliorer des politiques de contrôle, planifier à l'exécution, sans multiplier les interactions coûteuses en environnement réel. Le verrou technique est triple, fidélité (les trajectoires simulées doivent refléter la réalité), cohérence sur longue horizon (les simulations ne doivent pas diverger dans le temps), et efficacité computationnelle. WEAVER satisfait simultanément ces trois critères là où les architectures précédentes échouaient généralement sur au moins l'un d'eux, en particulier sur la cohérence à long horizon pour des tâches de manipulation dynamique complexes. Le gain de 38 % sur π₀.₅ est particulièrement significatif : il démontre qu'un WM peut améliorer un modèle de fondation déjà performant sans collecte de données additionnelles en conditions réelles, réduisant ainsi les coûts de déploiement pour les intégrateurs industriels. Ce travail s'inscrit dans une compétition accélérée autour des world models pour la robotique embodied. Physical Intelligence avec π₀ et π₀.₅, Google DeepMind avec ses variantes RT et RoboDreamer, ainsi que des équipes académiques de Berkeley, CMU et Stanford ont chacun proposé des approches partielles. WEAVER se positionne comme une synthèse architecturale, avec un soin particulier apporté à la gestion de la mémoire et au traitement multi-vue. Aucun partenariat industriel ni calendrier commercial n'est annoncé à ce stade, et la validation reste circonscrite à des environnements de laboratoire contrôlés. La question centrale du sim-to-real gap à l'échelle, dans des environnements industriels non structurés, reste entièrement ouverte.

💬 38 % de gain sur π₀.₅ sans ajouter une seule donnée en conditions réelles, c'est du concret. Ce qui est rare, c'est qu'ils résolvent les trois verrous en même temps : fidélité, cohérence à long horizon, vitesse de génération. Le sim-to-real à l'échelle industrielle reste entier, mais pour l'instant c'est l'architecture la plus sérieuse que j'ai vue sur le sujet.

IA physiqueOpinion

1 source

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

41

3arXiv cs.RO

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

Des chercheurs ont déposé le 1er juin 2026 sur arXiv (réf. 2606.01027) τ₀-WM (tau-zéro World Model), une architecture unifiée vidéo-action pour la manipulation robotique. Le modèle repose sur un backbone de diffusion vidéo partagé qui intègre simultanément apprentissage de politique, prédiction vidéo et évaluation d'actions au sein d'un même cadre prédictif. Il expose deux interfaces complémentaires : un modèle d'action vidéo qui prédit conjointement des représentations visuelles latentes futures et des séquences d'actions continues à partir d'observations multi-caméras, d'instructions en langage naturel et de l'état courant du robot ; et un simulateur vidéo conditionné sur l'action, capable de dérouler des séquences candidates en projections multi-vues tout en attribuant des scores denses de progression de tâche. L'entraînement porte sur environ 27 300 heures de données combinant téléopération réelle, interactions de style UMI (Universal Manipulation Interface, protocole de collecte de données en bimanuel développé par Stanford), vidéos égocentrées humaines, et trajectoires de succès comme d'échecs. L'intérêt principal réside dans la convergence entre politique et modèle de monde au sein d'une architecture commune. Les VLA (Vision-Language-Action models) actuels génèrent des actions sans anticiper leurs conséquences, laissant la gestion des erreurs à des modules séparés. τ₀-WM introduit un mécanisme de rectification à l'inférence : le simulateur évalue chaque séquence candidate via un score dense de progression, et les candidats jugés insuffisants sont corrigés par re-débruitage. Ce test-time scaling structuré pourrait réduire les interventions humaines sur des tâches longue durée, un enjeu clé pour les intégrateurs industriels qui peinent encore à déployer des robots autonomes sur des séquences de plus de quelques étapes. Sur les benchmarks de manipulation fine et longue séquence, les auteurs déclarent surpasser les baselines comparables, sans préciser les conditions expérimentales ni les contraintes matérielles testées. Ce travail s'inscrit dans une course engagée depuis fin 2024 entre Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Figure (Helix) pour des architectures VLA à grande échelle, mais rares sont celles qui intègrent simulation interne et évaluation d'action dans un seul modèle plutôt que dans un pipeline découplé. L'usage de données UMI signale une stratégie d'agrégation multi-source qui dépasse les corpus propriétaires et pourrait favoriser la généralisation à de nouveaux environnements. Le papier reste pour l'instant un preprint non soumis à revue par les pairs : les performances annoncées restent à valider sur robot physique en conditions réelles, et aucune date de déploiement ou partenariat industriel n'est mentionné.

IA physiqueOpinion

1 source

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

42

4arXiv cs.RO

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

IA physiqueOpinion

1 source

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

À lire aussi

PhysisForcing : simulateur du monde renforcé par la physique pour la manipulation robotique

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste