PhysisForcing : simulateur du monde renforcé par la physique pour la manipulation robotique
Une équipe de chercheurs propose PhysisForcing (arXiv 2606.28128, juin 2026), un cadre d'entraînement conçu pour corriger les incohérences physiques des modèles de génération vidéo utilisés comme simulateurs du monde pour la manipulation robotique. Ces modèles, généralistes ou affinés sur des données robotiques, produisent régulièrement des artefacts problématiques : trajectoires discontinues, déformations d'objets en mouvement et interactions robot-objet illogiques lors des contacts. PhysisForcing intègre deux mécanismes : une perte d'alignement de trajectoire au niveau pixel (supervision des features DiT via des trajectoires de points de référence) et une perte d'alignement sémantique relationnel (alignement avec les relations inter-régions d'un encodeur vidéo figé). Sur les benchmarks R-Bench, PAI-Bench et EZS-Bench, les gains atteignent +22,3 % sur Wan2.2-I2V-A14B et +9,2 % sur Cosmos3-Nano par rapport aux baselines, soit +7,1 % et +3,7 % au-dessus du fine-tuning classique. Le variant Cosmos3-Nano obtient le meilleur score global. Dans le protocole de planification en boucle fermée WorldArena, le taux de succès passe de 16,0 % à 24,0 %.
Ce résultat valide une hypothèse importante : la fidélité physique d'un simulateur vidéo se répercute directement sur les performances des politiques robotiques en aval. Le bond de 8 points sur WorldArena n'est pas un indicateur de génération d'image, c'est un signal de planification-exécution dans un simulateur. Pour les équipes de recherche et les intégrateurs, cela signifie que les world models vidéo peuvent désormais servir de banc d'essai crédible, réduisant la dépendance aux trajectoires réelles. Le framework étant applicable aux architectures DiT existantes sans modification structurelle, son adoption potentielle est large. Cela suggère aussi que le "demo gap" des world models vidéo est adressable par une supervision ciblée, et non par davantage de données brutes.
PhysisForcing s'inscrit dans le sillage de Cosmos (NVIDIA, fin 2024), qui a lancé la dynamique des simulateurs vidéo généralistes pour la robotique. Des travaux concurrents comme UniSim (Google DeepMind) ou IRASim explorent des directions similaires. Aucun acteur européen n'est impliqué dans ce papier. Il s'agit d'un preprint non encore évalué par des pairs, sans code open-source annoncé ni déploiement industriel. Les prochaines étapes naturelles incluent la validation sim-to-real sur matériel réel et l'intégration dans des pipelines de politiques VLA (Vision-Language-Action).
Dans nos dossiers




