ICAT : tests adaptatifs fondés sur des incidents…

IA physique : modèle du monde 3D fondé sur les principes physiques pour la manipulation d'objets dynamiques (PhysMani)

35

1arXiv cs.RO

IA physique : modèle du monde 3D fondé sur les principes physiques pour la manipulation d'objets dynamiques (PhysMani)

Des chercheurs présentent PhysMani, un framework qui couple un modèle du monde en Gaussiennes 3D fondé sur la physique avec un modèle de politique d'action anticipatif, pour la manipulation d'objets rapides et dynamiques en environnement 3D non structuré. Le modèle du monde apprend un champ de vitesse gaussien à divergence nulle par optimisation en ligne, ce qui permet une prédiction rapide et physiquement cohérente de la dynamique future de la scène. Le modèle de politique intègre ensuite ces prédictions via un module d'attention croisée à base de tokens appris. Les auteurs introduisent également PhysMani-Bench, un nouveau benchmark de manipulation dynamique composé de 16 tâches, et rapportent un taux de réussite supérieur à des baselines solides, aussi bien en simulation que lors d'expériences avec un robot réel. Le papier, publié sur arXiv (2607.01938), ne précise ni la plateforme robotique utilisée ni de métriques chiffrées exactes (taux de réussite, temps de cycle, charge utile), ce qui en fait à ce stade une contribution de recherche plutôt qu'un produit ou un déploiement commercial. Pour l'industrie robotique, ce travail s'attaque à un point faible connu des modèles vision-langage-action (VLA) et des world models existants: leur difficulté à représenter une géométrie 3D précise et à anticiper une dynamique physiquement plausible pour des objets en mouvement rapide. La manipulation de cibles dynamiques, objets qui tombent, glissent ou sont lancés, reste l'un des angles morts des démonstrations actuelles de bras robotiques et d'humanoïdes, la plupart des systèmes généralistes étant surtout validés sur de la manipulation quasi statique. Si les résultats de PhysMani se confirment au-delà du cadre académique, cela ouvrirait une piste pour réduire l'écart entre démonstration en laboratoire et usage réel en logistique ou en industrie, où la prise d'objets en mouvement est fréquente sur convoyeur ou en tri à cadence élevée. Mais tant que l'étude reste limitée à un benchmark maison et sans comparaison indépendante, il s'agit d'une preuve de concept à confirmer, pas d'une solution prête à intégrer. Ce travail s'inscrit dans la lignée des world models 3D construits sur des représentations en Gaussiennes, une technique héritée du rendu de scènes et de plus en plus utilisée en robotique pour modéliser des environnements denses. Ces approches se positionnent face aux modèles VLA de bout en bout entraînés sur de larges corpus de démonstrations, popularisés par des acteurs comme Physical Intelligence avec Pi-0 ou NVIDIA avec GR00T N2, ainsi qu'aux world models déjà exploités par d'autres équipes de recherche en manipulation. Aucun partenaire industriel ni acteur français ou européen n'est mentionné dans l'abstract. La suite logique pour les auteurs serait d'étendre le benchmark, de tester la méthode sur des plateformes robotiques variées, et de la comparer directement aux VLA généralistes pour situer PhysMani face aux solutions déjà commercialisées.

RechercheOpinion

1 source

ViPSim : collaboration entre espaces visuels et paramétriques pour des modèles du monde incarnés cohérents sur le long terme

41

2arXiv cs.RO

ViPSim : collaboration entre espaces visuels et paramétriques pour des modèles du monde incarnés cohérents sur le long terme

Des chercheurs ont publié le 30 juin 2026 un article de préprint (arXiv:2606.28804) présentant ViPSim, un framework de simulation destiné à entraîner et évaluer des systèmes Vision-Langage-Action (VLA) sans risque pour le matériel réel. Le problème central qu'adresse ViPSim est le "representation gap" : les modèles de monde incarné (Embodied World Models, EWMs) doivent traduire des actions en basse dimension (positions articulaires, vitesses) en vidéos haute résolution cohérentes sur de longues séquences. Sans correctif, cette asymétrie produit une dérive de trajectoire cumulée et des interactions robot-objet incohérentes dès qu'on dépasse quelques pas de simulation. Pour y remédier, ViPSim combine deux espaces complémentaires : un Visual Space qui fournit des ancrages géométriques explicites (projections pixel-alignées de la pose de l'effecteur, perspectives caméra, géométrie de scène assistée par la profondeur, masques morphologiques du robot) et un Parameter Space qui injecte les séquences d'action brutes et les matrices caméra pour guider précisément le mouvement. Les expériences rapportées montrent que l'approche est backbone-agnostic, c'est-à-dire indépendante de l'architecture de génération vidéo sous-jacente. L'enjeu industriel est direct : le principal frein à l'utilisation des EWMs comme bancs de test pour les VLA est précisément leur manque de fidélité géométrique sur des horizons longs, ce qui rend leurs évaluations peu fiables pour des tâches de manipulation complexe. ViPSim prétend résoudre ce verrou, et les résultats préliminaires indiquent une capacité émergente sur des objets déformables, notamment le pliage de tissu, un cas d'usage notoire pour mettre en échec les simulateurs rigides classiques. Le framework conserverait également des performances robustes dans des scénarios hors-distribution et en cross-embodiment, c'est-à-dire appliqué à des morphologies robotiques non vues à l'entraînement. Pour un intégrateur ou un équipementier cherchant à réduire les coûts de collecte de données réelles, un simulateur de ce type permettrait d'accélérer le cycle de validation des politiques VLA avant déploiement terrain. Il convient toutefois de nuancer : il s'agit d'un preprint académique sans validation industrielle publiée, et les vidéos de démonstration sélectionnées ne constituent pas une preuve de performance en production. Le contexte est celui d'une course effrénée à la simulation haute-fidélité pour robots incarnés, portée par la montée en puissance des architectures VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Ces modèles nécessitent des volumes massifs de données de démonstration, et la génération synthétique en est le principal levier de scalabilité. Des frameworks concurrents comme UniSim, IRASim ou Genesis s'attaquent au même problème avec des approches différentes, certains privilégiant la physique explicite, d'autres la génération neuronale pure. ViPSim se positionne sur la cohérence géométrique longue durée plutôt que sur le réalisme visuel brut, une niche encore peu couverte. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication actuelle : il s'agit pour l'instant d'une contribution de recherche ouverte, sans implémentation publique annoncée.

RechercheOpinion

1 source

Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint

49

3arXiv cs.RO

Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint

Des chercheurs de Meta AI (FAIR) ont publié une étude systématique des modèles du monde à architecture prédictive par plongement conjoint, désignés sous l'acronyme JEPA-WM (Joint-Embedding Predictive Architecture World Models), appliqués à la planification physique d'agents autonomes. L'équipe a analysé trois dimensions techniques critiques : architecture du modèle, objectif d'entraînement et algorithme de planification, sur des environnements simulés et sur des données robotiques réelles, pour des tâches de navigation et de manipulation. Au terme de cette ablation, ils proposent une configuration qui surpasse deux baselines de référence, DINO-WM et V-JEPA-2-AC. Le code, les checkpoints et les données sont accessibles publiquement sur GitHub (facebookresearch/jepa-wms). L'originalité des JEPA-WM tient à leur mode de planification : plutôt que d'opérer dans l'espace d'entrée brut (pixels, vecteurs d'état), ces modèles planifient dans l'espace de représentation appris, ce qui permet d'abstraire les détails visuels non pertinents et d'accélérer la recherche de trajectoires. La contribution principale de ce travail n'est pas une nouvelle architecture, mais un guide empirique des choix qui font réellement la différence. Pour un intégrateur ou une équipe R&D robotique, cela comble un vide récurrent dans la littérature : savoir quelles décisions d'implémentation ont de l'impact, et lesquelles n'en ont pas. Le fait que les expériences couvrent des données réelles, et pas uniquement de la simulation, renforce la crédibilité des conclusions et réduit partiellement le problème classique du gap sim-to-real qui fragilise beaucoup de travaux sur les world models pour la manipulation. Les JEPA (Joint-Embedding Predictive Architectures) constituent une famille de modèles portée par Yann LeCun et FAIR comme alternative aux architectures génératives classiques (diffusion, autorégressif) pour modéliser le monde physique. V-JEPA-2, sorti début 2025, en représentait une étape clé ; V-JEPA-2-AC, l'une des baselines ici surpassées, en est la variante avec conditionnement par actions. DINO-WM, l'autre référence, combine des features DINO avec une planification par modèle du monde. Cette étude s'inscrit dans un contexte de forte compétition autour des modèles fondationnels pour la robotique, où Physical Intelligence (pi.), Google DeepMind, et des acteurs européens comme Enchanted Tools ou Wandercraft développent leurs propres pipelines de planification et de contrôle. Les prochaines étapes naturelles incluraient une mise à l'échelle des données d'entraînement et une extension à des morphologies robotiques plus variées, notamment humanoïdes.

UELes guidelines empiriques et checkpoints open-source de FAIR pourraient bénéficier directement aux équipes R&D européennes (Enchanted Tools, Wandercraft) développant leurs propres pipelines de planification physique sur world models.

RechercheOpinion

1 source

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés

49

4arXiv cs.RO

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés

Une équipe de chercheurs publie ROBOSHACKLES, un jeu de données de 10 000 clips vidéo robotiques conçu pour évaluer la sécurité des modèles de fondation embarqués (EFMs, Embodied Foundation Models) face aux risques de blessures humaines. Disponible sur HuggingFace, le dataset est construit à partir d'observations réelles du corpus DROID, un jeu de téléopération robotique existant. Le pipeline suit quatre étapes : compréhension de scène, édition d'image orientée dangers, génération de prompts temporels décrivant l'évolution attendue, puis synthèse en un seul passage via le modèle vidéo Wan2.7. Les clips couvrent six catégories de risques : deux de dommages directs (contact physique avec un humain) et quatre de dommages indirects (situations domestiques dangereuses créées par le robot). L'évaluation de six EFMs représentatifs selon un critère de refus d'action donne un résultat sans équivoque : 100% de taux de génération d'actions dangereuses dans tous les scénarios testés. Ce chiffre interpelle directement les intégrateurs et décideurs industriels envisageant le déploiement de robots à base d'EFMs en environnements mixtes. Il expose un angle mort structurel : contrairement aux LLMs textuels, les EFMs ne disposent pas encore de mécanismes d'alignement de sécurité pour anticiper les séquences d'actions dangereuses avant leur exécution physique. La difficulté est méthodologique : collecter des données réelles de robots blessant des humains est éthiquement et légalement impossible, ce qui explique l'absence de benchmarks dans ce domaine jusqu'ici. ROBOSHACKLES propose une voie scalable via la synthèse vidéo, pour entraîner des modèles à refuser des actions à risque et à anticiper les dangers en amont de l'exécution. Les EFMs sont au cœur d'une compétition intense entre les principaux acteurs : Physical Intelligence avec π0, Google DeepMind avec RT-2, NVIDIA avec GR00T N2, et plusieurs implémentations open-source comme OpenVLA. Ces modèles combinent compréhension multimodale, raisonnement sur les états futurs et génération d'actions directement exécutables sur le robot, un paradigme qui accélère la commercialisation mais expose à des risques que le RLHF classique ne couvre pas. ROBOSHACKLES s'inscrit dans un effort émergent de safety spécifique à la robotique physique, avec pour suites logiques son intégration dans des pipelines de refusal learning et son extension à des scénarios industriels à plus haute énergie cinétique.

UELe résultat (100% de taux de génération d'actions dangereuses) soulève un enjeu de certification directement pertinent pour les déploiements industriels européens soumis aux exigences de sécurité de l'AI Act, notamment pour les systèmes robotiques opérant en environnements mixtes humain-robot.

RechercheOpinion

1 source

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

À lire aussi

IA physique : modèle du monde 3D fondé sur les principes physiques pour la manipulation d'objets dynamiques (PhysMani)

ViPSim : collaboration entre espaces visuels et paramétriques pour des modèles du monde incarnés cohérents sur le long terme

Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés