RecherchearXiv cs.RO 2 juin 2026

Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation.

L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté.

Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.

Dans nos dossiers

World models arXiv cs.RO

À lire aussi

1arXiv cs.RO

AeroAct : modèles monde-action centrés sur l'action pour le vol de quadricoptère conditionné par le langage

Des chercheurs présentent AeroAct, un modèle "monde-action" (world-action model, WAM) conçu pour piloter des quadricoptères à partir de commandes en langage naturel. Selon les auteurs, il s'agit du premier WAM démontré en vol réel sur drone. Le système adapte un Transformer de diffusion vidéo pré-entraîné pour prédire, à partir de l'historique visuel à la première personne, de la proprioception et d'instructions textuelles, des séquences de trajectoires et d'actions locales. Pendant l'entraînement, le modèle apprend en prédisant les images futures que produirait chaque action, une supervision dense des conséquences visuelles, mais au moment du déploiement il calcule directement les commandes de vol sans générer de vidéo. Pour produire les données d'entraînement, l'équipe a construit un pipeline basé sur DiffAero combinant les moteurs de simulation Isaac Lab et le rendu par 3D Gaussian splatting, complété par un dispositif portatif à bas coût qui couple caméra et estimation de mouvement pour recréer des trajectoires de vol. Une procédure d'auto-guidage améliore la cohérence temporelle entre segments de trajectoire qui se chevauchent. Les tests, en simulation en boucle fermée et sur un quadricoptère physique réel, montrent des gains en suivi de cible et en recherche d'objets. L'intérêt est de dépasser les limites des méthodes actuelles de navigation aérienne par langage, qui reposent sur des actions discrètes, des points de passage ou des commandes de vitesse instantanées offrant peu d'information sur l'effet des actions sur les observations futures. En ancrant explicitement l'apprentissage dans la prédiction visuelle des conséquences du mouvement, AeroAct cherche à combler l'écart classique entre simulation et réalité pour les modèles vision-langage-action appliqués au vol, un enjeu clé pour les intégrateurs en inspection industrielle, cartographie ou recherche-sauvetage par drone. Le travail s'inscrit dans la vague plus large des modèles du monde appliqués à la robotique, où l'action est conditionnée par une anticipation visuelle plutôt que par des commandes bas niveau directes. Il reste à ce stade une publication de recherche arXiv, pas un produit commercialisé ni déployé en conditions opérationnelles ; les auteurs présentent des résultats préliminaires en simulation et sur banc de vol réel, sans indication de partenaire industriel ou de calendrier de mise en production.

RechercheActu

1 source

2arXiv cs.RO

Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets

Des chercheurs ont publié en mai 2025 Slot-MPC (arXiv:2605.14937), un cadre de modélisation du monde combinant représentations centrées sur les objets et contrôle prédictif par modèle (MPC). L'approche encode chaque objet de la scène dans un "slot" latent distinct, appris par un encodeur visuel, puis utilise ces représentations structurées pour apprendre un modèle de dynamique conditionné sur les actions. Au moment de l'inférence, ce modèle sert de simulateur interne : l'agent planifie ses actions sur un horizon temporel fini, réoptimise à chaque pas de temps, et peut ainsi s'adapter à des situations non rencontrées pendant l'entraînement. Les expériences sont menées sur des tâches de manipulation robotique simulées, dans un cadre hors-ligne (offline) avec couverture limitée des paires état-action. La contribution principale tient à la différentiabilité du modèle appris : contrairement aux approches MPC classiques qui échantillonnent des milliers de trajectoires candidates (méthodes sans gradient, type CEM ou MPPI), Slot-MPC optimise directement les actions par descente de gradient, ce qui est significativement plus efficace en termes de calcul. Dans le cadre offline étudié, cette planification par gradient surpasse les méthodes d'échantillonnage. Les résultats montrent également que les représentations structurées objet par objet constituent un biais inductif fort : les agents Slot-MPC généralisent mieux à des situations nouvelles que les baselines à représentations latentes monolithiques, ce qui est un enjeu central pour les applications robotiques réelles où l'environnement évolue de façon imprévisible. Ce travail s'inscrit dans la lignée des recherches sur les représentations centrées sur les objets (Slot Attention de Locatello et al., 2020 ; SLATE, Dinosaur), appliquées ici au contrôle plutôt qu'à la seule perception. Il entre en compétition directe avec des modèles de monde appris comme DreamerV3 (DeepMind) ou TD-MPC2, qui utilisent des représentations latentes denses non structurées. Limite notable : toutes les expériences restent en simulation, sans transfert sim-to-real ni validation sur robot physique, ce qui est un écart important avant toute application industrielle. Le code source et les résultats complémentaires sont disponibles sur slot-mpc.github.io.

RecherchePaper

1 source

3arXiv cs.RO

VistaVLA : modèle vision-langage-action fondé sur du 3D gaussian splatting conscient de la géométrie et de la sémantique, pour la manipulation robotique

VistaVLA, présenté dans un article arXiv publié le 15 juillet 2026, est un nouveau framework de manipulation robotique combinant vision, langage et action (VLA) qui construit une représentation 3D explicite de la scène à partir de primitives de Gaussiennes 3D. Contrairement aux modèles VLA classiques qui projettent directement instructions textuelles et images 2D vers des actions, VistaVLA fonctionne en deux étapes : il élève des caractéristiques vision-langage multi-vues en primitives gaussiennes 3D, créant des tokens sémantiques ancrés géométriquement, puis les compresse via un mécanisme baptisé Merge-then-Query (MtQ). Ce module réduit de 99% le nombre de tokens nécessaires tout en préservant les informations spatiales et sémantiques utiles à l'action. Les auteurs rapportent des gains de 22,8% du taux de réussite sur sept tâches réelles, et de 30% par rapport à la baseline VLA-Adapter sur des tâches hors distribution (out-of-distribution), en environnement simulé comme réel. Pour l'industrie robotique, ce travail cible un point faible connu des modèles VLA actuels : leur absence de représentation 3D persistante et invariante au point de vue, qui limite leur capacité à raisonner sur des contraintes géométriques et des layouts spatiaux complexes. La plupart des VLA en production s'appuient sur des flux caméra 2D bruts ou des cartes de profondeur peu structurées ; VistaVLA propose une carte cognitive 3D sémantique inspirée de la cognition humaine, un argument qui, s'il se confirme à plus grande échelle, pourrait influencer la conception des prochaines générations de politiques d'action pour bras manipulateurs et robots mobiles. Ce travail s'inscrit dans une vague de recherche académique cherchant à combler l'écart entre modèles VLA à succès commercial, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure, et leurs limites documentées en generalisation spatiale. Les résultats restent pour l'instant issus d'évaluations contrôlées en laboratoire, sans déploiement industriel annoncé ; la validation sur des tâches de manipulation plus variées et à plus grande échelle reste la prochaine étape naturelle pour ce type d'approche.

RechercheActu

1 source

4arXiv cs.RO

3D-DLP : apprentissage auto-supervisé de représentations de scènes 3D centrées sur les objets

Une équipe de chercheurs publie 3D-DLP (3D Deep Latent Particles), un modèle d'apprentissage auto-supervisé de représentations de scène centré sur les objets. À partir d'entrées RGB-D (couleur et profondeur combinées) ou volumétriques en voxels, le modèle décompose une scène en un ensemble de particules latentes 3D, chacune encodant trois attributs distincts : la position 3D du keypoint, les dimensions de la bounding box et des descripteurs d'apparence visuelle. L'entraînement repose sur un objectif de reconstruction end-to-end sans annotations manuelles, en étendant le cadre Deep Latent Particles (DLP) au domaine 3D. Le modèle génère également des cartes de segmentation par particule, lisibles directement. Des expériences sur données simulées et réelles sont présentées dans le preprint arXiv 2606.19451, avec le code open source disponible à l'adresse eubooks3003.github.io/3d-dlp. Pour la manipulation robotique, l'apport principal est une représentation de scène à la fois structurée et compacte. Les benchmarks internes montrent une amélioration par rapport à deux types de baselines : celles qui manquent d'information 3D explicite, et celles qui utilisent des représentations 3D denses (nuages de points complets, volumes de voxels) sans structure centrée sur les objets. Cette dernière catégorie est coûteuse en mémoire à l'échelle, ce que 3D-DLP contourne via sa paramétrisation par particules. L'espace latent est également manipulable : modifier les positions des particules avant décodage permet de synthétiser de nouvelles configurations de scène, une propriété utile pour la planification ou la simulation contrefactuelle en robotique. Le modèle s'inscrit dans le courant de l'apprentissage centré sur les objets, en alternative aux approches monolithiques comme les NeRF ou les Gaussian Splatting pour la représentation 3D de scènes. Il entre aussi en dialogue avec les architectures VLA (Vision-Language-Action), qui peinent encore à intégrer une géométrie 3D explicite et structurée. À ce stade, 3D-DLP reste un preprint académique sans validation industrielle ni intégration dans un pipeline robotique commercial, et les métriques de performance ne sont pas quantifiées précisément au-delà d'une comparaison qualitative aux baselines.

RechercheActu

1 source