Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides
Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation.
L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté.
Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.
Dans nos dossiers



