Aller au contenu principal
RecherchearXiv cs.RO4h

Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation.

L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté.

Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.

Dans nos dossiers

À lire aussi

Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets
1arXiv cs.RO 

Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets

Des chercheurs ont publié en mai 2025 Slot-MPC (arXiv:2605.14937), un cadre de modélisation du monde combinant représentations centrées sur les objets et contrôle prédictif par modèle (MPC). L'approche encode chaque objet de la scène dans un "slot" latent distinct, appris par un encodeur visuel, puis utilise ces représentations structurées pour apprendre un modèle de dynamique conditionné sur les actions. Au moment de l'inférence, ce modèle sert de simulateur interne : l'agent planifie ses actions sur un horizon temporel fini, réoptimise à chaque pas de temps, et peut ainsi s'adapter à des situations non rencontrées pendant l'entraînement. Les expériences sont menées sur des tâches de manipulation robotique simulées, dans un cadre hors-ligne (offline) avec couverture limitée des paires état-action. La contribution principale tient à la différentiabilité du modèle appris : contrairement aux approches MPC classiques qui échantillonnent des milliers de trajectoires candidates (méthodes sans gradient, type CEM ou MPPI), Slot-MPC optimise directement les actions par descente de gradient, ce qui est significativement plus efficace en termes de calcul. Dans le cadre offline étudié, cette planification par gradient surpasse les méthodes d'échantillonnage. Les résultats montrent également que les représentations structurées objet par objet constituent un biais inductif fort : les agents Slot-MPC généralisent mieux à des situations nouvelles que les baselines à représentations latentes monolithiques, ce qui est un enjeu central pour les applications robotiques réelles où l'environnement évolue de façon imprévisible. Ce travail s'inscrit dans la lignée des recherches sur les représentations centrées sur les objets (Slot Attention de Locatello et al., 2020 ; SLATE, Dinosaur), appliquées ici au contrôle plutôt qu'à la seule perception. Il entre en compétition directe avec des modèles de monde appris comme DreamerV3 (DeepMind) ou TD-MPC2, qui utilisent des représentations latentes denses non structurées. Limite notable : toutes les expériences restent en simulation, sans transfert sim-to-real ni validation sur robot physique, ce qui est un écart important avant toute application industrielle. Le code source et les résultats complémentaires sont disponibles sur slot-mpc.github.io.

RecherchePaper
1 source
Revue complète des modèles du monde pour l'apprentissage robotique
2arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs
3arXiv cs.RO 

Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs

Des chercheurs ont publié en octobre 2024 sur arXiv (identifiant 2410.06347, version 2) une méthode baptisée Goal-Conditioned Decision Transformer (GCDT), conçue pour entraîner des robots à accomplir plusieurs tâches distinctes sans interaction en temps réel avec l'environnement. L'approche repose sur l'apprentissage par renforcement hors ligne (offline RL) : le modèle apprend uniquement à partir de données collectées au préalable, sans générer de nouvelles trajectoires coûteuses. La validation se fait sur le bras collaboratif Franka Emika Panda (7 degrés de liberté), à partir d'un jeu de données offline nouvellement publié pour cette plateforme. Les résultats annoncés montrent que GCDT surpasse des baselines en ligne considérées comme état de l'art sur des tâches complexes, et conserve ses performances dans des environnements à récompenses éparses, même avec un nombre limité de démonstrations expertes. L'enjeu technique est réel : le principal frein à l'industrialisation du RL en robotique reste le coût des interactions d'entraînement, chaque collision, chaque reset prend du temps physique et use les équipements. En découplant l'apprentissage de l'exécution grâce à des données hors ligne, GCDT réduit ce verrou. Ce qui est plus notable, c'est la capacité à gérer des objectifs multiples et variables dans un seul modèle, là où la plupart des politiques offline sont entraînées tâche par tâche. La reformulation sous forme de séquences (héritage du Decision Transformer) permet d'injecter explicitement l'état-cible dans le contexte du modèle, ce qui facilite la généralisation. Il faut toutefois rester prudent : il s'agit d'un preprint non encore publié en conférence majeure, et les résultats portent sur un dataset contrôlé, pas sur un déploiement industriel réel. Le Decision Transformer original (Chen et al., 2021, Google Brain / UC Berkeley) avait montré qu'un transformer entraîné sur des trajectoires étiquetées par leur retour cumulatif pouvait rivaliser avec des méthodes RL classiques. GCDT étend cette idée au cadre multi-objectifs, un problème que des travaux concurrents comme MTDIFF ou Goal-Conditioned IQL abordent différemment. Le bras Panda de Franka Robotics (acquis par Agile Robots en 2021) reste la plateforme de référence en robotique manipulation académique. La prochaine étape logique serait un transfert sim-to-real sur des tâches de manipulation industrielle, et une comparaison avec des approches VLA (Vision-Language-Action) comme Pi-0 ou OpenVLA, qui opèrent elles aussi en généralisation multi-tâches mais via des modèles de fondation beaucoup plus lourds.

UEImpact indirect uniquement : le bras Franka Panda, d'origine allemande, est la plateforme de manipulation de référence dans de nombreux labos académiques européens (INRIA, CEA-List inclus), mais l'étude n'implique directement aucune institution ou entreprise française ou européenne.

RecherchePaper
1 source
4arXiv cs.RO 

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.02274) un article décrivant Dexterity-BEV, un cadre méthodologique visant à corriger deux limitations structurelles des politiques de manipulation robotique basées sur des modèles de vision-langage (VLM) pré-entraînés à grande échelle. La première limitation : ces modèles héritent d'une représentation purement 2D de la vision par ordinateur, inadaptée à la nature intrinsèquement tridimensionnelle de la manipulation. La seconde : il n'existe pas d'alignement spatial cohérent entre les espaces d'entrée et de sortie des politiques, ni entre différents robots, configurations de caméras et jeux de données de trajectoires. Pour y remédier, les auteurs introduisent deux représentations inédites : l'aligned vertex map et le vertex spectrum, des cartes pixel-à-pixel qui élèvent les entrées RGB en coordonnées 3D via la calibration de caméra et la profondeur optionnelle. Ils proposent ensuite un cadre canonique Bird's-Eye-View (BEV), une vue du dessus invariante aux variations de pose de caméra, dans lequel les informations 3D de chaque vue et les actions du robot sont exprimées dans un repère commun. Un pipeline de traitement de données à grande échelle et un schéma d'alignement temporel pour des trajectoires provenant de robots hétérogènes, d'opérateurs humains et de datasets variés complètent l'approche. L'enjeu industriel est direct : les VLA (Vision-Language-Action models) de type π0, OpenVLA ou GR00T N2 souffrent précisément de ce décalage spatio-temporel quand on les déploie sur des robots différents de ceux utilisés à l'entraînement, ou avec des caméras repositionnées. Dexterity-BEV tente de combler ce gap sans abandonner la généralisation offerte par les VLM entraînés sur des données web. La vue BEV, empruntée à l'industrie automobile (perception de véhicules autonomes), est ici réinterprétée pour la manipulation, ce qui constitue un transfert conceptuel non trivial. Si les gains de généralisation annoncés se confirment à l'évaluation réelle, cela réduirait le coût de redéploiement d'une politique sur un nouveau site industriel ou une nouvelle configuration de cellule robotique, une friction majeure pour les intégrateurs. L'article s'inscrit dans une dynamique de recherche intense autour des politiques de manipulation end-to-end, portée par des laboratoires comme Physical Intelligence (π0), Google DeepMind (RT-2, GR00T), et des équipes académiques chinoises et américaines. L'approche BEV pour la robotique terrestre est par ailleurs explorée en parallèle par des groupes travaillant sur les robots mobiles et les AMR d'entrepôt. Les auteurs rendent disponibles le checkpoint pré-entraîné, le code source et le pipeline de données sur leur page projet, ce qui facilite la réplication et l'adoption par la communauté. Aucun partenariat industriel ni déploiement réel n'est mentionné : il s'agit à ce stade d'une contribution de recherche, pas d'un produit commercialisé.

RechercheOpinion
1 source