Aller au contenu principal
3D-DLP : apprentissage auto-supervisé de représentations de scènes 3D centrées sur les objets
RecherchearXiv cs.RO2j

3D-DLP : apprentissage auto-supervisé de représentations de scènes 3D centrées sur les objets

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie 3D-DLP (3D Deep Latent Particles), un modèle d'apprentissage auto-supervisé de représentations de scène centré sur les objets. À partir d'entrées RGB-D (couleur et profondeur combinées) ou volumétriques en voxels, le modèle décompose une scène en un ensemble de particules latentes 3D, chacune encodant trois attributs distincts : la position 3D du keypoint, les dimensions de la bounding box et des descripteurs d'apparence visuelle. L'entraînement repose sur un objectif de reconstruction end-to-end sans annotations manuelles, en étendant le cadre Deep Latent Particles (DLP) au domaine 3D. Le modèle génère également des cartes de segmentation par particule, lisibles directement. Des expériences sur données simulées et réelles sont présentées dans le preprint arXiv 2606.19451, avec le code open source disponible à l'adresse eubooks3003.github.io/3d-dlp.

Pour la manipulation robotique, l'apport principal est une représentation de scène à la fois structurée et compacte. Les benchmarks internes montrent une amélioration par rapport à deux types de baselines : celles qui manquent d'information 3D explicite, et celles qui utilisent des représentations 3D denses (nuages de points complets, volumes de voxels) sans structure centrée sur les objets. Cette dernière catégorie est coûteuse en mémoire à l'échelle, ce que 3D-DLP contourne via sa paramétrisation par particules. L'espace latent est également manipulable : modifier les positions des particules avant décodage permet de synthétiser de nouvelles configurations de scène, une propriété utile pour la planification ou la simulation contrefactuelle en robotique.

Le modèle s'inscrit dans le courant de l'apprentissage centré sur les objets, en alternative aux approches monolithiques comme les NeRF ou les Gaussian Splatting pour la représentation 3D de scènes. Il entre aussi en dialogue avec les architectures VLA (Vision-Language-Action), qui peinent encore à intégrer une géométrie 3D explicite et structurée. À ce stade, 3D-DLP reste un preprint académique sans validation industrielle ni intégration dans un pipeline robotique commercial, et les métriques de performance ne sont pas quantifiées précisément au-delà d'une comparaison qualitative aux baselines.

À lire aussi

SCAR : apprentissage auto-supervisé de représentations d'actions continues
1arXiv cs.RO 

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Une équipe de chercheurs a publié début mai 2026 sur arXiv (référence 2605.16412) un framework baptisé SCAR, pour Self-Supervised Continuous Action Representation Learning, visant à apprendre des représentations d'actions unifiées et transférables entre différents robots à partir de simples transitions visuelles. L'architecture repose sur un backbone génératif préentraîné, couplé à deux modules complémentaires : un modèle de dynamique inverse (IDM) qui infère des actions latentes à partir de paires d'observations, et un modèle de dynamique directe (FDM) qui prédit les états futurs conditionnés sur ces actions latentes. Pour éviter que l'espace latent ne devienne un simple goulot d'étranglement visuel générique, les auteurs régularisent la distribution postérieure des actions vers un prior gaussien standard, et introduisent une contrainte d'invariance adversariale pour supprimer les facteurs propres à chaque morphologie de robot ou à chaque environnement. Les expériences sont conduites sur les benchmarks Procgen et Robotwin, et montrent que SCAR surpasse les actions brutes spécifiques à chaque embodiment comme interface de conditionnement pour les world models, notamment en régimes de faibles données. L'enjeu industriel est significatif : l'un des verrous les plus coûteux du déploiement robotique est précisément le besoin de recollecte massive de données à chaque changement de plateforme matérielle. Si une représentation d'action partagée peut effectivement abstraire le "changement contrôlable" indépendamment de l'actuation physique, les intégrateurs pourraient réutiliser des world models pré-entraînés sur un robot pour en adapter un autre avec beaucoup moins d'exemples. SCAR apporte un argument empirique au débat sur la transférabilité des VLA (Vision-Language-Action models) : là où des architectures comme pi-0 ou GR00T N2 s'appuient sur des actions en espace proprioceptif brut, l'approche latente supervisée de façon auto-cohérente pourrait constituer une interface de conditionnement plus robuste. Le contexte est celui d'une compétition intense autour des world models pour la robotique, portée côté industrie par des acteurs comme Physical Intelligence (pi-0), NVIDIA (GR00T), et Figure AI, et côté académique par des travaux sur les modèles d'espace d'état et les représentations de politique. SCAR se distingue en traitant l'action non comme un signal de contrôle auxiliaire mais comme un facteur représentationnel à part entière, ce qui est une position théorique distincte des approches VLA classiques. Les auteurs ne mentionnent pas de code public ni de partenariat industriel dans la prépublication, et les résultats restent à confirmer sur des benchmarks physiques réels, Procgen et Robotwin étant deux environnements de simulation. L'absence de métriques sur du matériel réel est à garder à l'esprit avant toute extrapolation vers des cas industriels.

UESi validé sur matériel physique, ce framework de représentation d'actions transférables pourrait réduire les coûts de ré-entraînement pour les intégrateurs robotiques européens lors du changement de plateforme matérielle.

RechercheOpinion
1 source
Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets
2arXiv cs.RO 

Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets

Des chercheurs ont publié en mai 2025 Slot-MPC (arXiv:2605.14937), un cadre de modélisation du monde combinant représentations centrées sur les objets et contrôle prédictif par modèle (MPC). L'approche encode chaque objet de la scène dans un "slot" latent distinct, appris par un encodeur visuel, puis utilise ces représentations structurées pour apprendre un modèle de dynamique conditionné sur les actions. Au moment de l'inférence, ce modèle sert de simulateur interne : l'agent planifie ses actions sur un horizon temporel fini, réoptimise à chaque pas de temps, et peut ainsi s'adapter à des situations non rencontrées pendant l'entraînement. Les expériences sont menées sur des tâches de manipulation robotique simulées, dans un cadre hors-ligne (offline) avec couverture limitée des paires état-action. La contribution principale tient à la différentiabilité du modèle appris : contrairement aux approches MPC classiques qui échantillonnent des milliers de trajectoires candidates (méthodes sans gradient, type CEM ou MPPI), Slot-MPC optimise directement les actions par descente de gradient, ce qui est significativement plus efficace en termes de calcul. Dans le cadre offline étudié, cette planification par gradient surpasse les méthodes d'échantillonnage. Les résultats montrent également que les représentations structurées objet par objet constituent un biais inductif fort : les agents Slot-MPC généralisent mieux à des situations nouvelles que les baselines à représentations latentes monolithiques, ce qui est un enjeu central pour les applications robotiques réelles où l'environnement évolue de façon imprévisible. Ce travail s'inscrit dans la lignée des recherches sur les représentations centrées sur les objets (Slot Attention de Locatello et al., 2020 ; SLATE, Dinosaur), appliquées ici au contrôle plutôt qu'à la seule perception. Il entre en compétition directe avec des modèles de monde appris comme DreamerV3 (DeepMind) ou TD-MPC2, qui utilisent des représentations latentes denses non structurées. Limite notable : toutes les expériences restent en simulation, sans transfert sim-to-real ni validation sur robot physique, ce qui est un écart important avant toute application industrielle. Le code source et les résultats complémentaires sont disponibles sur slot-mpc.github.io.

RecherchePaper
1 source
Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides
3arXiv cs.RO 

Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides

Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation. L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté. Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.

RecherchePaper
1 source
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
4arXiv cs.RO 

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion
1 source