
3D-DLP : apprentissage auto-supervisé de représentations de scènes 3D centrées sur les objets
Une équipe de chercheurs publie 3D-DLP (3D Deep Latent Particles), un modèle d'apprentissage auto-supervisé de représentations de scène centré sur les objets. À partir d'entrées RGB-D (couleur et profondeur combinées) ou volumétriques en voxels, le modèle décompose une scène en un ensemble de particules latentes 3D, chacune encodant trois attributs distincts : la position 3D du keypoint, les dimensions de la bounding box et des descripteurs d'apparence visuelle. L'entraînement repose sur un objectif de reconstruction end-to-end sans annotations manuelles, en étendant le cadre Deep Latent Particles (DLP) au domaine 3D. Le modèle génère également des cartes de segmentation par particule, lisibles directement. Des expériences sur données simulées et réelles sont présentées dans le preprint arXiv 2606.19451, avec le code open source disponible à l'adresse eubooks3003.github.io/3d-dlp.
Pour la manipulation robotique, l'apport principal est une représentation de scène à la fois structurée et compacte. Les benchmarks internes montrent une amélioration par rapport à deux types de baselines : celles qui manquent d'information 3D explicite, et celles qui utilisent des représentations 3D denses (nuages de points complets, volumes de voxels) sans structure centrée sur les objets. Cette dernière catégorie est coûteuse en mémoire à l'échelle, ce que 3D-DLP contourne via sa paramétrisation par particules. L'espace latent est également manipulable : modifier les positions des particules avant décodage permet de synthétiser de nouvelles configurations de scène, une propriété utile pour la planification ou la simulation contrefactuelle en robotique.
Le modèle s'inscrit dans le courant de l'apprentissage centré sur les objets, en alternative aux approches monolithiques comme les NeRF ou les Gaussian Splatting pour la représentation 3D de scènes. Il entre aussi en dialogue avec les architectures VLA (Vision-Language-Action), qui peinent encore à intégrer une géométrie 3D explicite et structurée. À ce stade, 3D-DLP reste un preprint académique sans validation industrielle ni intégration dans un pipeline robotique commercial, et les métriques de performance ne sont pas quantifiées précisément au-delà d'une comparaison qualitative aux baselines.
Dans nos dossiers




