Modélisation de représentations volumétriques pour l'apprentissage de politiques de manipulation : VolumeDP
Une équipe de recherche présente VolumeDP, une nouvelle architecture pour l'apprentissage par imitation en robotique manipulatrice, décrite dans une version révisée d'un article arXiv (2603.17720v2). Le problème visé est concret : la plupart des méthodes actuelles font correspondre directement des observations d'images 2D à des sorties d'action 3D, un décalage géométrique qui nuit au raisonnement spatial et fragilise la robustesse des politiques apprises. VolumeDP corrige ce défaut en raisonnant explicitement en trois dimensions : les features issues des images sont d'abord projetées dans une représentation volumétrique via un mécanisme d'attention croisée, puis un module apprenable sélectionne les voxels pertinents pour la tâche et les convertit en un ensemble compact de tokens spatiaux, ce qui réduit fortement le calcul sans perdre la géométrie utile à l'action. Un décodeur multi-tokens exploite ensuite l'ensemble de ces tokens pour prédire les actions, évitant l'agrégation destructrice qui réduit plusieurs indices spatiaux à un seul descripteur. Résultat chiffré : 88,8% de taux de réussite moyen sur le benchmark de simulation LIBERO, soit 14,8 points de mieux que la meilleure méthode concurrente, avec des gains également marqués sur ManiSkill et LIBERO-Plus. Des essais en conditions réelles confirment la généralisation à de nouvelles dispositions spatiales, de nouveaux points de vue caméra et de nouveaux environnements.
Pour les équipes qui développent des politiques de manipulation robotique, ce travail illustre une limite structurelle des architectures VLA qui traitent la 3D comme un simple sous-produit d'un flux d'images : sans représentation spatiale explicite, la robustesse aux changements de caméra ou de décor s'effondre, un problème récurrent dès qu'on sort du laboratoire. VolumeDP montre qu'ajouter un raisonnement volumétrique explicite, plutôt que de compter uniquement sur l'échelle des données ou du modèle, améliore sensiblement la généralisation, ce qui nuance l'idée reçue selon laquelle scaler les VLA suffirait à résoudre le problème spatial.
Le travail s'inscrit dans la lignée des méthodes d'apprentissage par imitation ayant précédemment tenté d'intégrer une composante 3D, comme les approches de type Diffusion Policy en 3D, mais en visant une représentation volumétrique plus efficiente en calcul. Il s'agit à ce stade d'une contribution académique, publiée sur arXiv avec code et vidéos disponibles sur une page projet dédiée, et non d'un produit ou d'un système déployé commercialement. Les benchmarks utilisés (LIBERO, ManiSkill) restent des environnements de recherche standard, ce qui laissera aux prochaines étapes le soin de confirmer la tenue de ces résultats sur des tâches industrielles plus complexes.
Dans nos dossiers




