DIPOLE : fusion vision et géométrie pour une généralisation visuomotrice robuste
Des chercheurs ont publié sur arXiv (2511.22445) une politique visuomotrice baptisée DIPOLE, pour DIffusion POlicy with compLementarity Encoders, conçue pour rendre les robots manipulateurs robustes aux variations de conditions réelles. L'architecture fusionne deux modalités complémentaires, vision RGB et géométrie 3D, via un mécanisme d'entraînement en deux temps : un dropout par modalité force chaque branche à rester individuellement informative, puis une couche cross-attention légère échange les indices complémentaires entre les deux. Évalué sur 18 tâches en simulation et 4 tâches en conditions réelles, DIPOLE surpasse six méthodes de référence de 39,1 % en moyenne. Les gains sont particulièrement marqués face à des distracteurs visuels non vus à l'entraînement (+41,5 %) et lors de placements d'objets aléatoires (+15,2 %). Le système atteint une précision spatiale inférieure au centimètre et démontre un transfert zéro-shot vers des objets non rencontrés pendant l'apprentissage.
Ce résultat s'attaque directement au problème central de la robotique de manipulation : la fragilité des politiques apprises par imitation dès que les conditions de déploiement dévient du jeu de démonstration. Changement d'éclairage, de texture, d'angle de caméra ou d'instance d'objet suffisent généralement à faire chuter les performances de façon dramatique. DIPOLE contourne ce problème sans architecture de fusion spécialisée ni données supplémentaires, ce qui est notable : le mécanisme de dropout contraint le modèle à apprendre des représentations redondantes et complémentaires simultanément. Le transfert zéro-shot vers des objets inédits suggère une généralisation structurelle plutôt que mémorisation, un point que les industriels cherchant à déployer en environnement ouvert suivront de près.
DIPOLE s'inscrit dans la lignée des politiques de diffusion, popularisées depuis 2023 comme alternative aux approches autorégressive type ACT. La fusion vision-géométrie est un axe actif : des travaux comme RVT, 3D Diffusion Policy ou Act3D avaient montré l'intérêt de la 3D pour la précision spatiale, mais au prix d'une complexité architecturale élevée. DIPOLE propose une voie plus légère, sans module de fusion dédié. Les concurrents directs incluent Octo, OpenVLA et les variantes de Diffusion Policy de l'équipe de Chelsea Finn. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un résultat académique à valider sur des manipulateurs et environnements industriels réels.
Dans nos dossiers



