
Politique de diffusion spatialement conditionnée : manipulation précise et robuste avec une seule caméra RGB
Des chercheurs ont publié le 14 juin 2026 sur arXiv (arXiv:2606.14535) une méthode d'apprentissage par imitation appelée SCDP (Spatially Conditioned Diffusion Policy), conçue pour permettre à un bras manipulateur d'exécuter des tâches de précision à partir d'une seule caméra RGB fixe, sans caméra embarquée sur le poignet. L'architecture repose sur deux composants : un encodeur visuel multi-échelle qui extrait à la fois le contexte global de la scène et les détails fins, et un module de conditionnement spatial qui, à chaque étape de la boucle de diffusion, vient échantillonner des features ponctuelles le long des trajectoires intermédiaires prédites pour l'effecteur. L'idée centrale est d'utiliser ces trajectoires d'effecteur comme ancres d'attention visuelle, orientant automatiquement le réseau vers les zones de la scène pertinentes pour la tâche en cours. En simulation, SCDP surpasse les baselines monoculaires de référence et atteint des performances comparables aux configurations multi-caméras. En conditions réelles, le système démontre à la fois une manipulation précise et une robustesse aux distracteurs visuels.
L'enjeu industriel est concret : la caméra de poignet est aujourd'hui le standard de facto dans les systèmes d'imitation learning déployés (ACT, Diffusion Policy, Pi-0 de Physical Intelligence), précisément parce qu'elle fournit la vue locale nécessaire à la manipulation fine. Supprimer cette contrainte réduit le coût matériel, simplifie la calibration et facilite le retrofit sur des cellules industrielles existantes. Si les performances annoncées se confirment hors laboratoire, cela lève un frein concret à la commercialisation de bras manipulateurs en environnement non contrôlé. Il convient toutefois de noter que les expériences réelles restent qualitatives dans le papier : pas de métriques de taux de succès sur un benchmark standardisé, ni de volume de déploiement cité.
SCDP s'inscrit dans la vague des politiques de diffusion visuomotrices initiée par Diffusion Policy (Chi et al., 2023) et prolongée par des travaux comme 3D Diffusion Policy ou Pi-0. La question de la vue unique est un problème ouvert : d'autres approches comme UniMa ou SpatialVLA tentent de compenser l'absence de vue locale par des représentations 3D implicites ou des modèles vision-langage-action (VLA). Face à Physical Intelligence (Pi-0, financement de 400 M$), Figure AI ou 1X Technologies qui misent sur des stacks multi-capteurs, l'angle "single camera" de SCDP pourrait séduire les intégrateurs contraints en budget ou en volume de données. La prochaine étape logique serait une évaluation sur des benchmarks partagés comme RoboMimic ou LIBERO pour permettre une comparaison directe.
Dans nos dossiers




