
DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion
DiffusionVS, déposé sur arXiv (2506.19397) en juin 2026, propose un cadre génératif pour le visual servoing robotique fondé sur la Diffusion Policy. Le système prend en entrée les coordonnées normalisées des coins de marqueurs visuels observés par la caméra embarquée, et génère des commandes de vitesse caméra via un processus de débruitage conditionnel. Pour contourner les limitations de généralisation propres aux modèles entraînés sur jeux de données statiques, les auteurs adoptent un paradigme d'entraînement en ligne : le modèle collecte continuellement de nouvelles expériences interactives pour diversifier sa distribution d'apprentissage. Les résultats rapportés atteignent un taux de succès de quasi 100% en simulation et 93% en expériences physiques réelles.
Le visual servoing par régression classique souffre de deux problèmes structurels : le jitter de trajectoire causé par des mappings mono-étape sensibles au bruit, et l'accumulation d'erreurs lors de distribution shifts en cours de trajectoire. La Diffusion Policy adresse ces deux points simultanément. En prédisant des séquences d'actions plutôt que des commandes isolées, elle maintient la cohérence temporelle. L'augmentation implicite de données inhérente au processus de débruitage renforce par ailleurs la robustesse aux perturbations. Ce qui est notable, au-delà des performances brutes, c'est la généricité démontrée du module : intégré à des architectures de visual servoing existantes, il améliore systématiquement leurs résultats, sans modification de leur pipeline de base. Cela valide le mécanisme diffusion comme composant réutilisable, pas seulement comme architecture ad hoc.
La Diffusion Policy, popularisée par Chi et al. en 2023 (Columbia/MIT), s'est imposée en apprentissage par imitation pour la manipulation, puis adoptée par Physical Intelligence dans pi-0 et d'autres systèmes VLA. Son application au visual servoing, problème classique de robotique de précision, était moins explorée. Les approches concurrentes restent dominées par la régression directe ou les contrôleurs IBVS/PBVS à base de features géométriques. La contribution principale ici est l'entraînement en ligne, qui contourne le problème de covariate shift sans nécessiter un dataset exhaustif pré-collecté, contrainte majeure en déploiement industriel. Les limites actuelles sont notables : le système repose sur des marqueurs visuels structurés (AprilTags), et les expériences physiques ne précisent pas le type de robot ni les conditions d'environnement, ce qui rend difficile l'évaluation de la maturité pour un déploiement réel.
Dans nos dossiers




