
ART-VS : tuilage à résolution adaptative pour l'asservissement visuel par Vision Transformer
Une équipe de chercheurs propose ART-VS (Adaptive Resolution Tiling Visual Servoing), une méthode en deux phases pour le servo-visuel robotique exploitant des descripteurs de Vision Transformer (ViT) auto-supervisés, sans aucun entraînement spécifique à la tâche. Le principe : une première phase à résolution native assure un alignement grossier robuste, puis une seconde phase découpe l'image en tuiles haute résolution et restreint la mise en correspondance aux voisinages locaux pour affiner la précision finale. Sur le banc de test standard sous perturbations, ART-VS atteint 95,4% de convergence, contre 76,6% pour l'approche ViT standard et 81,0% pour le traitement pleine résolution, soit respectivement +18,8 et +14,4 points. La méthode s'exécute plus de 10 fois plus vite que l'approche pleine résolution tout en consommant 27% moins de VRAM, réduisant l'erreur de positionnement de 53% par rapport au ViT standard. En validation réelle sur des instances jamais vues à l'entraînement, ART-VS atteint 95/100 sur des bouteilles transparentes et 98/100 sur des chaussures, sur trois architectures ViT distinctes.
Ces résultats comptent dans le débat sur la généralisabilité des approches visuelles en robotique. La saisie d'objets transparents à 95% de réussite sans données d'entraînement spécifiques constitue une démonstration concrète de la valeur des descripteurs ViT fondés sur l'auto-supervision (DINO, DINOv2), que les méthodes classiques basées sur la profondeur ou la texture peinent structurellement à gérer. Pour les intégrateurs et les équipes robotiques industrielles, l'absence de fine-tuning élimine une friction majeure au déploiement multi-catégories, et le gain d'efficacité computationnelle ouvre la voie à des boucles de servo-visuel embarquées ou à faible latence. La réduction de 53% de l'erreur de positionnement est particulièrement pertinente pour les tâches d'assemblage ou d'insertion à tolérance serrée.
ART-VS s'inscrit dans un courant qui exploite les modèles fondationnels visuels pré-entraînés comme socle pour le contrôle robotique sans annotation. Le servo-visuel classique reposait sur des descripteurs artisanaux (SIFT, SURF) ou des pipelines supervisés, tous deux limités en généralisation inter-objets. L'utilisation de ViT auto-supervisés pour générer des correspondances denses avait déjà montré des résultats prometteurs, mais le compromis entre résolution grossière (robuste, imprécise) et haute résolution (précise, coûteuse) restait non résolu. Le travail est publié en preprint sur arXiv (2606.19089), le code étant disponible publiquement. Les suites naturelles incluront la validation en environnements industriels contraints et l'intégration avec des architectures Vision-Language-Action (VLA) pour des tâches de manipulation longue séquence.
Dans nos dossiers




