RecherchearXiv cs.RO 18 juin 2026

ART-VS : tuilage à résolution adaptative pour l'asservissement visuel par Vision Transformer

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose ART-VS (Adaptive Resolution Tiling Visual Servoing), une méthode en deux phases pour le servo-visuel robotique exploitant des descripteurs de Vision Transformer (ViT) auto-supervisés, sans aucun entraînement spécifique à la tâche. Le principe : une première phase à résolution native assure un alignement grossier robuste, puis une seconde phase découpe l'image en tuiles haute résolution et restreint la mise en correspondance aux voisinages locaux pour affiner la précision finale. Sur le banc de test standard sous perturbations, ART-VS atteint 95,4% de convergence, contre 76,6% pour l'approche ViT standard et 81,0% pour le traitement pleine résolution, soit respectivement +18,8 et +14,4 points. La méthode s'exécute plus de 10 fois plus vite que l'approche pleine résolution tout en consommant 27% moins de VRAM, réduisant l'erreur de positionnement de 53% par rapport au ViT standard. En validation réelle sur des instances jamais vues à l'entraînement, ART-VS atteint 95/100 sur des bouteilles transparentes et 98/100 sur des chaussures, sur trois architectures ViT distinctes.

Ces résultats comptent dans le débat sur la généralisabilité des approches visuelles en robotique. La saisie d'objets transparents à 95% de réussite sans données d'entraînement spécifiques constitue une démonstration concrète de la valeur des descripteurs ViT fondés sur l'auto-supervision (DINO, DINOv2), que les méthodes classiques basées sur la profondeur ou la texture peinent structurellement à gérer. Pour les intégrateurs et les équipes robotiques industrielles, l'absence de fine-tuning élimine une friction majeure au déploiement multi-catégories, et le gain d'efficacité computationnelle ouvre la voie à des boucles de servo-visuel embarquées ou à faible latence. La réduction de 53% de l'erreur de positionnement est particulièrement pertinente pour les tâches d'assemblage ou d'insertion à tolérance serrée.

ART-VS s'inscrit dans un courant qui exploite les modèles fondationnels visuels pré-entraînés comme socle pour le contrôle robotique sans annotation. Le servo-visuel classique reposait sur des descripteurs artisanaux (SIFT, SURF) ou des pipelines supervisés, tous deux limités en généralisation inter-objets. L'utilisation de ViT auto-supervisés pour générer des correspondances denses avait déjà montré des résultats prometteurs, mais le compromis entre résolution grossière (robuste, imprécise) et haute résolution (précise, coûteuse) restait non résolu. Le travail est publié en preprint sur arXiv (2606.19089), le code étant disponible publiquement. Les suites naturelles incluront la validation en environnements industriels contraints et l'intégration avec des architectures Vision-Language-Action (VLA) pour des tâches de manipulation longue séquence.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

Une équipe de recherche a soumis sur arXiv (identifiant 2507.09180, actuellement à la version 4) une architecture de fusion multimodale pour améliorer le transfert sim-to-real en apprentissage par renforcement visuel appliqué à la manipulation robotique. L'approche combine deux flux d'entrée, RGB et profondeur (depth), traités en parallèle par des réseaux convolutifs séparés (CNN stems), dont les représentations fusionnées sont transmises à un vision transformer (ViT) scalable. L'information de profondeur, naturellement robuste aux variations d'apparence de scène, fournit des détails spatiaux 3D absents des images RGB seules. Le pipeline intègre un schéma d'apprentissage contrastif à tokens masqués et non masqués pour améliorer l'efficacité d'échantillonnage, combiné à une randomisation de domaine progressive (curriculum-based domain randomization) pour stabiliser l'entraînement. En simulation, la méthode surpasse les baselines comparées. La validation clé se fait en transfert zéro-shot : sans ré-entraînement sur données réelles, le modèle réalise des tâches de manipulation physique. Le sim-to-real gap reste l'obstacle central en robotique d'apprentissage : les politiques entraînées en simulation échouent fréquemment face à la variabilité visuelle du monde réel. La fusion RGB + depth attaque directement ce problème en réduisant la dépendance aux indices visuels fragiles comme l'éclairage ou les textures. L'apprentissage contrastif à tokens partiels suggère une meilleure invariance aux perturbations apparentes sans nécessiter de volumes massifs de données réelles. Pour les intégrateurs industriels et les équipes de développement en manipulation, le transfert zéro-shot validé expérimentalement est un signal concret : la politique capture des abstractions géométriques suffisamment générales pour opérer hors simulation, ce qui est précisément la promesse que le secteur cherche à tenir depuis des années. Ce travail s'inscrit dans une compétition de représentations visuelles pour la robotique qui inclut la randomisation de domaine agressive popularisée par OpenAI dès 2017, les encodeurs préentraînés par masquage (MAE, R3M, DINOv2), et les politiques vision-langage-action (VLA) comme pi0 de Physical Intelligence ou OpenVLA. L'originalité revendiquée est la fusion RGB + depth au niveau du transformer plutôt qu'en aval, couplée au curriculum adaptatif. Le passage à la version 4 sur arXiv signale un travail en révision active, probablement vers une conférence type ICRA ou IROS. Les prochaines étapes attendues incluent une validation sur benchmarks standardisés (RLBench, MetaWorld) et des tests sur plateformes physiques plus complexes.

RecherchePaper

1 source

2arXiv cs.RO

Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement

Des chercheurs ont publié sur arXiv (référence 2504.14820) une approche de reinforcement learning visuel baptisée Separate Primitive Policy (S2P), conçue pour automatiser les tâches d'assemblage par insertion cheville-trou (peg-in-hole). La méthode s'inspire du comportement humain en vision binoculaire : un opérateur localise d'abord visuellement la cheville au-dessus de la surface cible, puis exécute l'insertion. S2P décompose ce processus en deux primitives apprises simultanément, la localisation et l'insertion, dans un cadre de reinforcement learning sans modèle (model-free). Les auteurs ont développé dix tâches d'insertion distinctes utilisant des formes polygonales variées comme banc d'essai standardisé, ont conduit des expériences en simulation avec contraintes de force, puis validé l'approche sur robot réel. L'intérêt principal de S2P réside dans son gain de sample efficiency, c'est-à-dire la capacité à apprendre une politique efficace avec moins d'interactions avec l'environnement, combiné à une amélioration du taux de succès même lorsque des contraintes de force sont imposées. Pour les intégrateurs industriels, c'est un signal concret : l'assemblage fin, encore largement opéré par des systèmes rigides à programmation manuelle, devient plus accessible à l'apprentissage automatique en présence de retour visuel. La compatibilité affichée avec n'importe quel algorithme RL model-free élargit le spectre d'application, même si les performances absolues restent à confirmer hors des conditions de laboratoire présentées dans le papier. Le peg-in-hole est un benchmark historique en manipulation robotique, standardisé notamment dans le cadre des compétitions NIST Assembly Task Board. Des approches concurrentes combinent typiquement vision et retour d'effort (force-torque control), ou s'appuient sur des politiques d'imitation comme les VLA (Vision-Language-Action models) de Physical Intelligence (Pi-0) ou les travaux de simulation massive de NVIDIA Isaac Lab. S2P se positionne dans un espace différent, celui du RL visuel pur avec décomposition de primitives, une direction que des équipes comme celles de DeepMind et CMU explorent également. Les prochaines étapes naturelles concernent la robustesse aux variations d'éclairage, aux tolérances mécaniques réelles, et la généralisation à des géométries non vues en entraînement.

UEImpact indirect : les équipes R&D et intégrateurs industriels européens travaillant sur l'assemblage automatisé peuvent intégrer S2P dans leur veille sur le RL visuel pour la manipulation fine, sans déploiement ni acteur européen directement impliqué.

RecherchePaper

1 source

3arXiv cs.RO

Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs

Des chercheurs ont publié en octobre 2024 sur arXiv (identifiant 2410.06347, version 2) une méthode baptisée Goal-Conditioned Decision Transformer (GCDT), conçue pour entraîner des robots à accomplir plusieurs tâches distinctes sans interaction en temps réel avec l'environnement. L'approche repose sur l'apprentissage par renforcement hors ligne (offline RL) : le modèle apprend uniquement à partir de données collectées au préalable, sans générer de nouvelles trajectoires coûteuses. La validation se fait sur le bras collaboratif Franka Emika Panda (7 degrés de liberté), à partir d'un jeu de données offline nouvellement publié pour cette plateforme. Les résultats annoncés montrent que GCDT surpasse des baselines en ligne considérées comme état de l'art sur des tâches complexes, et conserve ses performances dans des environnements à récompenses éparses, même avec un nombre limité de démonstrations expertes. L'enjeu technique est réel : le principal frein à l'industrialisation du RL en robotique reste le coût des interactions d'entraînement, chaque collision, chaque reset prend du temps physique et use les équipements. En découplant l'apprentissage de l'exécution grâce à des données hors ligne, GCDT réduit ce verrou. Ce qui est plus notable, c'est la capacité à gérer des objectifs multiples et variables dans un seul modèle, là où la plupart des politiques offline sont entraînées tâche par tâche. La reformulation sous forme de séquences (héritage du Decision Transformer) permet d'injecter explicitement l'état-cible dans le contexte du modèle, ce qui facilite la généralisation. Il faut toutefois rester prudent : il s'agit d'un preprint non encore publié en conférence majeure, et les résultats portent sur un dataset contrôlé, pas sur un déploiement industriel réel. Le Decision Transformer original (Chen et al., 2021, Google Brain / UC Berkeley) avait montré qu'un transformer entraîné sur des trajectoires étiquetées par leur retour cumulatif pouvait rivaliser avec des méthodes RL classiques. GCDT étend cette idée au cadre multi-objectifs, un problème que des travaux concurrents comme MTDIFF ou Goal-Conditioned IQL abordent différemment. Le bras Panda de Franka Robotics (acquis par Agile Robots en 2021) reste la plateforme de référence en robotique manipulation académique. La prochaine étape logique serait un transfert sim-to-real sur des tâches de manipulation industrielle, et une comparaison avec des approches VLA (Vision-Language-Action) comme Pi-0 ou OpenVLA, qui opèrent elles aussi en généralisation multi-tâches mais via des modèles de fondation beaucoup plus lourds.

UEImpact indirect uniquement : le bras Franka Panda, d'origine allemande, est la plateforme de manipulation de référence dans de nombreux labos académiques européens (INRIA, CEA-List inclus), mais l'étude n'implique directement aucune institution ou entreprise française ou européenne.

RecherchePaper

1 source

4arXiv cs.RO

Asservissement visuel à événements bio-inspiré pour robots terrestres

Des chercheurs ont publié sur arXiv (référence 2603.23672v2) un framework de servoing visuel événementiel 1D pour robots terrestres évoluant en environnements structurés. L'approche repose sur un capteur de vision dynamique (DVS), une caméra bio-inspirée qui ne génère des signaux, appelés "événements", qu'en réponse à des variations locales de luminance logarithmique, contrairement aux caméras classiques à trame fixe. En appliquant un noyau spatial fixe au flux d'événements asynchrones produit par des motifs d'intensité structurés, les auteurs montrent analytiquement que le flux d'événements net isole des combinaisons spécifiques d'états cinématiques : un profil spatial linéaire extrait la vitesse du robot, un profil quadratique extrait le produit position-vitesse. En combinant plusieurs motifs simultanément, le système synthétise directement un terme de retour d'état non linéaire, sans passer par une estimation d'état traditionnelle (pas de filtre de Kalman, pas d'odométrie). Pour contourner la perte d'observabilité linéaire à l'équilibre, problème inhérent aux capteurs événementiels qui cessent de générer des signaux en l'absence de mouvement, les auteurs proposent un contrôleur en cycle limite actif, directement inspiré des comportements de fixation oculaire observés chez les animaux. Le tout a été validé expérimentalement sur un véhicule autonome à l'échelle 1/10. L'intérêt principal de ce travail réside dans l'élimination de l'estimation d'état explicite du pipeline de contrôle, ce qui réduit structurellement la latence et la charge computationnelle, deux contraintes critiques pour les robots mobiles rapides ou embarqués sur matériel contraint. Le fait que la séparation des états cinématiques soit obtenue analytiquement, et non par apprentissage, constitue un avantage de robustesse : le comportement est prédictible et formellement borné. L'approche adresse aussi un angle mort connu des capteurs DVS : leur insensibilité à l'état statique, qui rend le contrôle à l'équilibre difficile avec des méthodes classiques. Le cycle limite bio-inspiré contourne ce problème sans injection de bruit artificiel. Les capteurs DVS (commercialisés notamment par Prophesee en France et iniVation en Suisse) suscitent un intérêt croissant en robotique mobile depuis une décennie, portés par leur latence sub-milliseconde et leur dynamique de 120 dB, mais leur intégration dans des boucles de contrôle fermées reste un défi algorithmique non trivial. Ce papier s'inscrit dans un courant de recherche actif sur le "event-based control" qui tente de dépasser le stade de la démonstration perceptive pour atteindre le contrôle en boucle fermée robuste. Les concurrents conceptuels incluent les approches par flot optique événementiel (groupes de Davide Scaramuzza à Zurich, Tobi Delbruck à ETH) et les méthodes de servoing visuel classique accélérées par GPU. La validation sur véhicule 1/10 reste modeste en échelle ; les prochaines étapes naturelles seraient une extension à la navigation 2D et des tests sur plateformes de taille réelle en conditions non structurées.

UEProphesee (France) et iniVation (Suisse), principaux fabricants commerciaux de capteurs DVS, bénéficient directement de l'intérêt croissant pour ces architectures de contrôle événementiel en boucle fermée, consolidant la position de l'écosystème EU dans la chaîne de valeur de la robotique mobile embarquée.

RecherchePaper

1 source