RecherchearXiv cs.RO6sem

Asservissement visuel à événements bio-inspiré pour robots terrestres

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2603.23672v2) un framework de servoing visuel événementiel 1D pour robots terrestres évoluant en environnements structurés. L'approche repose sur un capteur de vision dynamique (DVS), une caméra bio-inspirée qui ne génère des signaux, appelés "événements", qu'en réponse à des variations locales de luminance logarithmique, contrairement aux caméras classiques à trame fixe. En appliquant un noyau spatial fixe au flux d'événements asynchrones produit par des motifs d'intensité structurés, les auteurs montrent analytiquement que le flux d'événements net isole des combinaisons spécifiques d'états cinématiques : un profil spatial linéaire extrait la vitesse du robot, un profil quadratique extrait le produit position-vitesse. En combinant plusieurs motifs simultanément, le système synthétise directement un terme de retour d'état non linéaire, sans passer par une estimation d'état traditionnelle (pas de filtre de Kalman, pas d'odométrie). Pour contourner la perte d'observabilité linéaire à l'équilibre, problème inhérent aux capteurs événementiels qui cessent de générer des signaux en l'absence de mouvement, les auteurs proposent un contrôleur en cycle limite actif, directement inspiré des comportements de fixation oculaire observés chez les animaux. Le tout a été validé expérimentalement sur un véhicule autonome à l'échelle 1/10.

L'intérêt principal de ce travail réside dans l'élimination de l'estimation d'état explicite du pipeline de contrôle, ce qui réduit structurellement la latence et la charge computationnelle, deux contraintes critiques pour les robots mobiles rapides ou embarqués sur matériel contraint. Le fait que la séparation des états cinématiques soit obtenue analytiquement, et non par apprentissage, constitue un avantage de robustesse : le comportement est prédictible et formellement borné. L'approche adresse aussi un angle mort connu des capteurs DVS : leur insensibilité à l'état statique, qui rend le contrôle à l'équilibre difficile avec des méthodes classiques. Le cycle limite bio-inspiré contourne ce problème sans injection de bruit artificiel.

Les capteurs DVS (commercialisés notamment par Prophesee en France et iniVation en Suisse) suscitent un intérêt croissant en robotique mobile depuis une décennie, portés par leur latence sub-milliseconde et leur dynamique de 120 dB, mais leur intégration dans des boucles de contrôle fermées reste un défi algorithmique non trivial. Ce papier s'inscrit dans un courant de recherche actif sur le "event-based control" qui tente de dépasser le stade de la démonstration perceptive pour atteindre le contrôle en boucle fermée robuste. Les concurrents conceptuels incluent les approches par flot optique événementiel (groupes de Davide Scaramuzza à Zurich, Tobi Delbruck à ETH) et les méthodes de servoing visuel classique accélérées par GPU. La validation sur véhicule 1/10 reste modeste en échelle ; les prochaines étapes naturelles seraient une extension à la navigation 2D et des tests sur plateformes de taille réelle en conditions non structurées.

Impact France/UE

Prophesee (France) et iniVation (Suisse), principaux fabricants commerciaux de capteurs DVS, bénéficient directement de l'intérêt croissant pour ces architectures de contrôle événementiel en boucle fermée, consolidant la position de l'écosystème EU dans la chaîne de valeur de la robotique mobile embarquée.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Jambe bioinspiré à haute mobilité pour robots miniatures

Des chercheurs ont publié sur arXiv (référence 2606.18680, juin 2026) la conception d'un mécanisme de patte parallèle micro-échelle à quatre degrés de liberté (DoF), pesant seulement 18,9 grammes. Le système intègre deux liaisons sphériques à cinq barres combinées dans une configuration parallèle à quatre barres, permettant un mouvement spatial tridimensionnel. Une stratégie de conception concentrique a été adoptée pour simplifier la résolution analytique de la cinématique. L'effecteur terminal développe une force d'environ 0,5 N, avec un espace de travail dépassant 22 255 mm³. L'architecture parallèle choisie positionne tous les actionneurs sur le corps principal, ce qui réduit sensiblement l'inertie équivalente des parties mobiles par rapport aux structures de pattes haute-DoF classiques à actionneurs distaux. Ce travail s'attaque à un verrou bien identifié de la microrobotique : augmenter la mobilité d'une patte sans alourdir ni encombrer la structure, deux contraintes qui s'opposent directement dans les robots de moins de 50 grammes. Placer les actionneurs sur le corps central est une décision de conception non triviale qui améliore la réactivité dynamique et simplifie la gestion thermique, au prix d'une complexité de transmission plus élevée. La démonstration expérimentale d'une "excellente flexibilité de mouvement" reste à ce stade qualitative dans le papier, sans benchmarks comparatifs publiés face à d'autres mécanismes à DoF équivalent, ce qui limite l'évaluation objective des gains annoncés. La bio-inspiration par la locomotion des insectes est un axe de recherche actif depuis les travaux fondateurs sur le robot RHex (2001) et les hexapodes de type Weiss. Dans le segment des robots légers bio-inspirés sub-100g, ce mécanisme se positionne face à des approches concurrentes comme les pattes à câbles de l'ETH Zurich ou les structures en matériaux flexibles du Harvard Microrobotics Lab. Aucun prototype complet ni déploiement terrain n'est mentionné : il s'agit d'un mécanisme de patte unique, validé en laboratoire, dont l'intégration dans un robot mobile complet constitue la prochaine étape logique mais non encore annoncée.

RecherchePaper

1 source

2arXiv cs.RO

ART-VS : tuilage à résolution adaptative pour l'asservissement visuel par Vision Transformer

Une équipe de chercheurs propose ART-VS (Adaptive Resolution Tiling Visual Servoing), une méthode en deux phases pour le servo-visuel robotique exploitant des descripteurs de Vision Transformer (ViT) auto-supervisés, sans aucun entraînement spécifique à la tâche. Le principe : une première phase à résolution native assure un alignement grossier robuste, puis une seconde phase découpe l'image en tuiles haute résolution et restreint la mise en correspondance aux voisinages locaux pour affiner la précision finale. Sur le banc de test standard sous perturbations, ART-VS atteint 95,4% de convergence, contre 76,6% pour l'approche ViT standard et 81,0% pour le traitement pleine résolution, soit respectivement +18,8 et +14,4 points. La méthode s'exécute plus de 10 fois plus vite que l'approche pleine résolution tout en consommant 27% moins de VRAM, réduisant l'erreur de positionnement de 53% par rapport au ViT standard. En validation réelle sur des instances jamais vues à l'entraînement, ART-VS atteint 95/100 sur des bouteilles transparentes et 98/100 sur des chaussures, sur trois architectures ViT distinctes. Ces résultats comptent dans le débat sur la généralisabilité des approches visuelles en robotique. La saisie d'objets transparents à 95% de réussite sans données d'entraînement spécifiques constitue une démonstration concrète de la valeur des descripteurs ViT fondés sur l'auto-supervision (DINO, DINOv2), que les méthodes classiques basées sur la profondeur ou la texture peinent structurellement à gérer. Pour les intégrateurs et les équipes robotiques industrielles, l'absence de fine-tuning élimine une friction majeure au déploiement multi-catégories, et le gain d'efficacité computationnelle ouvre la voie à des boucles de servo-visuel embarquées ou à faible latence. La réduction de 53% de l'erreur de positionnement est particulièrement pertinente pour les tâches d'assemblage ou d'insertion à tolérance serrée. ART-VS s'inscrit dans un courant qui exploite les modèles fondationnels visuels pré-entraînés comme socle pour le contrôle robotique sans annotation. Le servo-visuel classique reposait sur des descripteurs artisanaux (SIFT, SURF) ou des pipelines supervisés, tous deux limités en généralisation inter-objets. L'utilisation de ViT auto-supervisés pour générer des correspondances denses avait déjà montré des résultats prometteurs, mais le compromis entre résolution grossière (robuste, imprécise) et haute résolution (précise, coûteuse) restait non résolu. Le travail est publié en preprint sur arXiv (2606.19089), le code étant disponible publiquement. Les suites naturelles incluront la validation en environnements industriels contraints et l'intégration avec des architectures Vision-Language-Action (VLA) pour des tâches de manipulation longue séquence.

RecherchePaper

1 source

3arXiv cs.RO

Alignement de surface par admittance pour l'inspection visuelle robotique supervisée par l'humain

Des chercheurs ont publié sur arXiv (référence 2606.18601) un pipeline de contrôle d'orientation en temps réel pour l'inspection visuelle robotique de précision, fondé sur un framework à admittance. Le système, validé sur un manipulateur à 6 degrés de liberté (DOF), combine les commandes d'un opérateur humain et l'alignement de surface piloté par perception. L'architecture modélise l'effecteur terminal comme une sphère virtuelle se déplaçant dans un milieu visqueux, produisant un système masse-amortisseur qui génère un mouvement conforme et synchronisé à partir des erreurs d'orientation et des entrées opérateur. La validation expérimentale atteint une erreur d'orientation finale moyenne de 0,4 degré en suivi de normale de surface, dans des conditions de bruit perceptuel et d'irrégularités géométriques. Ces résultats restent à ce stade des mesures de laboratoire, sans validation en environnement industriel réel documentée dans le papier. L'enjeu est concret pour les secteurs aérospatial, semi-conducteur et médical, où une anomalie de surface non détectée sur une pièce à haute valeur se traduit directement en rebut, retraitement ou défaillance terrain. Le problème central que ce travail adresse est architectural : la planification de trajectoire hors-ligne seule ne tient pas dès qu'un opérateur humain intervient en temps réel via télé-opération ou autonomie partagée, car les ajustements introduits rendent la trajectoire préplanifiée caduque. Le contrôleur proposé absorbe simultanément l'incertitude perceptuelle et les commandes humaines sans dégradation de la précision angulaire, ce qui représente une avancée sur les approches classiques qui traitent ces deux sources d'incertitude séparément. Le contrôle par admittance est un paradigme établi en robotique collaborative, où le robot cède aux forces extérieures de façon contrôlée plutôt que de les résister. Son application à l'inspection visuelle en boucle fermée avec opérateur dans la boucle reste un domaine de recherche actif, sans acteur dominant clairement identifié. Les approches concurrentes s'appuient généralement sur des capteurs de force/couple dédiés ou sur des corrections visuelles en open-loop. Aucun partenaire industriel ni pilote de déploiement n'est mentionné dans la publication, qui constitue une contribution académique orientée vers les intégrateurs systèmes cherchant une alternative aux pipelines d'inspection rigides. Les suites logiques seraient des essais sur surfaces gauches (non-développables) et la couplage avec des systèmes optiques haute résolution tels que profilomètres laser ou caméras de vision industrielle.

RecherchePaper

1 source

4arXiv cs.RO

DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion

DiffusionVS, déposé sur arXiv (2506.19397) en juin 2026, propose un cadre génératif pour le visual servoing robotique fondé sur la Diffusion Policy. Le système prend en entrée les coordonnées normalisées des coins de marqueurs visuels observés par la caméra embarquée, et génère des commandes de vitesse caméra via un processus de débruitage conditionnel. Pour contourner les limitations de généralisation propres aux modèles entraînés sur jeux de données statiques, les auteurs adoptent un paradigme d'entraînement en ligne : le modèle collecte continuellement de nouvelles expériences interactives pour diversifier sa distribution d'apprentissage. Les résultats rapportés atteignent un taux de succès de quasi 100% en simulation et 93% en expériences physiques réelles. Le visual servoing par régression classique souffre de deux problèmes structurels : le jitter de trajectoire causé par des mappings mono-étape sensibles au bruit, et l'accumulation d'erreurs lors de distribution shifts en cours de trajectoire. La Diffusion Policy adresse ces deux points simultanément. En prédisant des séquences d'actions plutôt que des commandes isolées, elle maintient la cohérence temporelle. L'augmentation implicite de données inhérente au processus de débruitage renforce par ailleurs la robustesse aux perturbations. Ce qui est notable, au-delà des performances brutes, c'est la généricité démontrée du module : intégré à des architectures de visual servoing existantes, il améliore systématiquement leurs résultats, sans modification de leur pipeline de base. Cela valide le mécanisme diffusion comme composant réutilisable, pas seulement comme architecture ad hoc. La Diffusion Policy, popularisée par Chi et al. en 2023 (Columbia/MIT), s'est imposée en apprentissage par imitation pour la manipulation, puis adoptée par Physical Intelligence dans pi-0 et d'autres systèmes VLA. Son application au visual servoing, problème classique de robotique de précision, était moins explorée. Les approches concurrentes restent dominées par la régression directe ou les contrôleurs IBVS/PBVS à base de features géométriques. La contribution principale ici est l'entraînement en ligne, qui contourne le problème de covariate shift sans nécessiter un dataset exhaustif pré-collecté, contrainte majeure en déploiement industriel. Les limites actuelles sont notables : le système repose sur des marqueurs visuels structurés (AprilTags), et les expériences physiques ne précisent pas le type de robot ni les conditions d'environnement, ce qui rend difficile l'évaluation de la maturité pour un déploiement réel.

RecherchePaper

1 source