Aller au contenu principal
TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation
FR/EU ecosystemearXiv cs.RO6sem

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié TAVIS, un environnement d'évaluation standardisé pour comparer les approches de vision active en apprentissage par imitation, soit la capacité d'une politique robotique à contrôler son propre regard pendant une tâche de manipulation. Le benchmark comprend deux suites : TAVIS-Head (5 tâches avec caméra sur cardan pan/tilt pour la recherche globale de scène) et TAVIS-Hands (3 tâches avec caméras de poignet pour gérer les occlusions locales). Il est construit sur IsaacLab et s'appuie sur deux embodiments de torse humanoïde : le GR1T2 de Fourier Intelligence et le Reachy2 de Pollen Robotics (Bordeaux). Environ 2 200 épisodes de démonstrations téléopérées sont publiés en format LeRobot v3.0 sur HuggingFace, avec Diffusion Policy et π₀ (Physical Intelligence) comme baselines. Trois résultats principaux ressortent : la vision active améliore les performances, mais de façon conditionnelle à la tâche ; les politiques multi-tâches se dégradent nettement sous distribution shift contrôlé ; et l'imitation seule produit un regard anticipatoire dont les temps de préemption médians, mesurés par la métrique GALT (Gaze-Action Lead Time), sont comparables à ceux du téléopérateur humain de référence.

Jusqu'ici, plusieurs groupes avaient démontré indépendamment les bénéfices de la vision active en 2024-2025, sans base commune de comparaison. TAVIS comble ce vide avec trois primitives reproductibles : un protocole comparatif caméra mobile/caméra fixe sur des démonstrations identiques, la métrique GALT issue des sciences cognitives et de l'HRI (Human-Robot Interaction), et des splits procéduraux in-distribution/out-of-distribution. Le constat que les gains sont task-conditional invalide l'hypothèse naïve qu'ajouter des degrés de liberté à la caméra améliore systématiquement les performances, nuance décisive pour les intégrateurs industriels. La fragilité sous distribution shift constitue un signal d'alarme concret pour tout déploiement hors simulation.

La vision active en manipulation connaît un regain d'intérêt depuis 2024, porté par les progrès des VLA (Vision-Language-Action models) et la disponibilisation de robots humanoïdes à têtes articulées. Le choix de Reachy2 comme plateforme de référence est notable : Pollen Robotics, startup bordelaise fondée en 2016, est l'un des rares acteurs européens dont le robot open-source figure dans des benchmarks académiques internationaux, face aux concurrents américains (Figure, Agility) et asiatiques (Fourier, Unitree). Les prochaines étapes naturelles incluent l'évaluation de politiques VLA récentes comme GR00T N2 ou OpenVLA sur TAVIS, ainsi que le transfert sim-to-real, que le papier ne couvre pas encore.

Impact France/UE

Pollen Robotics (Bordeaux) est l'une des deux seules plateformes de référence du benchmark TAVIS, ce qui ancre un acteur français open-source au cœur d'une infrastructure d'évaluation académique internationale pour les politiques VLA.

À lire aussi

DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel
1arXiv cs.RO 

DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel

Une équipe de chercheurs a publié en juin 2026 DuoBench, un cadre de benchmarking dédié à la manipulation bimanuelle, conçu pour la plateforme FR3 Duo de Franka Robotics. Le benchmark comprend onze tâches réparties en quatre catégories de coordination, implémentées en simulation et partiellement reproduites en environnement réel grâce à des protocoles reproductibles incluant des composants imprimables en 3D. Les auteurs ont constitué des jeux de données de télé-opération humaine pour l'ensemble des onze tâches, et proposent un schéma d'évaluation par étapes (stage-based evaluation) permettant une analyse sémantique fine des modes d'échec, au-delà du simple critère binaire succès/échec. Plusieurs politiques d'apprentissage par imitation à deux bras ainsi que des politiques VLA (vision-language-action) ont été évaluées en simulation et sur matériel réel. Les résultats sont sans ambiguïté : les politiques actuelles, y compris les approches VLA considérées comme l'état de l'art, restent insuffisantes pour la manipulation bimanuelle. Les échecs se concentrent sur trois axes : les phases d'interaction initiale, l'exécution parallèle des deux bras, et le transfert simulation-réel (sim-to-real). Ce dernier point est particulièrement significatif : malgré les progrès récents sur le gap sim-to-real pour la manipulation à un bras, DuoBench révèle que la coordination bimanuelle pose des défis supplémentaires non résolus. Pour les équipes R&D et les intégrateurs industriels, ce benchmark fournit un outil diagnostique structuré pour identifier précisément où les politiques échouent, une lacune que les frameworks existants comme RLBench ou LIBERO, conçus pour les systèmes à un seul bras, ne comblaient pas. La manipulation bimanuelle est un prérequis pour de nombreuses tâches complexes en industrie (assemblage, conditionnement, manipulation d'objets déformables), ce qui explique l'intérêt croissant du secteur pour les plateformes à deux bras. Le FR3 Duo de Franka Robotics est l'une des rares plateformes de recherche standardisées pour ce segment. Dans la course aux capacités bimanuelles, des acteurs comme Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses robots humanoïdes ont annoncé des performances prometteuses, mais les benchmarks publics rigoureux permettant de les comparer restent rares. DuoBench, dont le code, les jeux de données et les vidéos sont disponibles sur duobench.github.io, ambitionne de combler ce manque avec un protocole reproductible que tout laboratoire peut répliquer à faible coût grâce aux assets imprimables en 3D.

UEFranka Robotics (Allemagne) est la plateforme centrale de DuoBench, offrant aux laboratoires et équipes R&D européens un benchmark standardisé et reproductible pour évaluer leurs politiques bimanuelle, y compris les approches VLA, sans disposer de ressources matérielles coûteuses.

FR/EU ecosystemePaper
1 source
HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique
2arXiv cs.RO 

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique

Une équipe de chercheurs a publié HT-Bench, un benchmark à grande échelle destiné à évaluer les représentations tactiles main entière dans la manipulation robotique dextre, avec un dataset de 10 millions de trames RGB et 7,8 millions de trames tactiles collectées sur 226 tâches distinctes. La publication (arXiv:2606.19161, juin 2026) propose une approche centrée sur la vision égocentrique couplée à des capteurs tactiles couvrant l'intégralité de la main robotique. Le benchmark structure l'évaluation autour de quatre tâches : récupération de similarité tactile fine, inpainting de trames masquées, synthèse vision-vers-tactile, et prédiction multimodale de trames tactiles. En parallèle, les auteurs introduisent HandTouch, un encodeur vision-tactile à quantification vectorielle (VQ), entraîné selon trois phases progressives : spatiale, cross-modale et temporelle. Les gains quantitatifs de HandTouch sur HT-Bench sont nets : le Recall@5 en récupération de similarité tactile passe de 74,65 % à 85,23 %, l'erreur quadratique moyenne (RMSE) en inpainting chute de 0,022 à 0,010, et le score cIoU hors-distribution (OOD) en synthèse vision-tactile progresse de 0,628 à 0,705. Pour l'industrie robotique, cela valide une hypothèse structurante : coupler vision égocentrique et retour tactile main entière constitue une base d'apprentissage généralisable, sans exiger des capteurs ou des embodiments standardisés. C'est un signal concret pour les intégrateurs et équipes R&D travaillant sur la manipulation dextre en environnements non structurés, où percevoir l'état d'une prise sans vision directe reste un verrou majeur. Le domaine du tactile en robotique souffre depuis longtemps d'une fragmentation des formats de capteurs et des protocoles, rendant les comparaisons entre travaux difficiles. HT-Bench s'inscrit dans une dynamique de benchmarking qui émerge en 2025-2026, aux côtés d'initiatives comme RoboSet, DROID ou LIBERO pour la manipulation généraliste. Des laboratoires comme le CMU Robotics Institute et le MIT CSAIL, ainsi que des entreprises comme Sanctuary AI, explorent des approches similaires de fusion tactile-visuelle. Aucun acteur européen n'est directement cité dans ce travail, mais des startups comme Enchanted Tools ou Wandercraft, actives sur la manipulation avancée, pourraient tirer parti d'un tel benchmark pour standardiser leurs évaluations internes. L'étape suivante logique serait l'intégration de HandTouch dans des pipelines VLA (Vision-Language-Action), où le retour tactile reste aujourd'hui largement absent.

RecherchePaper
1 source
Apprentissage de la séparation contrôlée de petits objets entre deux doigts avec une peau tactile
3arXiv cs.RO 

Apprentissage de la séparation contrôlée de petits objets entre deux doigts avec une peau tactile

Des chercheurs du DLR (Deutsches Zentrum für Luft- und Raumfahrt, le centre aérospatial allemand) publient sur arXiv (2605.31486) une approche inédite pour la séparation contrôlée de petits objets par une main robotique à deux doigts. La tâche est précise : après avoir saisi une poignée de billes de 6 mm de diamètre dans un bac, le système doit en lâcher progressivement jusqu'à n'en conserver qu'un nombre cible entre ses doigts. Aucune caméra n'intervient dans la boucle de contrôle ; le robot s'appuie exclusivement sur une peau tactile à résolution spatiale positionnée sur le bout d'un doigt. La politique de contrôle est apprise en simulation par apprentissage par renforcement avec une récompense sparse qui se déclenche uniquement lorsque le nombre désiré d'objets est atteint. Le transfert sim-to-real est démontré sur la DLR-Hand II, une main mécatronique multi-doigts de référence dans la communauté académique robotique. L'analyse conduite sur les capteurs tactiles constitue le principal apport scientifique. Un capteur idéal à haute résolution permet de résoudre la tâche quasi parfaitement, tandis qu'un capteur réduit à une grille de 4x4 taxels améliore encore les résultats de 20% par rapport à l'utilisation des seuls encodeurs articulaires des doigts. Un estimateur entraîné conjointement prédit les positions de contact réelles, ce qui permet d'instrumenter finement l'apport de chaque niveau de résolution sensorielle. Pour les industriels, cette démonstration valide l'hypothèse que le toucher seul peut suffire pour des tâches de tri et de dosage en environnement encombré, sans éclairage contrôlé ni vision, ce qui élargit le spectre applicatif des cellules de picking autonomes dans des contextes où la caméra est inutilisable ou coûteuse à intégrer. Le DLR développe sa ligne DLR-Hand depuis les années 1990, avec la DLR-Hand II comme référence académique de longue date en manipulation dextère. Sur le plan concurrentiel, la manipulation fine de très petits objets reste un problème ouvert que ciblent plusieurs acteurs : Shadow Robotics et ses tendons haute précision, les capteurs tactiles Digit (Meta AI) et GelSight (MIT), ou encore Xela Robotics côté intégration commerciale. La combinaison apprentissage par renforcement en simulation, transfert sim-to-real réussi et retour tactile seul sur des objets de 6 mm reste très peu documentée à cette échelle. Le travail est un preprint non encore évalué par les pairs ; une soumission à IROS ou ICRA préciserait les limites de la généralisation à d'autres géométries d'objets et à des contextes de production réelle.

UELa publication du DLR valide l'usage du toucher seul pour le tri fin sans vision, ouvrant une piste compétitive pour les équipes de robotique industrielle européennes qui développent des cellules de picking en environnement contraint.

FR/EU ecosystemePaper
1 source
Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs
4arXiv cs.RO 

Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs

Une équipe du laboratoire DLS (Dynamic Legged Systems) de l'IIT (Istituto Italiano di Tecnologia) publie un benchmark comparatif de trois estimateurs d'état proprioceptifs pour robots quadrupèdes : MUSE, le filtre de Kalman étendu invariant (IEKF) et le lisseur invariant (IS). L'évaluation est conduite sur la séquence CYN-1 du GrandTour Dataset, avec trois métriques : l'ATE (Absolute Trajectory Error, précision long terme), la RPE translationnelle et rotationnelle (Relative Pose Error, précision court terme), et le temps de calcul par mise à jour sur un stack matériel et logiciel fixe. Les résultats montrent que les RPE restent comparables entre les trois approches, mais IEKF et IS surpassent MUSE sur l'ATE. Le temps de calcul diffère significativement, exposant des compromis précision-latence concrets selon la méthode choisie. L'ensemble du code d'évaluation est publié en open-source sur GitHub (iit-DLSLab/stateestimationbenchmark) pour une reproductibilité complète. L'estimation d'état proprioceptive, c'est-à-dire sans capteurs extéroceptifs comme lidars ou caméras, est critique pour les quadrupèdes opérant en milieux dégradés ou occludés. Ce travail fournit aux intégrateurs et ingénieurs robotique des critères de sélection concrets : si l'application tolère une latence plus élevée, IS ou IEKF offrent une meilleure cohérence de trajectoire à long terme ; si la contrainte est temps-réel strict, le compromis bascule vers MUSE. La publication du code complet renforce la valeur de l'étude : les équipes peuvent reproduire les benchmarks sur leur propre matériel, ce qui reste rare dans la littérature robotique comparative, où les affirmations de performance sont souvent difficiles à vérifier indépendamment. L'IIT-DLSLab est historiquement actif sur la locomotion dynamique (plateforme HyQ, puis travaux sur des robots de classe Spot), et ce benchmark s'inscrit dans un effort plus large de standardisation de l'évaluation des estimateurs d'état pour robots à pattes via le GrandTour Dataset. IEKF est un classique de l'estimation sur groupes de Lie, IS en est une extension offline à lissage, tandis que MUSE représente une approche plus récente. Des travaux concurrents existent chez ETH Zurich (ANYmal) et Carnegie Mellon, mais peu publient des benchmarks comparatifs indépendants à ce niveau de rigueur méthodologique. La prochaine étape naturelle serait d'élargir l'évaluation à d'autres séquences du GrandTour Dataset, notamment sur des terrains non structurés, pour tester la généralisation des conclusions.

UEL'IIT-DLSLab publie un benchmark open-source reproductible pour l'estimation d'état proprioceptive des quadrupèdes, offrant aux équipes européennes des critères de sélection concrets (précision long terme vs latence temps-réel) et un code directement réutilisable sur leur propre matériel.

FR/EU ecosystemePaper
1 source