RecherchearXiv cs.RO 3 juin 2026

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots.

Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses.

Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

Impact France/UE

Furhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars. L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées. ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

RechercheOpinion

1 source

2arXiv cs.RO

EgoVerse : un ensemble de données humaines égocentriques pour l'apprentissage des robots, venu du monde entier

Une équipe de chercheurs vient de publier une nouvelle version de son article sur arXiv (2604.07607v2) présentant EgoVerse, une plateforme collaborative de données humaines égocentriques destinée à l'apprentissage robotique. La version actuelle du jeu de données regroupe 1 362 heures d'enregistrements, soit environ 80 000 épisodes de démonstrations humaines, couvrant 1 965 tâches différentes réalisées dans 240 environnements distincts par 2 087 démonstrateurs uniques. Les données sont standardisées avec des annotations pertinentes pour la manipulation et des outils dédiés à l'entraînement de modèles en aval. Le projet est conçu pour recevoir des contributions aussi bien de chercheurs individuels que de laboratoires académiques et d'acteurs industriels, dans un cadre commun de collecte et de traitement. Ce travail répond à un problème concret du secteur robotique : la collecte de données réelles sur robot reste coûteuse et difficile à faire passer à l'échelle, tandis que les données humaines égocentriques offrent une alternative bien moins onéreuse pour capturer des comportements de manipulation dans des environnements du quotidien. Les auteurs ont mené une étude à grande échelle sur le transfert humain-vers-robot, avec des expériences répliquées dans plusieurs laboratoires, sur différentes tâches et différentes plateformes robotiques, selon des protocoles partagés. Résultat notable : la performance des politiques s'améliore globalement avec davantage de données humaines, mais ce passage à l'échelle n'est efficace que si ces données sont alignées avec les objectifs d'apprentissage du robot ciblé, un nuance importante pour les équipes qui espèrent simplement empiler du volume de données sans questionner leur pertinence. Le problème que EgoVerse cherche à résoudre est la fragmentation des jeux de données humains existants, souvent limités en portée et difficiles à étendre au-delà de l'institution qui les a produits. En unifiant collecte, traitement et accès sous un même cadre partagé, la plateforme se positionne comme une infrastructure de recherche reproductible plutôt qu'un simple jeu de données figé, avec vocation à s'enrichir au fil des contributions externes. Les vidéos et informations complémentaires sont disponibles sur egoverse.ai.

RecherchePaper

1 source

3arXiv cs.RO

« RoboTacDex : un jeu de données visuo-tactile-action dextérique pour la manipulation humanoïde »

Voici l'article traduit et résumé selon les consignes éditoriales : Une équipe de chercheurs en robot learning publie RoboTacDex, un jeu de données de manipulation dextre construit sur le robot humanoïde Unitree G1, accessible publiquement. L'ensemble comprend 6 000 trajectoires couvrant 19 tâches, 23 compétences distinctes et des interactions avec 22 objets différents. Chaque trajectoire embarque des flux RGB et de profondeur multi-vues, un retour tactile et des annotations sémantiques détaillées. Pour garantir la qualité de la collecte, les auteurs ont développé un système de synchronisation multi-caméras capable d'aligner les différentes modalités à la milliseconde près. Le jeu de données cible volontairement des tâches complexes, réalisables uniquement avec deux bras et des mains dextres, pour se rapprocher de la logique opérationnelle humaine. Trois modèles d'apprentissage par imitation ont été testés dessus, avec des résultats jugés positifs et une capacité de généralisation modérée sur l'ensemble des tâches. Le dataset sera open-source prochainement. L'enjeu dépasse la simple publication académique : l'apprentissage par imitation pour la manipulation bimanuelle dextre souffre d'un manque chronique de démonstrations diversifiées et multimodales, la plupart des jeux de données existants se limitant à la vision RGB seule. L'ajout systématique du tactile et d'une synchronisation précise entre capteurs comble un vide identifié par plusieurs laboratoires travaillant sur des modèles vision-langage-action (VLA). Pour les équipes qui entraînent ce type de modèles, disposer de données ouvertes et denses sur une plateforme humanoïde standardisée réduit la dépendance aux jeux de données propriétaires des grands acteurs américains. Le choix du Unitree G1, plateforme humanoïde relativement abordable et largement diffusée dans les laboratoires de recherche, s'inscrit dans une dynamique d'ouverture des données robotiques comparable à des initiatives comme Open X-Embodiment. Ce positionnement contraste avec les approches propriétaires de Physical Intelligence (Pi-0) ou NVIDIA (GR00T), qui restreignent l'accès à leurs corpus d'entraînement. La mise en open source, annoncée mais pas encore effective à la date de publication du prépublication arXiv, déterminera l'impact réel de RoboTacDex sur la communauté.

RecherchePaper

1 source

4arXiv cs.RO

RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher

Des chercheurs du Faerber Lab publient RCT (Robotic Contact Tactile), un jeu de données touch-vision-language collecté par robot pour évaluer la généralisation tactile des systèmes robotiques. Le dataset comprend 29 279 frames tactiles issues de pressions complètes effectuées par un bras robotique sur 122 matériaux de référence industriels répartis en 7 catégories, enregistrées à l'aide de trois capteurs DIGIT positionnés à plusieurs points de contact. Particularité méthodologique : RCT conserve chaque pression comme une séquence de contact continue plutôt que comme des frames isolées, ce qui permet des évaluations "held-out" rigoureuses par matériau, catégorie, capteur, position de contact ou séquence entière. Les auteurs démontrent que les frames issues d'une même pression sont fortement corrélées entre elles : un découpage aléatoire des frames (frame-random split), pratique courante dans le domaine, place des observations quasi-identiques de la même interaction physique à la fois dans les jeux d'entraînement et de test. En supprimant ce chevauchement de séquences, le score de Recall@1 en correspondance tactile-texte chute de 17,7 points de pourcentage à encodeur fixe. Lorsque les matériaux sont également exclus à l'entraînement, la performance s'effondre davantage, avec un Recall@1 de seulement 25,1 % (± 6,1 %) en moyenne sur trois tirages de matériaux non vus. Le jeu de données est open source, disponible sur faerber-lab.github.io/RCT. Cette étude expose un biais méthodologique qui gonflait artificiellement les résultats publiés sur la perception tactile robotique. En analysant le split public TVL/HCT, référence largement utilisée dans le domaine, les auteurs montrent que chaque séquence de contact du jeu de test apparaît déjà dans l'entraînement : une simple recherche du plus proche voisin en pixels bruts, sans aucun apprentissage, retrouve la bonne séquence dans 98,3 % des cas. Autrement dit, les benchmarks existants mesurent en grande partie de la mémorisation plutôt que de la généralisation réelle. Pour les équipes qui développent des systèmes de manipulation tactile destinés à des environnements ouverts (tri de déchets, logistique, inspection de pièces), cela signifie que des modèles annoncés comme performants pourraient largement sous-performer face à des matériaux jamais rencontrés. L'étude montre aussi une piste corrective concrète : échantillonner uniformément les frames au sein d'une pression, plutôt que de façon aléatoire, améliore l'entraînement contrastif, et les embeddings entraînés sur RCT améliorent les probes de catégorisation sur des matériaux inédits. Le travail s'inscrit dans la lignée des jeux de données touch-vision-language existants comme TVL (Touch-Vision-Language) et HCT, dont RCT réutilise la structure de split pour illustrer le problème de fuite de données. Le choix des capteurs DIGIT, développés initialement par Meta AI et largement adoptés en recherche tactile académique, ancre RCT dans l'écosystème matériel dominant du secteur plutôt que dans des capteurs propriétaires. Aucun acteur français ou européen n'est mentionné dans cette publication, qui reste un travail de recherche fondamentale plutôt qu'une annonce produit. Les prochaines étapes attendues pour le domaine concernent l'adoption de protocoles d'évaluation "contact-sequence-aware" par les équipes travaillant sur la manipulation tactile, ainsi que l'extension de ce type de benchmark held-out-material à d'autres modalités sensorielles combinées, à mesure que les architectures VLA (vision-language-action) intègrent de plus en plus le retour tactile comme signal de contrôle.

RecherchePaper

1 source