Aller au contenu principal
Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot
RecherchearXiv cs.RO7sem

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en mai 2026 Gaze4HRI (arXiv:2605.04770), un benchmark à grande échelle conçu pour évaluer les réseaux de neurones d'estimation du regard dans les conditions réelles de l'interaction humain-robot (HRI). Le jeu de données regroupe plus de 50 sujets, 3 000 vidéos et 600 000 images annotées, couvrant quatre variables critiques identifiées comme sous-représentées dans les évaluations existantes : les variations d'éclairage, les conflits entre direction de la tête et direction du regard, la mobilité de la caméra embarquée sur le robot, et le déplacement de la cible visuelle. L'approche retenue est celle de l'estimation 3D du regard dite "zero-shot" : les modèles apprennent à projeter directement une image RGB en vecteur de regard, sans calibration individuelle, ce qui réduit considérablement les coûts de déploiement en contexte opérationnel.

Les résultats du benchmark remettent en question plusieurs hypothèses dominantes dans la littérature. Chacune des méthodes évaluées échoue sur au moins une condition testée, et le regard fortement orienté vers le bas ("steeply-downward gaze") constitue un point d'échec universel pour l'ensemble des architectures, y compris les modèles spatio-temporels complexes et les approches basées sur des Transformers. Ces architectures récentes, pourtant très citées, n'affichent pas de supériorité systématique en conditions non contrôlées. Seul PureGaze, entraîné sur le dataset ETH-X-Gaze, maintient une robustesse satisfaisante sur l'ensemble des autres conditions. La conclusion centrale est que la diversité des données d'entraînement constitue le premier levier de robustesse zero-shot, devant la complexité architecturale, tandis que des mécanismes comme la self-adversarial loss de PureGaze pour la purification des features de regard apportent un gain additionnel significatif.

L'estimation du regard est une compétence fondamentale pour les robots sociaux et collaboratifs : elle conditionne la détection d'attention, la coordination tour-par-tour, et la sécurité en environnement partagé. Les benchmarks existants souffrent d'un "complexity gap" structurel, les méthodes étant entraînées sur des corpus variés mais évaluées sur des ensembles beaucoup plus petits et homogènes, ce qui surestime leur robustesse réelle. Gaze4HRI vise à corriger ce biais. Sur le plan concurrentiel, le dataset ETH-X-Gaze (ETH Zurich) s'impose ici comme la référence en termes de diversité, tandis que des benchmarks HRI spécialisés comme GAZE360 ou MPIIFaceGaze ne capturent pas les conditions de mouvement propres aux plateformes robotiques. Le dataset et le code sont disponibles publiquement sur gazeforhri.github.io, ce qui devrait faciliter l'adoption par les équipes travaillant sur des robots humanoïdes ou des AMR équipés de systèmes de perception sociale.

Impact France/UE

Le benchmark Gaze4HRI et son dataset public (600 000 images annotées, code ouvert) pourraient accélérer les travaux des équipes européennes comme l'INRIA ou le CEA-List sur la perception sociale des robots collaboratifs et humanoïdes.

Dans nos dossiers

À lire aussi

Assistance sans interruption : un benchmark et un cadre basé sur les LLM pour l'aide humain-robot non intrusive
1arXiv cs.RO 

Assistance sans interruption : un benchmark et un cadre basé sur les LLM pour l'aide humain-robot non intrusive

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.01368) un cadre formel et un benchmark dédié à l'assistance robotique non intrusive, qu'ils nomment NIABench. Le problème étudié est précis : comment un robot peut-il soutenir un humain en train d'exécuter une séquence d'actions complexes, sans jamais l'interrompre ni attendre une commande explicite ? Les chercheurs proposent également une architecture hybride combinant un grand modèle de langage (LLM) et un modèle de scoring à deux étages : une première couche de récupération sémantique réduit l'espace des actions candidates, puis un module de ranking évalue les paires (étape humaine, action robot) pour arbitrer sur le moment et la nature de l'intervention. Les expériences sont conduites sur NIABench et validées sur des scénarios réels, avec des métriques inédites adaptées à ce paradigme. Ce travail est significatif parce qu'il déplace le curseur de la robotique collaborative vers un mode opératoire radicalement différent : le plan humain devient le processus principal, et le robot se positionne en assistant discret plutôt qu'en agent concurrent. Pour les intégrateurs de robots de service ou de cobots industriels, cela ouvre une voie concrète vers des déploiements où le robot n'exige ni formation de l'opérateur, ni protocole de communication explicite. La formalisation du problème joint, décider simultanément du quand et du quoi, est également un apport méthodologique, car la littérature HRI traitait jusqu'ici ces deux dimensions séparément. La présence d'un benchmark public avec métriques standardisées facilite la comparaison future entre approches. Ce travail s'inscrit dans un courant de recherche HRI qui cherche à dépasser les modèles maître-esclave ou les systèmes à déclenchement explicite. Des approches concurrentes, notamment dans les travaux sur les VLA (Vision-Language-Action models) de DeepMind ou Stanford, adressent la réactivité contextuelle mais sans formaliser explicitement la contrainte de non-intrusion. NIABench pourrait devenir un point de référence pour évaluer ces modèles sur cette dimension précise. Les prochaines étapes naturelles incluent le transfert vers des plateformes embarquées et des tests en environnements industriels réels, bien qu'aucun partenariat ou calendrier de déploiement ne soit mentionné dans cette publication.

RecherchePaper
1 source
Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique
2arXiv cs.RO 

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots. Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses. Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

UEFurhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

RecherchePaper
1 source
Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service
3arXiv cs.RO 

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

Des chercheurs ont publié sur arXiv (référence 2602.22346) un framework de perception sociale destiné aux robots de service mobiles autonomes, comme les robots tondeuses ou les robots nettoyeurs opérant dans des espaces fréquentés par des humains. Le système repose sur une architecture en deux étapes : une première phase identifie les paires d'individus susceptibles d'interagir en s'appuyant uniquement sur des indices géométriques et de mouvement (positions relatives, trajectoires, orientations corporelles), puis une seconde phase classe le type d'interaction à l'aide d'un réseau relationnel (relation network). L'approche a été évaluée sur le dataset JRDB, benchmark de référence pour la perception sociale en robotique, ainsi que sur le Collective Activity Dataset (CAD) et, en évaluation zero-shot, sur un jeu de données collecté directement par une tondeuse autonome en conditions réelles. L'enjeu est concret pour les intégrateurs de robots de service : détecter qu'un groupe de personnes interagit entre elles, qu'il s'agisse d'une discussion, d'un attroupement ou d'une interaction dynamique, permet au robot de planifier une trajectoire socialement acceptable sans interrompre ni gêner ces échanges. Les approches existantes reposent souvent sur des modèles de reconnaissance d'activité de groupe qui mobilisent des réseaux d'analyse visuelle coûteux en calcul, inadaptés aux plateformes embarquées à ressources limitées. Ce framework démontre que des indices géométriques simples suffisent à obtenir des performances compétitives tout en réduisant significativement la taille du modèle et le coût computationnel. Ce résultat remet en question l'hypothèse largement répandue selon laquelle l'analyse visuelle par apparence serait indispensable pour ce type de tâche de perception sociale. Ce travail s'inscrit dans le champ de la navigation socialement consciente (socially aware navigation), où des frameworks comme SARL, CrowdNav ou ORCA constituent les références historiques. Le dataset JRDB, produit par Stanford, reste le principal benchmark pour ce type de tâche en environnement robotique réel. Le code est publié en open source, ce qui facilitera son intégration dans des pipelines ROS existants. La limite notable est que l'évaluation porte sur des interactions coarse-grained, c'est-à-dire des catégories comportementales larges plutôt que des gestes fins, ce qui suffit pour la navigation mais exclut les applications nécessitant une compréhension sociale plus granulaire. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes réelles déployées en environnements semi-publics, comme des aéroports, des centres commerciaux ou des entrepôts à occupation mixte.

RecherchePaper
1 source
HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques
4arXiv cs.RO 

HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques

Une équipe de chercheurs a publié HA-VLN 2.0, un benchmark unifié pour évaluer la navigation guidée par le langage et la vision (VLN) dans des environnements peuplés d'humains en mouvement. Le jeu de données associé, HAPS 2.0, couvre 16 844 instructions socialement contextualisées et modélise des interactions multi-humains en intérieur comme en extérieur, dans des espaces discrets et continus. Le système introduit des métriques explicites mesurant simultanément la précision de navigation vers l'objectif et le respect de l'espace personnel des personnes croisées. Des expériences en conditions réelles sur robot physique ont complété l'évaluation simulée, et un leaderboard ouvert permet des comparaisons reproductibles entre équipes. Les résultats sont sans appel pour les agents VLN actuels : dès que des humains dynamiques et une observabilité partielle entrent en jeu, leurs performances chutent significativement. Ce constat remet en question une hypothèse répandue dans la recherche VLN, à savoir que les agents entraînés en environnements statiques généraliseraient correctement au monde réel. Les expériences sim-to-real confirment en revanche que la modélisation explicite des contraintes sociales améliore la robustesse de navigation et réduit les collisions, ce qui valide l'approche. Pour les intégrateurs déployant des robots mobiles en milieu professionnel (entrepôts partagés, hôpitaux, espaces de bureau), cela signifie que les benchmarks sans humains surestiment substantiellement les capacités réelles des systèmes. La navigation guidée par langage est un champ actif depuis les travaux fondateurs sur R2R (Room-to-Room, 2018), mais la majorité des benchmarks existants, dont R2R, REVERIE ou SOON, supposent des environnements vides ou quasi-statiques. HA-VLN 2.0 s'inscrit dans une tendance récente incluant les travaux sur SocNavBench et HuNavSim, qui cherchent à intégrer la dynamique humaine dans l'évaluation de la navigation sociale. Le benchmark est entièrement open-source (datasets, simulateurs, baselines, protocoles). Les prochaines étapes probables incluent l'intégration de modèles VLA (Vision-Language-Action) plus récents comme pi-0 ou RT-2 dans le leaderboard, ainsi que des évaluations dans des scènes extérieures plus complexes.

RecherchePaper
1 source