Assistance sans interruption : un benchmark et un cadre…

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

53

1arXiv cs.RO

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

Une équipe de chercheurs a publié en mai 2026 Gaze4HRI (arXiv:2605.04770), un benchmark à grande échelle conçu pour évaluer les réseaux de neurones d'estimation du regard dans les conditions réelles de l'interaction humain-robot (HRI). Le jeu de données regroupe plus de 50 sujets, 3 000 vidéos et 600 000 images annotées, couvrant quatre variables critiques identifiées comme sous-représentées dans les évaluations existantes : les variations d'éclairage, les conflits entre direction de la tête et direction du regard, la mobilité de la caméra embarquée sur le robot, et le déplacement de la cible visuelle. L'approche retenue est celle de l'estimation 3D du regard dite "zero-shot" : les modèles apprennent à projeter directement une image RGB en vecteur de regard, sans calibration individuelle, ce qui réduit considérablement les coûts de déploiement en contexte opérationnel. Les résultats du benchmark remettent en question plusieurs hypothèses dominantes dans la littérature. Chacune des méthodes évaluées échoue sur au moins une condition testée, et le regard fortement orienté vers le bas ("steeply-downward gaze") constitue un point d'échec universel pour l'ensemble des architectures, y compris les modèles spatio-temporels complexes et les approches basées sur des Transformers. Ces architectures récentes, pourtant très citées, n'affichent pas de supériorité systématique en conditions non contrôlées. Seul PureGaze, entraîné sur le dataset ETH-X-Gaze, maintient une robustesse satisfaisante sur l'ensemble des autres conditions. La conclusion centrale est que la diversité des données d'entraînement constitue le premier levier de robustesse zero-shot, devant la complexité architecturale, tandis que des mécanismes comme la self-adversarial loss de PureGaze pour la purification des features de regard apportent un gain additionnel significatif. L'estimation du regard est une compétence fondamentale pour les robots sociaux et collaboratifs : elle conditionne la détection d'attention, la coordination tour-par-tour, et la sécurité en environnement partagé. Les benchmarks existants souffrent d'un "complexity gap" structurel, les méthodes étant entraînées sur des corpus variés mais évaluées sur des ensembles beaucoup plus petits et homogènes, ce qui surestime leur robustesse réelle. Gaze4HRI vise à corriger ce biais. Sur le plan concurrentiel, le dataset ETH-X-Gaze (ETH Zurich) s'impose ici comme la référence en termes de diversité, tandis que des benchmarks HRI spécialisés comme GAZE360 ou MPIIFaceGaze ne capturent pas les conditions de mouvement propres aux plateformes robotiques. Le dataset et le code sont disponibles publiquement sur gazeforhri.github.io, ce qui devrait faciliter l'adoption par les équipes travaillant sur des robots humanoïdes ou des AMR équipés de systèmes de perception sociale.

UELe benchmark Gaze4HRI et son dataset public (600 000 images annotées, code ouvert) pourraient accélérer les travaux des équipes européennes comme l'INRIA ou le CEA-List sur la perception sociale des robots collaboratifs et humanoïdes.

RecherchePaper

1 source

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

35

2arXiv cs.RO

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite. L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire. Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

RechercheOpinion

1 source

Détection de contact active pour un transfert d'objet robuste de robot à humain

43

3arXiv cs.RO

Détection de contact active pour un transfert d'objet robuste de robot à humain

Une équipe de chercheurs propose une méthode de détection de contact active pour fiabiliser les transferts d'objets de robot à humain, publiée en prépublication sur arXiv (2605.04610, mai 2026). Au lieu d'attendre passivement un signal de saisie, le robot génère des micro-mouvements exploratoires et mesure les forces appliquées en retour par l'humain : une saisie ferme produit des forces dans plusieurs directions, un contact accidentel non. Le système repose sur un modèle bayésien linéaire par morceaux qui estime la probabilité de chaque état de contact à partir de ces réponses en force. Testé avec 12 participants sur 30 objets rigides variés, il atteint un taux de succès de 97,5 %, soit plus de 30 points au-dessus des deux approches passives utilisées comme référence. Les applications visées vont du robot d'assistance à domicile (servir un verre) au bloc opératoire (passer un instrument chirurgical). Ce résultat est significatif car la généralisation inter-objets est précisément le point dur des approches passives (tactile, force/couple) : elles peinent à distinguer saisie ferme et contact fortuit face à la diversité des formes, des masses et des comportements humains. L'active sensing force une perturbation contrôlée qui rend les états ambigus séparables. Pour les intégrateurs et les décideurs industriels, l'enjeu est directement lié à la sécurité : dans un environnement collaboratif ou chirurgical, un relâchement prématuré peut causer un incident grave. Un taux de 97,5 % commence à entrer dans la plage exploitable pour des assistants robotiques en conditions réelles, même si le périmètre du test reste limité (objets rigides, 12 sujets, conditions de laboratoire). La question du handover robot-humain est active en recherche depuis plusieurs années, portée notamment par les domaines de l'assistance à la personne et de la chirurgie robotique. Ce papier est une prépublication non encore évaluée par les pairs, et l'abstract ne mentionne ni institution ni partenaire industriel, ce qui rend difficile l'évaluation de sa trajectoire vers un déploiement réel. Aucune intégration commerciale n'est annoncée. Les suites logiques incluent des tests sur objets déformables ou non rigides, une validation en conditions cliniques contrôlées, et une intégration dans des plateformes à retour d'effort comme les cobots ou les mains de robots humanoïdes qui commencent à offrir les interfaces mécaniques nécessaires à ce type de dialogue haptique.

RecherchePaper

1 source

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle

36

4arXiv cs.RO

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle

Une équipe de chercheurs a soumis fin avril 2026 sur arXiv (référence 2604.15339) un article proposant un cadre conceptuel unifié pour trois notions centrales de l'interaction humain-robot : l'incertitude, le flou et l'ambiguïté. Le constat de départ est empirique : dans la littérature HRI, ces trois termes sont régulièrement définis de manière contradictoire d'une étude à l'autre, voire utilisés comme synonymes. Les auteurs partent des définitions lexicographiques, analysent les distinctions et les relations entre ces concepts dans le contexte spécifique du HRI, illustrent chaque notion par des exemples concrets, puis démontrent comment ce socle cohérent permet de concevoir de nouvelles méthodes et d'évaluer les méthodologies existantes avec plus de rigueur. L'enjeu n'est pas seulement terminologique. Quand deux équipes utilisent le mot "ambiguïté" pour désigner des phénomènes différents, leurs résultats expérimentaux deviennent non comparables, et la capitalisation théorique du domaine ralentit. Pour un intégrateur ou un concepteur de systèmes robotiques interactifs, cette confusion a des conséquences pratiques : les métriques d'évaluation divergent, les benchmarks perdent leur valeur de référence, et le transfert de résultats de laboratoire vers des déploiements réels est fragilisé. En établissant des frontières claires entre ces trois concepts, le papier prépare le terrain pour des protocoles d'évaluation reproductibles et des méta-analyses plus robustes, deux prérequis pour une maturation industrielle du HRI. Ce travail s'inscrit dans un mouvement plus large de structuration académique du HRI, discipline jeune à l'intersection de la robotique, des sciences cognitives et de la linguistique. Le problème de l'incohérence terminologique y est identifié depuis plusieurs années, notamment dans des travaux sur la communication intentionnelle et la résolution de références entre humains et robots. Les auteurs ne proposent pas ici un nouveau système technique mais une infrastructure conceptuelle, ce qui est typiquement le type de contribution qui précède une normalisation de fait dans un domaine. Les prochaines étapes naturelles seraient l'adoption de ce cadre dans des conférences de référence comme HRI, RO-MAN ou HRI Workshop de l'IEEE, et son intégration dans des protocoles d'évaluation standardisés pour les assistants robotiques en environnement industriel ou de service.

RecherchePaper

1 source

Assistance sans interruption : un benchmark et un cadre basé sur les LLM pour l'aide humain-robot non intrusive

À lire aussi

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Détection de contact active pour un transfert d'objet robuste de robot à humain

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle