Aller au contenu principal
FAM-HRI : interaction humain-robot multimodale assistée par modèle fondation, combinant regard et parole
RecherchearXiv cs.RO6sem

FAM-HRI : interaction humain-robot multimodale assistée par modèle fondation, combinant regard et parole

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en mars 2025 sur arXiv (référence 2503.16492, troisième révision) FAM-HRI, un framework multimodal d'interaction humain-robot combinant le suivi du regard et la parole via des modèles de fondation. Le système s'appuie sur les lunettes Meta ARIA, un dispositif de recherche léger, pour capturer en temps réel les signaux visuels et vocaux de l'utilisateur. Ces données sont fusionnées par un grand modèle de langage (LLM) qui interprète l'intention de l'utilisateur en la croisant avec le contexte visuel de la scène, permettant au robot d'identifier et manipuler des objets désignés par le regard. Un algorithme dédié détermine l'intervalle temporel de fixation oculaire afin de filtrer le bruit inhérent aux mouvements naturels des yeux. Les auteurs rapportent un "taux de succès élevé" et un "temps d'interaction faible" lors des évaluations expérimentales, sans publier de métriques chiffrées précises dans le résumé, ce qui limitera la comparabilité directe avec d'autres systèmes.

L'enjeu de FAM-HRI dépasse la performance brute : le système cible explicitement les utilisateurs souffrant de handicaps moteurs ou de mobilité réduite, une population pour laquelle les interfaces gestuelles classiques sont inutilisables et les commandes vocales seules insuffisamment précises pour la manipulation spatiale. En fusionnant regard et parole au niveau sémantique via un LLM, l'architecture évite les ambiguïtés typiques des commandes monocanal, comme "prends l'objet" sans désignation claire. C'est un pas concret vers des robots d'assistance utilisables en conditions réelles, où la robustesse à l'imprécision humaine prime sur la performance en environnement contrôlé.

La combinaison regard-parole pour le contrôle robotique n'est pas nouvelle, mais l'intégration de LLMs pour la fusion contextuelle représente une évolution récente, rendue possible par la réduction des coûts d'inférence. Les lunettes Meta ARIA, conçues initialement pour la recherche en réalité augmentée, trouvent ici une application robotique directe. Les concurrents dans l'espace HRI multimodal incluent des travaux issus de CMU, ETH Zurich et d'équipes japonaises comme Preferred Networks et l'AIST. L'ensemble du code et des algorithmes est publié en open source sur GitHub, ce qui facilitera la reproductibilité. Les prochaines étapes naturelles seraient une validation en conditions cliniques ou à domicile, et une extension à des plateformes mobiles au-delà de la manipulation fixe.

Dans nos dossiers

À lire aussi

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation
1arXiv cs.RO 

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Une étude soumise en mai 2025 sur arXiv (référence 2605.00963) présente une analyse par ablation d'un système de manipulation robotique piloté par interaction homme-robot multimodale, appliqué à une tâche de détection et saisie d'objets. Les chercheurs ont ciblé trois modules du pipeline : le modèle de langage chargé d'extraire les actions à partir d'instructions verbales, le système de perception assurant l'ancrage visuel des objets cibles, et le contrôleur gérant l'exécution du mouvement. L'étude compare trois LLM distincts, cinq configurations de perception, et trois contrôleurs, avant de soumettre les meilleures combinaisons à une analyse factorielle croisée en seconde phase. L'objectif déclaré n'est pas de redessiner le pipeline, mais d'isoler la contribution de chaque composant sous un protocole expérimental commun. Cette approche répond à une question directement actionnable pour les intégrateurs et ingénieurs robotiques : quel module optimiser en priorité pour améliorer le taux de succès, et lequel pour réduire le temps d'exécution ? Dans un contexte industriel, ces deux métriques obéissent à des contraintes distinctes selon les postes de travail, et les confondre dans une évaluation globale masque les vrais leviers d'amélioration. La méthodologie par ablation reste encore rare dans les publications de manipulation robotique, où la tendance est d'évaluer un seul composant à la fois, ce qui rend les résultats difficiles à reproduire ou à transposer d'un système à l'autre. Les auteurs précisent que l'analyse vise aussi à orienter les choix d'ingénierie dans les prochaines versions du système. Ce travail s'inscrit dans un effort plus large de la communauté pour rendre opérationnels les pipelines de manipulation guidés par langage hors des environnements contrôlés de laboratoire. Sur le plan concurrentiel, deux écoles s'affrontent actuellement : les modèles unifiés de type VLA (Vision-Language-Action) entraînés à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les pipelines modulaires qui préservent la séparabilité des composants pour faciliter le débogage et l'adaptation sectorielle. L'étude n'annonce pas de déploiement industriel et reste pour l'instant au stade de la validation expérimentale. La prochaine étape logique serait de tester si les gains mesurés en laboratoire résistent au sim-to-real gap, qui demeure le principal obstacle à la mise en production des systèmes de manipulation guidés par instructions en langage naturel.

RecherchePaper
1 source
Évaluation physiologique multimodale de l'interaction physique humain-robot à contacts intensifs en conditions variables
2arXiv cs.RO 

Évaluation physiologique multimodale de l'interaction physique humain-robot à contacts intensifs en conditions variables

Une équipe de chercheurs a publié une étude empirique multimodale portant sur l'interaction physique humain-robot (pHRI) dans des conditions environnementales variables. Le protocole a soumis des opérateurs humains à 18 combinaisons distinctes de température, bruit acoustique et niveau d'éclairement, pendant l'exécution de tâches de traçage en contact direct avec un robot. Les chercheurs ont enregistré simultanément l'activité électrodermale (EDA), l'électromyographie de surface (sEMG), des données d'eye-tracking et des évaluations subjectives du confort. Résultat principal : la performance d'exécution est restée stable à travers toutes les conditions, mais la charge autonomique, mesurée par le niveau de conductance cutanée (SCL), a augmenté significativement avec la température. Les charges physique et cognitive, elles, n'ont pas varié de façon notable. Ces résultats mettent en évidence un mécanisme de compensation physiologique : les opérateurs maintiennent leur niveau de performance en augmentant leur effort biologique pour supprimer l'inconfort thermique, sans que cela ne soit visible dans les métriques de tâche classiques. C'est une distinction critique pour les intégrateurs et les concepteurs de systèmes cobotiques industriels : une évaluation centrée uniquement sur la performance (temps de cycle, taux d'erreur) peut masquer un coût opérateur réel, notamment en environnements chauds ou bruyants. Le fait que le confort perçu ne corrèle pas avec l'erreur de traçage ni le temps d'exécution invalide l'hypothèse courante que la performance se dégrade avec l'inconfort ressenti. Ce travail s'inscrit dans un courant de recherche croissant sur les architectures de contrôle "physiology-aware", où les signaux biologiques temps réel de l'opérateur alimentent la boucle de commande du robot pour adapter son comportement à l'état de charge de l'humain. La robotique collaborative industrielle, notamment dans des secteurs comme l'automobile ou la logistique, où les conditions thermiques et sonores sont variables, constitue le terrain d'application naturel. Des systèmes comme les cobots Universal Robots ou KUKA devront intégrer ce type de feedback pour répondre aux exigences ergonomiques croissantes des régulateurs européens. Les prochaines étapes identifiées par les auteurs incluent le développement de pipelines de traitement de signal adaptatifs capables d'exploiter ces métriques physiologiques en conditions non structurées.

UELes fabricants de cobots européens (KUKA, Universal Robots) et les régulateurs ergonomiques UE sont directement concernés : cette étude démontre que les métriques de performance classiques masquent un coût physiologique réel chez l'opérateur, ce qui invalide les protocoles d'évaluation actuels et anticipe des exigences réglementaires renforcées pour les déploiements cobotiques industriels en Europe.

RecherchePaper
1 source
Robots humanoïdes : une étude utilisateur compare perception et métriques techniques en interaction homme-robot multimodale
3arXiv cs.RO 

Robots humanoïdes : une étude utilisateur compare perception et métriques techniques en interaction homme-robot multimodale

Une étude universitaire portant sur 24 participants montre qu'un gain de 15 points de pourcentage en taux de réussite d'une tâche de préhension d'objets, de 75% à 90%, est perceptible par les utilisateurs lors d'une interaction directe avec un robot. Le système de référence combine Whisper pour la reconnaissance vocale, Florence-2 pour la détection d'objets en vocabulaire ouvert, LLaMA 3.1 pour l'extraction d'actions, et un contrôleur logique flou de type 2 intervalle pour l'exécution des mouvements. La configuration améliorée conserve le même contrôleur mais remplace les modules de perception et de langage par Grounding DINO couplé à SAM et par Qwen 3.5 9B. Dans une étude en sujets répétés, où chaque participant a testé les deux configurations sur la même tâche de saisie d'objets sur table, 17 personnes sur 24 (70,83%) ont préféré le système amélioré, un résultat statistiquement significatif (test binomial exact, p = 0,043). Les trois critères perceptuels évalués sur une échelle de Likert à 7 points, la vitesse ressentie, la fiabilité et la compétence globale, ont tous été notés significativement plus haut pour la version améliorée, avec des tailles d'effet allant de grandes à très grandes après correction de Holm (p < 0,001). L'intérêt de ces travaux dépasse le simple constat qu'un meilleur système est mieux perçu. Ils répondent à une question moins triviale qu'il n'y paraît pour l'industrie robotique: un gain mesuré sur des benchmarks techniques se traduit-il réellement en une différence que l'utilisateur final ressent au contact du robot? Pour les intégrateurs et décideurs qui arbitrent entre plusieurs piles perception-langage-contrôle, souvent sur la seule foi de métriques de laboratoire, cette étude fournit une preuve empirique que l'amélioration des modules de vision et de compréhension du langage a un effet direct sur la confiance et l'acceptabilité perçues, indépendamment du contrôleur moteur qui reste inchangé. Le travail s'inscrit dans une lignée de recherches en interaction homme-robot qui cherche à combler l'écart entre évaluation par benchmark et évaluation centrée utilisateur, un point de friction classique entre recherche en robotique et déploiement réel. L'architecture testée illustre aussi l'évolution rapide des briques génériques mobilisées dans les pipelines de manipulation, passant de Florence-2 et LLaMA 3.1 à des modules plus récents comme Grounding DINO, SAM et Qwen 3.5 9B, sans toucher à la couche de contrôle bas niveau. Les auteurs appellent à systématiser ce type d'évaluation utilisateur en complément des ablations techniques classiques pour tout futur pipeline de manipulation robotique.

RecherchePaper
1 source
Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot
4arXiv cs.RO 

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

Une équipe de chercheurs a publié en mai 2026 Gaze4HRI (arXiv:2605.04770), un benchmark à grande échelle conçu pour évaluer les réseaux de neurones d'estimation du regard dans les conditions réelles de l'interaction humain-robot (HRI). Le jeu de données regroupe plus de 50 sujets, 3 000 vidéos et 600 000 images annotées, couvrant quatre variables critiques identifiées comme sous-représentées dans les évaluations existantes : les variations d'éclairage, les conflits entre direction de la tête et direction du regard, la mobilité de la caméra embarquée sur le robot, et le déplacement de la cible visuelle. L'approche retenue est celle de l'estimation 3D du regard dite "zero-shot" : les modèles apprennent à projeter directement une image RGB en vecteur de regard, sans calibration individuelle, ce qui réduit considérablement les coûts de déploiement en contexte opérationnel. Les résultats du benchmark remettent en question plusieurs hypothèses dominantes dans la littérature. Chacune des méthodes évaluées échoue sur au moins une condition testée, et le regard fortement orienté vers le bas ("steeply-downward gaze") constitue un point d'échec universel pour l'ensemble des architectures, y compris les modèles spatio-temporels complexes et les approches basées sur des Transformers. Ces architectures récentes, pourtant très citées, n'affichent pas de supériorité systématique en conditions non contrôlées. Seul PureGaze, entraîné sur le dataset ETH-X-Gaze, maintient une robustesse satisfaisante sur l'ensemble des autres conditions. La conclusion centrale est que la diversité des données d'entraînement constitue le premier levier de robustesse zero-shot, devant la complexité architecturale, tandis que des mécanismes comme la self-adversarial loss de PureGaze pour la purification des features de regard apportent un gain additionnel significatif. L'estimation du regard est une compétence fondamentale pour les robots sociaux et collaboratifs : elle conditionne la détection d'attention, la coordination tour-par-tour, et la sécurité en environnement partagé. Les benchmarks existants souffrent d'un "complexity gap" structurel, les méthodes étant entraînées sur des corpus variés mais évaluées sur des ensembles beaucoup plus petits et homogènes, ce qui surestime leur robustesse réelle. Gaze4HRI vise à corriger ce biais. Sur le plan concurrentiel, le dataset ETH-X-Gaze (ETH Zurich) s'impose ici comme la référence en termes de diversité, tandis que des benchmarks HRI spécialisés comme GAZE360 ou MPIIFaceGaze ne capturent pas les conditions de mouvement propres aux plateformes robotiques. Le dataset et le code sont disponibles publiquement sur gazeforhri.github.io, ce qui devrait faciliter l'adoption par les équipes travaillant sur des robots humanoïdes ou des AMR équipés de systèmes de perception sociale.

UELe benchmark Gaze4HRI et son dataset public (600 000 images annotées, code ouvert) pourraient accélérer les travaux des équipes européennes comme l'INRIA ou le CEA-List sur la perception sociale des robots collaboratifs et humanoïdes.

RecherchePaper
1 source