
FAM-HRI : interaction humain-robot multimodale assistée par modèle fondation, combinant regard et parole
Une équipe de chercheurs a publié en mars 2025 sur arXiv (référence 2503.16492, troisième révision) FAM-HRI, un framework multimodal d'interaction humain-robot combinant le suivi du regard et la parole via des modèles de fondation. Le système s'appuie sur les lunettes Meta ARIA, un dispositif de recherche léger, pour capturer en temps réel les signaux visuels et vocaux de l'utilisateur. Ces données sont fusionnées par un grand modèle de langage (LLM) qui interprète l'intention de l'utilisateur en la croisant avec le contexte visuel de la scène, permettant au robot d'identifier et manipuler des objets désignés par le regard. Un algorithme dédié détermine l'intervalle temporel de fixation oculaire afin de filtrer le bruit inhérent aux mouvements naturels des yeux. Les auteurs rapportent un "taux de succès élevé" et un "temps d'interaction faible" lors des évaluations expérimentales, sans publier de métriques chiffrées précises dans le résumé, ce qui limitera la comparabilité directe avec d'autres systèmes.
L'enjeu de FAM-HRI dépasse la performance brute : le système cible explicitement les utilisateurs souffrant de handicaps moteurs ou de mobilité réduite, une population pour laquelle les interfaces gestuelles classiques sont inutilisables et les commandes vocales seules insuffisamment précises pour la manipulation spatiale. En fusionnant regard et parole au niveau sémantique via un LLM, l'architecture évite les ambiguïtés typiques des commandes monocanal, comme "prends l'objet" sans désignation claire. C'est un pas concret vers des robots d'assistance utilisables en conditions réelles, où la robustesse à l'imprécision humaine prime sur la performance en environnement contrôlé.
La combinaison regard-parole pour le contrôle robotique n'est pas nouvelle, mais l'intégration de LLMs pour la fusion contextuelle représente une évolution récente, rendue possible par la réduction des coûts d'inférence. Les lunettes Meta ARIA, conçues initialement pour la recherche en réalité augmentée, trouvent ici une application robotique directe. Les concurrents dans l'espace HRI multimodal incluent des travaux issus de CMU, ETH Zurich et d'équipes japonaises comme Preferred Networks et l'AIST. L'ensemble du code et des algorithmes est publié en open source sur GitHub, ce qui facilitera la reproductibilité. Les prochaines étapes naturelles seraient une validation en conditions cliniques ou à domicile, et une extension à des plateformes mobiles au-delà de la manipulation fixe.
Dans nos dossiers




