RecherchearXiv cs.RO2h

Robots humanoïdes : une étude utilisateur compare perception et métriques techniques en interaction homme-robot multimodale

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une étude universitaire portant sur 24 participants montre qu'un gain de 15 points de pourcentage en taux de réussite d'une tâche de préhension d'objets, de 75% à 90%, est perceptible par les utilisateurs lors d'une interaction directe avec un robot. Le système de référence combine Whisper pour la reconnaissance vocale, Florence-2 pour la détection d'objets en vocabulaire ouvert, LLaMA 3.1 pour l'extraction d'actions, et un contrôleur logique flou de type 2 intervalle pour l'exécution des mouvements. La configuration améliorée conserve le même contrôleur mais remplace les modules de perception et de langage par Grounding DINO couplé à SAM et par Qwen 3.5 9B. Dans une étude en sujets répétés, où chaque participant a testé les deux configurations sur la même tâche de saisie d'objets sur table, 17 personnes sur 24 (70,83%) ont préféré le système amélioré, un résultat statistiquement significatif (test binomial exact, p = 0,043). Les trois critères perceptuels évalués sur une échelle de Likert à 7 points, la vitesse ressentie, la fiabilité et la compétence globale, ont tous été notés significativement plus haut pour la version améliorée, avec des tailles d'effet allant de grandes à très grandes après correction de Holm (p < 0,001).

L'intérêt de ces travaux dépasse le simple constat qu'un meilleur système est mieux perçu. Ils répondent à une question moins triviale qu'il n'y paraît pour l'industrie robotique: un gain mesuré sur des benchmarks techniques se traduit-il réellement en une différence que l'utilisateur final ressent au contact du robot? Pour les intégrateurs et décideurs qui arbitrent entre plusieurs piles perception-langage-contrôle, souvent sur la seule foi de métriques de laboratoire, cette étude fournit une preuve empirique que l'amélioration des modules de vision et de compréhension du langage a un effet direct sur la confiance et l'acceptabilité perçues, indépendamment du contrôleur moteur qui reste inchangé.

Le travail s'inscrit dans une lignée de recherches en interaction homme-robot qui cherche à combler l'écart entre évaluation par benchmark et évaluation centrée utilisateur, un point de friction classique entre recherche en robotique et déploiement réel. L'architecture testée illustre aussi l'évolution rapide des briques génériques mobilisées dans les pipelines de manipulation, passant de Florence-2 et LLaMA 3.1 à des modules plus récents comme Grounding DINO, SAM et Qwen 3.5 9B, sans toucher à la couche de contrôle bas niveau. Les auteurs appellent à systématiser ce type d'évaluation utilisateur en complément des ablations techniques classiques pour tout futur pipeline de manipulation robotique.

Dans nos dossiers

Manipulation robotique

À lire aussi

1arXiv cs.RO

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Une étude soumise en mai 2025 sur arXiv (référence 2605.00963) présente une analyse par ablation d'un système de manipulation robotique piloté par interaction homme-robot multimodale, appliqué à une tâche de détection et saisie d'objets. Les chercheurs ont ciblé trois modules du pipeline : le modèle de langage chargé d'extraire les actions à partir d'instructions verbales, le système de perception assurant l'ancrage visuel des objets cibles, et le contrôleur gérant l'exécution du mouvement. L'étude compare trois LLM distincts, cinq configurations de perception, et trois contrôleurs, avant de soumettre les meilleures combinaisons à une analyse factorielle croisée en seconde phase. L'objectif déclaré n'est pas de redessiner le pipeline, mais d'isoler la contribution de chaque composant sous un protocole expérimental commun. Cette approche répond à une question directement actionnable pour les intégrateurs et ingénieurs robotiques : quel module optimiser en priorité pour améliorer le taux de succès, et lequel pour réduire le temps d'exécution ? Dans un contexte industriel, ces deux métriques obéissent à des contraintes distinctes selon les postes de travail, et les confondre dans une évaluation globale masque les vrais leviers d'amélioration. La méthodologie par ablation reste encore rare dans les publications de manipulation robotique, où la tendance est d'évaluer un seul composant à la fois, ce qui rend les résultats difficiles à reproduire ou à transposer d'un système à l'autre. Les auteurs précisent que l'analyse vise aussi à orienter les choix d'ingénierie dans les prochaines versions du système. Ce travail s'inscrit dans un effort plus large de la communauté pour rendre opérationnels les pipelines de manipulation guidés par langage hors des environnements contrôlés de laboratoire. Sur le plan concurrentiel, deux écoles s'affrontent actuellement : les modèles unifiés de type VLA (Vision-Language-Action) entraînés à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les pipelines modulaires qui préservent la séparabilité des composants pour faciliter le débogage et l'adaptation sectorielle. L'étude n'annonce pas de déploiement industriel et reste pour l'instant au stade de la validation expérimentale. La prochaine étape logique serait de tester si les gains mesurés en laboratoire résistent au sim-to-real gap, qui demeure le principal obstacle à la mise en production des systèmes de manipulation guidés par instructions en langage naturel.

RecherchePaper

1 source

2arXiv cs.RO

Évaluation physiologique multimodale de l'interaction physique humain-robot à contacts intensifs en conditions variables

Une équipe de chercheurs a publié une étude empirique multimodale portant sur l'interaction physique humain-robot (pHRI) dans des conditions environnementales variables. Le protocole a soumis des opérateurs humains à 18 combinaisons distinctes de température, bruit acoustique et niveau d'éclairement, pendant l'exécution de tâches de traçage en contact direct avec un robot. Les chercheurs ont enregistré simultanément l'activité électrodermale (EDA), l'électromyographie de surface (sEMG), des données d'eye-tracking et des évaluations subjectives du confort. Résultat principal : la performance d'exécution est restée stable à travers toutes les conditions, mais la charge autonomique, mesurée par le niveau de conductance cutanée (SCL), a augmenté significativement avec la température. Les charges physique et cognitive, elles, n'ont pas varié de façon notable. Ces résultats mettent en évidence un mécanisme de compensation physiologique : les opérateurs maintiennent leur niveau de performance en augmentant leur effort biologique pour supprimer l'inconfort thermique, sans que cela ne soit visible dans les métriques de tâche classiques. C'est une distinction critique pour les intégrateurs et les concepteurs de systèmes cobotiques industriels : une évaluation centrée uniquement sur la performance (temps de cycle, taux d'erreur) peut masquer un coût opérateur réel, notamment en environnements chauds ou bruyants. Le fait que le confort perçu ne corrèle pas avec l'erreur de traçage ni le temps d'exécution invalide l'hypothèse courante que la performance se dégrade avec l'inconfort ressenti. Ce travail s'inscrit dans un courant de recherche croissant sur les architectures de contrôle "physiology-aware", où les signaux biologiques temps réel de l'opérateur alimentent la boucle de commande du robot pour adapter son comportement à l'état de charge de l'humain. La robotique collaborative industrielle, notamment dans des secteurs comme l'automobile ou la logistique, où les conditions thermiques et sonores sont variables, constitue le terrain d'application naturel. Des systèmes comme les cobots Universal Robots ou KUKA devront intégrer ce type de feedback pour répondre aux exigences ergonomiques croissantes des régulateurs européens. Les prochaines étapes identifiées par les auteurs incluent le développement de pipelines de traitement de signal adaptatifs capables d'exploiter ces métriques physiologiques en conditions non structurées.

UELes fabricants de cobots européens (KUKA, Universal Robots) et les régulateurs ergonomiques UE sont directement concernés : cette étude démontre que les métriques de performance classiques masquent un coût physiologique réel chez l'opérateur, ce qui invalide les protocoles d'évaluation actuels et anticipe des exigences réglementaires renforcées pour les déploiements cobotiques industriels en Europe.

RecherchePaper

1 source

3arXiv cs.RO

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées. Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié. Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

RecherchePaper

1 source

4arXiv cs.RO

FAM-HRI : interaction humain-robot multimodale assistée par modèle fondation, combinant regard et parole

Une équipe de chercheurs a publié en mars 2025 sur arXiv (référence 2503.16492, troisième révision) FAM-HRI, un framework multimodal d'interaction humain-robot combinant le suivi du regard et la parole via des modèles de fondation. Le système s'appuie sur les lunettes Meta ARIA, un dispositif de recherche léger, pour capturer en temps réel les signaux visuels et vocaux de l'utilisateur. Ces données sont fusionnées par un grand modèle de langage (LLM) qui interprète l'intention de l'utilisateur en la croisant avec le contexte visuel de la scène, permettant au robot d'identifier et manipuler des objets désignés par le regard. Un algorithme dédié détermine l'intervalle temporel de fixation oculaire afin de filtrer le bruit inhérent aux mouvements naturels des yeux. Les auteurs rapportent un "taux de succès élevé" et un "temps d'interaction faible" lors des évaluations expérimentales, sans publier de métriques chiffrées précises dans le résumé, ce qui limitera la comparabilité directe avec d'autres systèmes. L'enjeu de FAM-HRI dépasse la performance brute : le système cible explicitement les utilisateurs souffrant de handicaps moteurs ou de mobilité réduite, une population pour laquelle les interfaces gestuelles classiques sont inutilisables et les commandes vocales seules insuffisamment précises pour la manipulation spatiale. En fusionnant regard et parole au niveau sémantique via un LLM, l'architecture évite les ambiguïtés typiques des commandes monocanal, comme "prends l'objet" sans désignation claire. C'est un pas concret vers des robots d'assistance utilisables en conditions réelles, où la robustesse à l'imprécision humaine prime sur la performance en environnement contrôlé. La combinaison regard-parole pour le contrôle robotique n'est pas nouvelle, mais l'intégration de LLMs pour la fusion contextuelle représente une évolution récente, rendue possible par la réduction des coûts d'inférence. Les lunettes Meta ARIA, conçues initialement pour la recherche en réalité augmentée, trouvent ici une application robotique directe. Les concurrents dans l'espace HRI multimodal incluent des travaux issus de CMU, ETH Zurich et d'équipes japonaises comme Preferred Networks et l'AIST. L'ensemble du code et des algorithmes est publié en open source sur GitHub, ce qui facilitera la reproductibilité. Les prochaines étapes naturelles seraient une validation en conditions cliniques ou à domicile, et une extension à des plateformes mobiles au-delà de la manipulation fixe.

RecherchePaper

1 source