Robots humanoïdes : une étude utilisateur compare perception et métriques techniques en interaction homme-robot multimodale
Une étude universitaire portant sur 24 participants montre qu'un gain de 15 points de pourcentage en taux de réussite d'une tâche de préhension d'objets, de 75% à 90%, est perceptible par les utilisateurs lors d'une interaction directe avec un robot. Le système de référence combine Whisper pour la reconnaissance vocale, Florence-2 pour la détection d'objets en vocabulaire ouvert, LLaMA 3.1 pour l'extraction d'actions, et un contrôleur logique flou de type 2 intervalle pour l'exécution des mouvements. La configuration améliorée conserve le même contrôleur mais remplace les modules de perception et de langage par Grounding DINO couplé à SAM et par Qwen 3.5 9B. Dans une étude en sujets répétés, où chaque participant a testé les deux configurations sur la même tâche de saisie d'objets sur table, 17 personnes sur 24 (70,83%) ont préféré le système amélioré, un résultat statistiquement significatif (test binomial exact, p = 0,043). Les trois critères perceptuels évalués sur une échelle de Likert à 7 points, la vitesse ressentie, la fiabilité et la compétence globale, ont tous été notés significativement plus haut pour la version améliorée, avec des tailles d'effet allant de grandes à très grandes après correction de Holm (p < 0,001).
L'intérêt de ces travaux dépasse le simple constat qu'un meilleur système est mieux perçu. Ils répondent à une question moins triviale qu'il n'y paraît pour l'industrie robotique: un gain mesuré sur des benchmarks techniques se traduit-il réellement en une différence que l'utilisateur final ressent au contact du robot? Pour les intégrateurs et décideurs qui arbitrent entre plusieurs piles perception-langage-contrôle, souvent sur la seule foi de métriques de laboratoire, cette étude fournit une preuve empirique que l'amélioration des modules de vision et de compréhension du langage a un effet direct sur la confiance et l'acceptabilité perçues, indépendamment du contrôleur moteur qui reste inchangé.
Le travail s'inscrit dans une lignée de recherches en interaction homme-robot qui cherche à combler l'écart entre évaluation par benchmark et évaluation centrée utilisateur, un point de friction classique entre recherche en robotique et déploiement réel. L'architecture testée illustre aussi l'évolution rapide des briques génériques mobilisées dans les pipelines de manipulation, passant de Florence-2 et LLaMA 3.1 à des modules plus récents comme Grounding DINO, SAM et Qwen 3.5 9B, sans toucher à la couche de contrôle bas niveau. Les auteurs appellent à systématiser ce type d'évaluation utilisateur en complément des ablations techniques classiques pour tout futur pipeline de manipulation robotique.
Dans nos dossiers




