REPAIR-Bench : benchmark pour la perception des erreurs et la reprise d'interaction en robotique
Une équipe de chercheurs a publié REPAIR-Bench (Robot Error Perception And Interaction Recovery Benchmark), un jeu de données et de tâches d'évaluation conçu pour mesurer comment les utilisateurs humains perçoivent les pannes robotiques et y répondent. Le benchmark repose sur 214 essais d'interaction impliquant 41 participants exposés à quatre types de défaillances induites. Pour chaque session, les chercheurs ont capturé des données multimodales synchronisées : unités d'action faciale (AU), posture de la tête, transcriptions vocales, ainsi que des rapports d'affect et de stratégies de récupération recueillis après interaction. Trois tâches d'évaluation inédites structurent le benchmark : la détection de pannes sur des sessions interdépendantes (pour modéliser l'adaptation longitudinale de l'utilisateur), la classification visuelle du type de défaillance au-delà du simple binaire succès/échec, et la prédiction de stratégie de récupération centrée utilisateur. En baseline, un modèle récurrent hiérarchique atteint un F1 strict de 0,80 contre 0,68 pour un modèle mono-session, avec une erreur signée moyenne de -0,51 s et une erreur absolue médiane de 2,97 s pour la localisation temporelle des pannes. Pour la prédiction de récupération, un Mistral-7B affiné par QLoRA obtient Hit@5 = 0,76 et F1@5 = 0,32.
L'intérêt scientifique de REPAIR-Bench tient à ce qu'il rompt avec trois limites persistantes de la littérature en interaction humain-robot (HRI) : le traitement des défaillances comme des événements isolés, la réduction de la détection à une décision binaire, et la modélisation de la récupération par des règles figées. En intégrant la dimension longitudinale, le benchmark permet de modéliser comment un utilisateur adapte progressivement son comportement face à des défaillances répétées, un phénomène documenté mais rarement instrumenté à cette échelle. Pour les équipes qui déploient des robots de service ou médicaux, c'est un signal concret : la robustesse perçue n'est pas seulement une propriété technique du système, mais une fonction de l'historique d'interaction. Le benchmark ouvre aussi la voie à des systèmes de récupération adaptatifs pilotés par les préférences inférées de l'utilisateur, plutôt que par des arbres de décision codés à la main, ce qui est pertinent pour les intégrateurs qui cherchent à réduire la charge cognitive des opérateurs.
Ce travail s'inscrit dans un champ de recherche en expansion sur la fiabilité perçue des robots autonomes, accéléré par la multiplication des déploiements en contexte médical et industriel où une panne mal gérée peut rompre la confiance de façon durable. Les approches précédentes, comme les travaux sur la détection d'anomalies en manipulation ou les études d'affect en HRI, restaient souvent cloisonnées ; REPAIR-Bench propose un cadre unifié couvrant le cycle de vie complet de la défaillance. Le benchmark est publié sur arXiv (2606.29937) et cible explicitement les communautés HRI et HRI médicale. Les prochaines étapes naturelles incluent l'extension à des plateformes robotiques variées (bras manipulateurs, robots mobiles, humanoïdes) et l'évaluation de modèles de langage multimodaux en temps réel comme superviseurs de récupération, une piste que les résultats Mistral-7B rendent crédible sans pour autant la valider à l'échelle.
Dans nos dossiers




