
Les modèles vision-langage apprennent aux robots à lire les émotions humaines
Des chercheurs de l'Université de Melbourne ont entraîné un robot collaboratif à reconnaître les émotions humaines en combinant analyse faciale et facteurs contextuels, via un modèle de langage visuel (VLM, ou Vision Language Model). Les résultats, publiés le 18 mai 2026 dans IEEE Robotics and Automation Letters, montrent que cette approche surpasse les systèmes classiques de reconnaissance d'expression : le VLM obtient un score de similarité de 0,86 sur 1, contre 0,77 pour les outils d'analyse faciale et de suivi d'objets conventionnels. L'étude a été conduite par Seung Chan Hong dans le cadre de sa thèse de licence, avec une cohorte de 40 volontaires. Pour entraîner le modèle, des participants ont d'abord visionné des vidéos de robots effectuant des transferts d'objets à des humains avec des degrés de succès variés, puis décrit les émotions perçues en tenant compte de la scène complète : posture, gestes (doigts qui tambourinent, lèvres pincées), position dans l'espace, et non plus seulement l'expression du visage. Dans un second test, le robot équipé du VLM a intentionnellement commis une erreur, puis proposé soit une excuse adaptée à l'état émotionnel perçu, soit une formule pré-scriptée. Résultat : 31 personnes sur 40 ont préféré la réponse contextuelle. Le résultat le plus significatif n'est pourtant pas le gain de performance du VLM, mais la limite qu'il révèle. Même avec une excuse personnalisée et émotionnellement cohérente, la confiance des participants envers le robot avait chuté après l'erreur, indépendamment de la qualité de la réponse sociale. Les auteurs en tirent une conclusion directe pour les intégrateurs et les équipes de conception : l'adaptivité émotionnelle agit comme un lubrifiant social, elle n'efface pas un déficit fonctionnel. Pour les COO et décideurs qui évaluent des déploiements de cobots en environnement humain, cela signifie que l'investissement dans la fiabilité mécanique reste prioritaire sur les couches d'intelligence émotionnelle. En revanche, dans les scénarios où des erreurs sont inévitables, un module de reconnaissance émotionnelle contextuelle peut atténuer les effets négatifs sur la relation opérateur-robot, ce qui est pertinent dans les environnements d'assemblage ou de logistique. Le VLM utilisé dans l'étude fonctionne sur un principe similaire aux grands modèles de langage comme ChatGPT, mais avec une entrée visuelle permettant une lecture de scène au-delà de la seule mimique faciale. La recherche en interaction humain-robot (HRI) investit depuis plusieurs années dans les modèles de reconnaissance d'affect, mais les approches classiques restaient cantonnées à l'analyse des expressions faciales ou au suivi de posture. L'intégration des VLMs dans ce domaine suit la vague des modèles de vision-langage généralistes issus de Google DeepMind, OpenAI ou Meta. L'étude de Melbourne se distingue par une validation empirique sur sujets humains réels avec une tâche collaborative concrète, plutôt qu'une évaluation sur benchmark. Les prochaines étapes pour ce type de recherche incluront probablement des tests en environnement industriel contrôlé, pour vérifier si la perception émotionnelle reste robuste sous pression temporelle et dans des scènes visuellement chargées.

















































