Aller au contenu principal
Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot
RecherchearXiv cs.RO6sem

Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié fin mai 2026 un préprint arXiv (2605.16816) décrivant un système de reconnaissance des émotions fondé sur un modèle de langage visuel (VLM) pour améliorer la collaboration humain-robot (HRC). Contrairement aux systèmes classiques, qui s'appuient sur des datasets d'émotions jouées et des entrées unimodales comme les expressions faciales, le système proposé exploite la compréhension contextuelle de la scène pour inférer l'état émotionnel de l'opérateur. L'évaluation a suivi deux axes : une comparaison avec des annotations humaines sur un dataset HRC existant, mesurant la similarité sémantique et l'alignement de sentiment, puis une étude utilisateur impliquant un robot de service dans une tâche de livraison collaborative. Le système VLM-ER a surpassé la référence CNN sur ces deux métriques, et les participants ont explicitement préféré le comportement adaptatif du robot piloté par l'inférence émotionnelle.

Pour les intégrateurs et les équipes produit déployant des robots de service ou des cobots en environnement humain, le résultat valide une hypothèse clé : un VLM peut dépasser la simple lecture faciale en intégrant la posture, la dynamique de la tâche et le contexte visuel global pour produire une inférence émotionnelle plus proche du jugement humain. Le titre du papier résume le problème concret visé, la confusion systématique entre "en colère" et "concentré", une erreur de classification qui, en robotique industrielle ou de service, génère des interruptions non pertinentes et dégrade la fluidité de la collaboration. La démonstration que ce comportement adaptatif est préféré par les utilisateurs constitue un argument B2B tangible pour les décideurs qui doutent du retour sur investissement de ces fonctionnalités.

La reconnaissance des émotions en HRC souffrait jusqu'ici d'un écart important entre laboratoire et terrain, en partie parce que les datasets d'entraînement reposent sur des acteurs et non sur des émotions spontanées. L'intégration de VLMs pré-entraînés à grande échelle représente un saut qualitatif en termes de généralisation par rapport aux architectures CNN ou aux approches multimodales audio-geste traditionnelles. Des travaux similaires émergent autour de modèles comme GPT-4o ou LLaVA appliqués à la robotique sociale, tandis que des startups françaises comme Enchanted Tools, dont le robot Miro cible précisément l'interaction sociale naturelle, s'inscrivent dans cette même dynamique. La prochaine étape critique pour cette équipe sera de valider le système sur des données spontanées hors laboratoire et des populations diversifiées, condition indispensable avant tout déploiement industriel à l'échelle.

Impact France/UE

Les startups françaises comme Enchanted Tools, dont le robot Miro cible l'interaction sociale naturelle, pourraient s'appuyer sur ces avancées en inférence émotionnelle contextuelle pour renforcer leur différenciation sur le marché européen des robots de service.

À lire aussi

Puis-je vous aider ? La proactivité dans la collaboration humain-robot en groupe
1arXiv cs.RO 

Puis-je vous aider ? La proactivité dans la collaboration humain-robot en groupe

Des chercheurs ont publié sur arXiv (référence 2606.28469) une étude expérimentale portant sur le rôle de l'initiative robotique dans la collaboration humain-robot à plusieurs participants. Le protocole place des binômes humains en situation de résolution collaborative de puzzles, à l'intérieur d'un escape room instrumenté, en présence d'un robot humanoïde opérant selon deux modalités distinctes : un modèle réactif, où le robot ne répond que lorsqu'il est directement interpellé, et un modèle proactif, où il écoute en continu, contribue de façon autonome et relance l'interaction de sa propre initiative. Les résultats sont mesurés selon trois axes : performance de résolution de puzzles, fréquence des interactions, et évaluations subjectives via les échelles standardisées Godspeed et RoSAS. Le modèle proactif génère mécaniquement plus d'échanges, mais c'est le modèle réactif qui affiche le taux de complétion le plus élevé : 92,86 % contre 71,42 %. Ce résultat contre-intuitif est central pour quiconque déploie des robots collaboratifs dans un contexte industriel ou de service. L'intuition commune voudrait qu'un robot qui anticipe et prend des initiatives améliore la performance collective ; l'étude montre que ce n'est pas systématiquement le cas, et que la proactivité peut fragmenter l'attention, perturber la prise de tour de parole et dégrader la coordination du groupe. Plus significatif encore : l'effet de la modalité d'interaction dépend fortement du profil de l'utilisateur. Les participants ayant une expérience préalable des LLM résolvent les premiers puzzles plus vite en mode réactif ; ceux ayant déjà travaillé avec des robots, ou se déclarant introvertis, modifient leur évaluation des deux modèles de façon distincte. Pour un intégrateur ou un COO, cela signifie qu'il n'existe pas de configuration universellement optimale : le bon niveau d'initiative robotique dépend du profil des opérateurs et de la structure cognitive de la tâche. L'étude s'inscrit dans un corpus croissant de recherches en interaction humain-robot multi-parties (HRI), un champ qui prend de l'importance à mesure que les robots collaboratifs quittent les cellules isolées pour des environnements partagés et non structurés. L'escape room comme banc d'essai contrôlé pour l'HRI est une approche émergente qui permet de tester des dynamiques de groupe réalistes sans infrastructure industrielle lourde. Sur le plan concurrentiel, les questions d'initiative robotique concernent directement les plateformes de cobots sociaux (Boston Dynamics Spot, Furhat Robotics, mais aussi des acteurs européens comme Enchanted Tools avec Miroka) et les systèmes de guidage adaptatif dans la logistique. L'étude ne donne pas de suite opérationnelle immédiate, mais ses données suggèrent qu'une personalisation du niveau de proactivité selon le profil utilisateur, plutôt qu'un réglage global unique, constitue la piste de conception la plus prometteuse.

UELes résultats sur la proactivité robotique concernent directement des acteurs européens comme Enchanted Tools (Miroka) et les intégrateurs de cobots déployant des robots en environnements partagés non structurés.

RecherchePaper
1 source
Distill : comprendre les intentions réelles dans la communication humain-robot
2arXiv cs.RO 

Distill : comprendre les intentions réelles dans la communication humain-robot

Une équipe de chercheurs présente dans un article déposé sur arXiv en mai 2026 (arXiv:2605.14262) une approche baptisée Distill, conçue pour extraire l'intention réelle d'un utilisateur lorsqu'il formule une tâche à un robot. Le problème de départ est bien documenté : le langage naturel, aussi intuitif soit-il, reste ambigu et imprécis, tandis que la programmation par l'utilisateur final tend à l'inverse à être trop littérale, incapable de capturer la généralité de ce que l'utilisateur souhaite réellement accomplir. Distill opère en trois étapes sur une spécification de tâche fournie par l'utilisateur : il supprime les étapes superflues, généralise le sens derrière chaque étape individuelle, et relâche les contraintes d'ordonnancement entre ces étapes. L'approche a été implémentée sous forme d'interface web et évaluée via une étude crowdsourcée auprès d'utilisateurs réels. L'enjeu pour l'industrie robotique est concret : la distance entre ce qu'un opérateur dit et ce qu'il veut réellement constitue l'un des principaux freins au déploiement de robots autonomes dans des environnements non structurés. Les interfaces à langage naturel prolifèrent, portées par les modèles VLA (Vision-Language-Action) et les LLMs embarqués dans des plateformes comme Figure 02, Spot ou les robots collaboratifs industriels, mais elles buttent systématiquement sur cette ambiguïté sémantique. Une approche capable de distiller l'intention générale derrière une instruction floue ou sur-spécifiée réduirait le besoin de reformulation itérative et abaisserait la barrière d'adoption pour des opérateurs non-experts en programmation. Ce type de raffinement d'intention est également utile pour la génération automatique de programmes comportementaux dans des architectures de type task planning. Ce travail s'inscrit dans une vague de recherches visant à combler le fossé entre langage humain et représentations formelles exploitables par les robots, un champ actif impliquant des laboratoires comme Stanford, MIT CSAIL ou le groupe Human-Robot Interaction de l'Inria en France. Les approches concurrentes incluent la correction de programme par retour utilisateur (LLM Repair), la programmation par démonstration (PbD) et les interfaces de dialogue multi-tours. Distill se distingue par son orientation vers la généralisation automatique plutôt que la simple transcription ou la correction d'erreurs. Les prochaines étapes attendues concernent l'intégration sur des plateformes robotiques physiques et l'évaluation de robustesse face à des tâches à longue séquence ou à contraintes temporelles strictes. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans déploiement industriel annoncé.

UEL'Inria (groupe Human-Robot Interaction) est cité comme acteur du même champ de recherche, positionnant la France dans les travaux sur l'interprétation d'intention en robotique, sans implication directe dans ce preprint.

RecherchePaper
1 source
Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot
3arXiv cs.RO 

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

RechercheOpinion
1 source
Collaboration humain-robot : analyse des modalités d'interaction dans les tâches complexes
4arXiv cs.RO 

Collaboration humain-robot : analyse des modalités d'interaction dans les tâches complexes

Des chercheurs ont soumis sur arXiv un préprint comparant trois modalités d'interaction en collaboration humain-robot sur une tâche d'assemblage contrainte. Dix-huit participants reconstruisaient de mémoire une tour colorée de sept couches à partir de briques proches et éloignées. La modalité passive les plaçait seuls face à la tâche ; la réactive activait l'assistance d'un robot mobile uniquement sur demande explicite ; la proactive permettait au robot d'initier lui-même les livraisons de briques et les signalements d'erreurs sans sollicitation. Résultat contre-intuitif : l'assistance robotique a allongé le temps de complétion dans les deux modalités actives, mais 67 % des participants ont préféré le comportement proactif et 78 % l'ont jugé le plus utile. Ce résultat met en évidence une tension centrale dans la conception des systèmes HRC : efficacité chronométrique et préférence subjective peuvent diverger significativement. Pour les intégrateurs industriels, la question pratique devient immédiate : optimiser le throughput ou l'expérience opérateur ? La supériorité perçue du mode proactif suggère que le support anticipatif réduit la charge cognitive et l'incertitude, deux facteurs critiques en production. L'échantillon restreint de 18 participants en contexte de laboratoire limite toutefois sérieusement la généralisation à une échelle industrielle réelle. Cette étude s'inscrit dans une littérature croissante sur les AMR (robots mobiles autonomes) dotés de comportements adaptatifs, en dialogue direct avec les approches basées sur des architectures VLA (Vision-Language-Action) pour la planification d'intention. En Europe, des acteurs comme Enchanted Tools et des équipes académiques comme le LAAS-CNRS explorent des interfaces humain-robot de nature comparable. Les suites logiques de ce travail incluent un échantillon élargi, des tests hors laboratoire et l'évaluation de la fatigue cognitive sur des horizons temporels plus longs.

UELe LAAS-CNRS et Enchanted Tools explorent des interfaces humain-robot comparables, rendant ces résultats pertinents pour les équipes françaises travaillant sur la robotique collaborative et les AMR adaptatifs.

RecherchePaper
1 source