Aller au contenu principal
Assistance sans interruption : un benchmark et un cadre basé sur les LLM pour l'aide humain-robot non intrusive
RecherchearXiv cs.RO7sem

Assistance sans interruption : un benchmark et un cadre basé sur les LLM pour l'aide humain-robot non intrusive

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.01368) un cadre formel et un benchmark dédié à l'assistance robotique non intrusive, qu'ils nomment NIABench. Le problème étudié est précis : comment un robot peut-il soutenir un humain en train d'exécuter une séquence d'actions complexes, sans jamais l'interrompre ni attendre une commande explicite ? Les chercheurs proposent également une architecture hybride combinant un grand modèle de langage (LLM) et un modèle de scoring à deux étages : une première couche de récupération sémantique réduit l'espace des actions candidates, puis un module de ranking évalue les paires (étape humaine, action robot) pour arbitrer sur le moment et la nature de l'intervention. Les expériences sont conduites sur NIABench et validées sur des scénarios réels, avec des métriques inédites adaptées à ce paradigme.

Ce travail est significatif parce qu'il déplace le curseur de la robotique collaborative vers un mode opératoire radicalement différent : le plan humain devient le processus principal, et le robot se positionne en assistant discret plutôt qu'en agent concurrent. Pour les intégrateurs de robots de service ou de cobots industriels, cela ouvre une voie concrète vers des déploiements où le robot n'exige ni formation de l'opérateur, ni protocole de communication explicite. La formalisation du problème joint, décider simultanément du quand et du quoi, est également un apport méthodologique, car la littérature HRI traitait jusqu'ici ces deux dimensions séparément. La présence d'un benchmark public avec métriques standardisées facilite la comparaison future entre approches.

Ce travail s'inscrit dans un courant de recherche HRI qui cherche à dépasser les modèles maître-esclave ou les systèmes à déclenchement explicite. Des approches concurrentes, notamment dans les travaux sur les VLA (Vision-Language-Action models) de DeepMind ou Stanford, adressent la réactivité contextuelle mais sans formaliser explicitement la contrainte de non-intrusion. NIABench pourrait devenir un point de référence pour évaluer ces modèles sur cette dimension précise. Les prochaines étapes naturelles incluent le transfert vers des plateformes embarquées et des tests en environnements industriels réels, bien qu'aucun partenariat ou calendrier de déploiement ne soit mentionné dans cette publication.

Dans nos dossiers

À lire aussi

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service
1arXiv cs.RO 

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

Des chercheurs ont publié sur arXiv (référence 2602.22346) un framework de perception sociale destiné aux robots de service mobiles autonomes, comme les robots tondeuses ou les robots nettoyeurs opérant dans des espaces fréquentés par des humains. Le système repose sur une architecture en deux étapes : une première phase identifie les paires d'individus susceptibles d'interagir en s'appuyant uniquement sur des indices géométriques et de mouvement (positions relatives, trajectoires, orientations corporelles), puis une seconde phase classe le type d'interaction à l'aide d'un réseau relationnel (relation network). L'approche a été évaluée sur le dataset JRDB, benchmark de référence pour la perception sociale en robotique, ainsi que sur le Collective Activity Dataset (CAD) et, en évaluation zero-shot, sur un jeu de données collecté directement par une tondeuse autonome en conditions réelles. L'enjeu est concret pour les intégrateurs de robots de service : détecter qu'un groupe de personnes interagit entre elles, qu'il s'agisse d'une discussion, d'un attroupement ou d'une interaction dynamique, permet au robot de planifier une trajectoire socialement acceptable sans interrompre ni gêner ces échanges. Les approches existantes reposent souvent sur des modèles de reconnaissance d'activité de groupe qui mobilisent des réseaux d'analyse visuelle coûteux en calcul, inadaptés aux plateformes embarquées à ressources limitées. Ce framework démontre que des indices géométriques simples suffisent à obtenir des performances compétitives tout en réduisant significativement la taille du modèle et le coût computationnel. Ce résultat remet en question l'hypothèse largement répandue selon laquelle l'analyse visuelle par apparence serait indispensable pour ce type de tâche de perception sociale. Ce travail s'inscrit dans le champ de la navigation socialement consciente (socially aware navigation), où des frameworks comme SARL, CrowdNav ou ORCA constituent les références historiques. Le dataset JRDB, produit par Stanford, reste le principal benchmark pour ce type de tâche en environnement robotique réel. Le code est publié en open source, ce qui facilitera son intégration dans des pipelines ROS existants. La limite notable est que l'évaluation porte sur des interactions coarse-grained, c'est-à-dire des catégories comportementales larges plutôt que des gestes fins, ce qui suffit pour la navigation mais exclut les applications nécessitant une compréhension sociale plus granulaire. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes réelles déployées en environnements semi-publics, comme des aéroports, des centres commerciaux ou des entrepôts à occupation mixte.

RecherchePaper
1 source
PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot
2arXiv cs.RO 

PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot

Des chercheurs ont publié PACT (Proactive Asking for Continual Task Assistance), un framework de collaboration humain-robot sur la durée, soumis sur arXiv en mai 2026 (arXiv:2605.24350). Le problème posé est concret : un assistant robotique déployé sur plusieurs jours ignore initialement les habitudes et préférences de son utilisateur, rendant l'inférence passive peu fiable dès les premières interactions. PACT propose une logique "ask-or-act" : plutôt que d'agir sans certitude, le robot décide à chaque instant s'il doit demander une clarification ou exécuter directement la tâche. Le système combine les observations courantes avec un historique d'interactions multi-jours pour évaluer la suffisance contextuelle avant d'agir. L'implémentation principale repose sur du reinforcement learning, et les auteurs introduisent une nouvelle métrique, la "clarification utility", qui mesure le compromis entre précision de l'assistance et fréquence des interruptions imposées à l'utilisateur. Ce framework répond à un déficit structurel des robots d'assistance actuels : en inférant silencieusement, un robot avec un modèle utilisateur incomplet accumule les erreurs et dégrade rapidement la confiance opérationnelle. PACT inverse la logique -- le robot reconnaît son incertitude et l'exprime plutôt que de la masquer. Pour les intégrateurs envisageant des robots en assistance à domicile, en co-robotique de bureau ou en environnement industriel léger, cette approche réduit la nécessité d'une modélisation préalable exhaustive des préférences utilisateur. Les expériences en scénarios multi-jours montrent des gains consistants en précision et en utilité des clarifications face aux baselines d'inférence passive, bien que la validation sur plateforme matérielle réelle reste à démontrer. Le défi de l'adaptation continue en collaboration humain-robot est partagé par plusieurs axes de recherche actifs, dont les benchmarks domestiques ALFRED et les travaux de personnalisation menés chez Figure, 1X ou Boston Dynamics pour leurs robots humanoïdes. Des équipes européennes -- INRIA, TU Delft -- explorent également ces mécanismes d'apprentissage en contexte prolongé. PACT se distingue en traitant l'incertitude épistémique par le dialogue explicite plutôt que par des mécanismes d'inférence silencieux, une approche complémentaire aux méthodes VLA (Vision-Language-Action) actuellement dominantes. La publication reste un preprint sans validation industrielle annoncée ; l'étape critique sera de quantifier le coût cognitif réel des clarifications répétées pour l'utilisateur dans des contextes de travail prolongés.

UEDes équipes européennes dont l'INRIA (France) et TU Delft (Pays-Bas) travaillent sur des mécanismes similaires d'apprentissage contextuel prolongé, ce qui positionne PACT comme référence pertinente pour la communauté HRI européenne, sans impact industriel direct à ce stade.

RecherchePaper
1 source
Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot
3arXiv cs.RO 

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

Une équipe de chercheurs a publié en mai 2026 Gaze4HRI (arXiv:2605.04770), un benchmark à grande échelle conçu pour évaluer les réseaux de neurones d'estimation du regard dans les conditions réelles de l'interaction humain-robot (HRI). Le jeu de données regroupe plus de 50 sujets, 3 000 vidéos et 600 000 images annotées, couvrant quatre variables critiques identifiées comme sous-représentées dans les évaluations existantes : les variations d'éclairage, les conflits entre direction de la tête et direction du regard, la mobilité de la caméra embarquée sur le robot, et le déplacement de la cible visuelle. L'approche retenue est celle de l'estimation 3D du regard dite "zero-shot" : les modèles apprennent à projeter directement une image RGB en vecteur de regard, sans calibration individuelle, ce qui réduit considérablement les coûts de déploiement en contexte opérationnel. Les résultats du benchmark remettent en question plusieurs hypothèses dominantes dans la littérature. Chacune des méthodes évaluées échoue sur au moins une condition testée, et le regard fortement orienté vers le bas ("steeply-downward gaze") constitue un point d'échec universel pour l'ensemble des architectures, y compris les modèles spatio-temporels complexes et les approches basées sur des Transformers. Ces architectures récentes, pourtant très citées, n'affichent pas de supériorité systématique en conditions non contrôlées. Seul PureGaze, entraîné sur le dataset ETH-X-Gaze, maintient une robustesse satisfaisante sur l'ensemble des autres conditions. La conclusion centrale est que la diversité des données d'entraînement constitue le premier levier de robustesse zero-shot, devant la complexité architecturale, tandis que des mécanismes comme la self-adversarial loss de PureGaze pour la purification des features de regard apportent un gain additionnel significatif. L'estimation du regard est une compétence fondamentale pour les robots sociaux et collaboratifs : elle conditionne la détection d'attention, la coordination tour-par-tour, et la sécurité en environnement partagé. Les benchmarks existants souffrent d'un "complexity gap" structurel, les méthodes étant entraînées sur des corpus variés mais évaluées sur des ensembles beaucoup plus petits et homogènes, ce qui surestime leur robustesse réelle. Gaze4HRI vise à corriger ce biais. Sur le plan concurrentiel, le dataset ETH-X-Gaze (ETH Zurich) s'impose ici comme la référence en termes de diversité, tandis que des benchmarks HRI spécialisés comme GAZE360 ou MPIIFaceGaze ne capturent pas les conditions de mouvement propres aux plateformes robotiques. Le dataset et le code sont disponibles publiquement sur gazeforhri.github.io, ce qui devrait faciliter l'adoption par les équipes travaillant sur des robots humanoïdes ou des AMR équipés de systèmes de perception sociale.

UELe benchmark Gaze4HRI et son dataset public (600 000 images annotées, code ouvert) pourraient accélérer les travaux des équipes européennes comme l'INRIA ou le CEA-List sur la perception sociale des robots collaboratifs et humanoïdes.

RecherchePaper
1 source
Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain
4arXiv cs.RO 

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite. L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire. Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

RechercheOpinion
1 source