Aller au contenu principal
ARTOO-DARTU : étude de la collaboration humain-robot en réalité augmentée avec atténuation des occlusions pour les tâches d'entrepôt
RecherchearXiv cs.RO3h

ARTOO-DARTU : étude de la collaboration humain-robot en réalité augmentée avec atténuation des occlusions pour les tâches d'entrepôt

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2606.25202) un système de réalité augmentée baptisé ARTOO-DARTU, conçu pour améliorer la collaboration humain-robot (HRC) en entrepôt logistique. Le principe : superposer en temps réel des informations sur l'état et les intentions du robot directement dans le champ de vision de l'opérateur via un casque AR, tout en évitant que ces couches graphiques n'occultent des éléments critiques du monde réel. L'équipe a développé pour cela un pipeline ODM (Obstruction Detection and Mitigation) qui repositionne dynamiquement les éléments AR lorsque le robot mobile se déplace. L'évaluation a mobilisé 34 participants sur un scénario gamifié appelé Pocket MonstARs, abstraction contrôlée d'une tâche de picking en entrepôt où des monstres virtuels servent de proxies pour les cibles de prélèvement, tandis que des boîtes étiquetées préservent les contraintes d'identification du monde réel. Résultats : avec l'ODM actif, les participants ont affiché une efficacité globale supérieure de 46 % sur la tâche HRC, et se sont révélés 61 % plus rapides sur les sous-tâches nécessitant une visibilité directe du terrain.

Ces chiffres méritent d'être mis en perspective : le gain de 46 % n'est observé que lorsque le pipeline ODM est enclenché, ce qui indique que l'AR sans gestion des obstructions peut dégrader les performances plutôt que les améliorer. Pour les intégrateurs logistiques et les équipes de déploiement d'AMR (autonomous mobile robots), le message est structurant : la valeur des analytics AR situationnels est conditionnelle à la qualité de leur intégration perceptuelle, pas seulement à la richesse des données affichées. Cela valide l'hypothèse que le sim-to-real gap en HRC n'est pas uniquement mécanique, mais aussi cognitif : l'interface compte autant que le robot.

Le domaine de l'AR appliquée à la robotique industrielle reste fragmenté. Des travaux antérieurs ont exploré les overlays statiques ou les interfaces sur tablette, mais peu traitent le cas dynamique des robots mobiles où la position de l'annotation change en continu. ARTOO-DARTU s'inscrit dans un effort plus large pour rendre les floors robotisés auditable et sûrs sans mobiliser des opérateurs hautement qualifiés. Côté concurrentiel, des acteurs comme RealWear (casques AR industriels), PTC Vuforia ou encore des startups françaises comme Immersion se positionnent sur des segments adjacents. L'étude reste cependant dans un cadre académique contrôlé et gamifié : aucun déploiement réel en entrepôt n'est annoncé à ce stade, et la robustesse de l'ODM face à des environnements industriels bruités (éclairage variable, occlusions dynamiques multiples) reste à démontrer.

Impact France/UE

La startup française Immersion opère sur un segment adjacent à l'AR industrielle, mais l'étude reste un préprint académique sans déploiement annoncé en France ou en Europe.

À lire aussi

Collaboration humain-robot : analyse des modalités d'interaction dans les tâches complexes
1arXiv cs.RO 

Collaboration humain-robot : analyse des modalités d'interaction dans les tâches complexes

Des chercheurs ont soumis sur arXiv un préprint comparant trois modalités d'interaction en collaboration humain-robot sur une tâche d'assemblage contrainte. Dix-huit participants reconstruisaient de mémoire une tour colorée de sept couches à partir de briques proches et éloignées. La modalité passive les plaçait seuls face à la tâche ; la réactive activait l'assistance d'un robot mobile uniquement sur demande explicite ; la proactive permettait au robot d'initier lui-même les livraisons de briques et les signalements d'erreurs sans sollicitation. Résultat contre-intuitif : l'assistance robotique a allongé le temps de complétion dans les deux modalités actives, mais 67 % des participants ont préféré le comportement proactif et 78 % l'ont jugé le plus utile. Ce résultat met en évidence une tension centrale dans la conception des systèmes HRC : efficacité chronométrique et préférence subjective peuvent diverger significativement. Pour les intégrateurs industriels, la question pratique devient immédiate : optimiser le throughput ou l'expérience opérateur ? La supériorité perçue du mode proactif suggère que le support anticipatif réduit la charge cognitive et l'incertitude, deux facteurs critiques en production. L'échantillon restreint de 18 participants en contexte de laboratoire limite toutefois sérieusement la généralisation à une échelle industrielle réelle. Cette étude s'inscrit dans une littérature croissante sur les AMR (robots mobiles autonomes) dotés de comportements adaptatifs, en dialogue direct avec les approches basées sur des architectures VLA (Vision-Language-Action) pour la planification d'intention. En Europe, des acteurs comme Enchanted Tools et des équipes académiques comme le LAAS-CNRS explorent des interfaces humain-robot de nature comparable. Les suites logiques de ce travail incluent un échantillon élargi, des tests hors laboratoire et l'évaluation de la fatigue cognitive sur des horizons temporels plus longs.

UELe LAAS-CNRS et Enchanted Tools explorent des interfaces humain-robot comparables, rendant ces résultats pertinents pour les équipes françaises travaillant sur la robotique collaborative et les AMR adaptatifs.

RecherchePaper
1 source
fARfetch : collaboration homme-robot en réalité augmentée colocalisée dans des environnements visuellement hétérogènes, avec adaptation de contenu par VLM
2arXiv cs.RO 

fARfetch : collaboration homme-robot en réalité augmentée colocalisée dans des environnements visuellement hétérogènes, avec adaptation de contenu par VLM

Des chercheurs ont publié sur arXiv (juin 2026) les résultats de fARfetch, un système de collaboration humain-robot en réalité augmentée conçu pour les environnements extérieurs vastes et visuellement hétérogènes. Le dispositif combine un casque Meta Quest 3 et un robot quadrupède Unitree Go2, et repose sur trois mécanismes : une cartographie sémantique partagée entre le casque et le robot qui visualise des repères de l'environnement pour émettre des commandes de navigation par désignation, une représentation miniaturisée de l'espace (world-in-miniature) pour composer des trajectoires précises, et un module d'adaptation visuelle piloté par un VLM (vision-language model) qui ajuste en temps réel la couleur, la taille et l'orientation des éléments AR afin de maintenir leur lisibilité quelle que soit l'arrière-plan. L'évaluation a été conduite en conditions réelles sur une tâche d'inspection extérieure d'environ 30,5 mètres avec 13 participants en protocole intra-sujets. Par rapport à une baseline sans AR, fARfetch réduit le temps d'exécution de 66 %, la charge mentale de 43 %, la pression temporelle de 34 % et le niveau de frustration de 66 %. Ces résultats sont significatifs pour les intégrateurs de robotique mobile en milieux industriels ouverts (sites de construction, inspection d'infrastructure, logistique extérieure) où la téléopération classique bute sur la désorientation spatiale de l'opérateur et la perte de ligne de vue. L'usage d'un VLM pour l'adaptation du rendu AR constitue une avancée méthodologique : plutôt que de coder des règles statiques de contraste, le système raisonne sur le contexte visuel capturé. Cela suggère que la grille sim-to-real ne se limite plus aux actionneurs physiques mais s'étend à la couche d'interaction humain-machine. L'étude reste toutefois limitée : N=13 est un échantillon restreint, la tâche couvre 30,5 mètres en extérieur contrôlé, et aucune métrique de robustesse en conditions adverses (pluie, contre-jour fort, foule) n'est rapportée. fARfetch s'inscrit dans un champ de recherche actif sur l'AR comme interface de supervision de robots mobiles, aux côtés de travaux portant sur les drones et les AMR en entrepôt. Côté hardware, le Unitree Go2 est un quadrupède grand public à moins de 10 000 dollars, ce qui ancre l'expérimentation dans des configurations accessibles, contrairement aux plateformes à six chiffres de Boston Dynamics. Aucun acteur français ou européen n'est impliqué dans cette étude. Les auteurs n'annoncent pas de pilote industriel ni de timeline de déploiement : il s'agit d'un prototype académique dont les prochaines étapes naturelles seraient des évaluations sur des périmètres plus étendus, avec des opérateurs non entraînés et des robots à mobilité différente (bras, AMR sur roues).

RecherchePaper
1 source
Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot
3arXiv cs.RO 

Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot

Une équipe de chercheurs a publié fin mai 2026 un préprint arXiv (2605.16816) décrivant un système de reconnaissance des émotions fondé sur un modèle de langage visuel (VLM) pour améliorer la collaboration humain-robot (HRC). Contrairement aux systèmes classiques, qui s'appuient sur des datasets d'émotions jouées et des entrées unimodales comme les expressions faciales, le système proposé exploite la compréhension contextuelle de la scène pour inférer l'état émotionnel de l'opérateur. L'évaluation a suivi deux axes : une comparaison avec des annotations humaines sur un dataset HRC existant, mesurant la similarité sémantique et l'alignement de sentiment, puis une étude utilisateur impliquant un robot de service dans une tâche de livraison collaborative. Le système VLM-ER a surpassé la référence CNN sur ces deux métriques, et les participants ont explicitement préféré le comportement adaptatif du robot piloté par l'inférence émotionnelle. Pour les intégrateurs et les équipes produit déployant des robots de service ou des cobots en environnement humain, le résultat valide une hypothèse clé : un VLM peut dépasser la simple lecture faciale en intégrant la posture, la dynamique de la tâche et le contexte visuel global pour produire une inférence émotionnelle plus proche du jugement humain. Le titre du papier résume le problème concret visé, la confusion systématique entre "en colère" et "concentré", une erreur de classification qui, en robotique industrielle ou de service, génère des interruptions non pertinentes et dégrade la fluidité de la collaboration. La démonstration que ce comportement adaptatif est préféré par les utilisateurs constitue un argument B2B tangible pour les décideurs qui doutent du retour sur investissement de ces fonctionnalités. La reconnaissance des émotions en HRC souffrait jusqu'ici d'un écart important entre laboratoire et terrain, en partie parce que les datasets d'entraînement reposent sur des acteurs et non sur des émotions spontanées. L'intégration de VLMs pré-entraînés à grande échelle représente un saut qualitatif en termes de généralisation par rapport aux architectures CNN ou aux approches multimodales audio-geste traditionnelles. Des travaux similaires émergent autour de modèles comme GPT-4o ou LLaVA appliqués à la robotique sociale, tandis que des startups françaises comme Enchanted Tools, dont le robot Miro cible précisément l'interaction sociale naturelle, s'inscrivent dans cette même dynamique. La prochaine étape critique pour cette équipe sera de valider le système sur des données spontanées hors laboratoire et des populations diversifiées, condition indispensable avant tout déploiement industriel à l'échelle.

UELes startups françaises comme Enchanted Tools, dont le robot Miro cible l'interaction sociale naturelle, pourraient s'appuyer sur ces avancées en inférence émotionnelle contextuelle pour renforcer leur différenciation sur le marché européen des robots de service.

RecherchePaper
1 source
PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot
4arXiv cs.RO 

PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot

Des chercheurs ont publié PACT (Proactive Asking for Continual Task Assistance), un framework de collaboration humain-robot sur la durée, soumis sur arXiv en mai 2026 (arXiv:2605.24350). Le problème posé est concret : un assistant robotique déployé sur plusieurs jours ignore initialement les habitudes et préférences de son utilisateur, rendant l'inférence passive peu fiable dès les premières interactions. PACT propose une logique "ask-or-act" : plutôt que d'agir sans certitude, le robot décide à chaque instant s'il doit demander une clarification ou exécuter directement la tâche. Le système combine les observations courantes avec un historique d'interactions multi-jours pour évaluer la suffisance contextuelle avant d'agir. L'implémentation principale repose sur du reinforcement learning, et les auteurs introduisent une nouvelle métrique, la "clarification utility", qui mesure le compromis entre précision de l'assistance et fréquence des interruptions imposées à l'utilisateur. Ce framework répond à un déficit structurel des robots d'assistance actuels : en inférant silencieusement, un robot avec un modèle utilisateur incomplet accumule les erreurs et dégrade rapidement la confiance opérationnelle. PACT inverse la logique -- le robot reconnaît son incertitude et l'exprime plutôt que de la masquer. Pour les intégrateurs envisageant des robots en assistance à domicile, en co-robotique de bureau ou en environnement industriel léger, cette approche réduit la nécessité d'une modélisation préalable exhaustive des préférences utilisateur. Les expériences en scénarios multi-jours montrent des gains consistants en précision et en utilité des clarifications face aux baselines d'inférence passive, bien que la validation sur plateforme matérielle réelle reste à démontrer. Le défi de l'adaptation continue en collaboration humain-robot est partagé par plusieurs axes de recherche actifs, dont les benchmarks domestiques ALFRED et les travaux de personnalisation menés chez Figure, 1X ou Boston Dynamics pour leurs robots humanoïdes. Des équipes européennes -- INRIA, TU Delft -- explorent également ces mécanismes d'apprentissage en contexte prolongé. PACT se distingue en traitant l'incertitude épistémique par le dialogue explicite plutôt que par des mécanismes d'inférence silencieux, une approche complémentaire aux méthodes VLA (Vision-Language-Action) actuellement dominantes. La publication reste un preprint sans validation industrielle annoncée ; l'étape critique sera de quantifier le coût cognitif réel des clarifications répétées pour l'utilisateur dans des contextes de travail prolongés.

UEDes équipes européennes dont l'INRIA (France) et TU Delft (Pays-Bas) travaillent sur des mécanismes similaires d'apprentissage contextuel prolongé, ce qui positionne PACT comme référence pertinente pour la communauté HRI européenne, sans impact industriel direct à ce stade.

RecherchePaper
1 source