Aller au contenu principal
Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace
RecherchearXiv cs.RO2j

Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12374v1) DAR-Net, un framework basé sur des transformers conçu pour reconnaître automatiquement les activités de plongeurs en milieu sous-marin. Le système classifie six catégories d'activités distinctes à partir de séquences vidéo, en combinant un raisonnement temporel global avec une supervision sémantique au niveau pixel. Pour entraîner et évaluer ce modèle, les auteurs ont constitué le premier jeu de données dédié à cette tâche : l'Underwater Diver Activity (UDA) dataset, qui comprend plus de 2 600 images annotées avec des masques de segmentation pixel-level. Les expériences sont réalisées en environnement contrôlé, et DAR-Net surpasse les modèles de référence actuels sur ce benchmark maison. Aucun déploiement opérationnel n'est rapporté à ce stade.

L'enjeu industriel est réel : les véhicules sous-marins autonomes (AUV) sont de plus en plus utilisés pour assister les plongeurs dans des opérations à risque élevé, de l'inspection d'infrastructures offshore à la maintenance de câbles sous-marins. Pour qu'un AUV soit un véritable coéquipier et non un simple observateur, il doit interpréter les gestes et postures d'un humain en temps réel, dans des conditions de faible visibilité et de bruit visuel important. L'approche multi-loss de DAR-Net, qui couple la reconnaissance d'activité globale à la compréhension locale des interactions humain-robot via des contraintes de segmentation sémantique, adresse précisément ce gap. C'est une piste prometteuse, mais les validations restent en bassin contrôlé, loin des conditions réelles d'une inspection sous-marine à 30 mètres de profondeur avec turbidité variable.

La reconnaissance d'activité humaine sous-marine est un domaine de niche mais en croissance, porté par l'essor des AUV commerciaux de sociétés comme Saab (BlueZone), Kongsberg, ou l'Ifremer en France. L'absence historique de datasets annotés a freiné les approches deep learning dans ce secteur, là où la robotique terrestre bénéficie de corpus massifs. La contribution principale de ce travail est précisément cette ressource de données fondatrice. Les auteurs positionnent explicitement DAR-Net comme une première brique, destinée à servir de baseline pour des travaux futurs sur la collaboration humain-robot en milieu subaquatique. Des extensions vers des environnements non contrôlés et des AUV réels constitueront le vrai test de généralisation du modèle.

Impact France/UE

Le dataset UDA et le framework DAR-Net constituent une ressource de référence pour les acteurs européens de l'inspection sous-marine autonome (Ifremer, Kongsberg, Saab BlueZone), mais la validation en conditions réelles reste à démontrer.

Dans nos dossiers

À lire aussi

SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot
1arXiv cs.RO 

SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot

Des chercheurs présentent SASI (Sub-Action Semantics Integrated cross-modal fusion), un cadre de reconnaissance d'actions humaines publié en préprint sur arXiv (réf. 2604.27508). L'objectif est d'améliorer la reconnaissance précoce des gestes dans le contexte de l'interaction homme-robot (HRI) : identifier une action avant qu'elle soit complètement exécutée, à partir d'une séquence incomplète. SASI combine un réseau de convolution sur graphe (GCN) basé sur le squelette humain avec un modèle de segmentation de sous-actions, fusionnant des features spatiotemporelles et la sémantique des sous-actions via une fusion cross-modale. Le système fonctionne en temps réel à 29 Hz. Les évaluations sont conduites sur le dataset BABEL, un jeu de données squelettiques avec annotations au niveau de la frame, et montrent une amélioration de la précision de reconnaissance précoce par rapport aux approches conventionnelles. La capacité à reconnaître une action avant sa complétion est décisive pour les robots collaboratifs qui doivent anticiper et répondre de manière proactive. Les approches existantes traitent l'action comme un tout holiste et ignorent la structure hiérarchique inhérente aux mouvements humains : un "saisir un objet" se décompose en approche, préhension et retrait, avec des indices sémantiques distincts à chaque sous-étape. En exploitant ces sous-actions comme unités d'analyse, SASI permet au robot de prendre des décisions à partir d'observations partielles. Pour un intégrateur de robots industriels ou un opérateur d'AMR en entrepôt, cela se traduit concrètement par des systèmes capables d'adapter leur trajectoire avant qu'un opérateur humain ait terminé son geste, réduisant les temps d'attente et les risques de collision. La reconnaissance d'actions par squelette s'appuie depuis 2018 sur les GCN spatio-temporels (ST-GCN, puis CTR-GCN, MS-G3D), devenus le backbone standard du domaine. BABEL, le dataset utilisé ici, est construit sur AMASS, une collection motion-capture multi-sujets avec étiquetage sémantique fin. Il n'y a pas, à ce stade, d'entreprise ou de partenaire industriel mentionné : SASI est un travail académique en préprint, soumis de façon anonyme (dépôt de code temporaire sur anonymous.4open.science), ce qui en limite pour l'instant la reproductibilité indépendante. Les auteurs indiquent que des gains supplémentaires sont attendus avec l'amélioration de la segmentation des sous-actions, une dépendance critique non résolue pour un déploiement réel. Aucune timeline de productisation ni partenaire industriel ne sont mentionnés.

RecherchePaper
1 source
PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot
2arXiv cs.RO 

PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot

Des chercheurs ont publié PACT (Proactive Asking for Continual Task Assistance), un framework de collaboration humain-robot sur la durée, soumis sur arXiv en mai 2026 (arXiv:2605.24350). Le problème posé est concret : un assistant robotique déployé sur plusieurs jours ignore initialement les habitudes et préférences de son utilisateur, rendant l'inférence passive peu fiable dès les premières interactions. PACT propose une logique "ask-or-act" : plutôt que d'agir sans certitude, le robot décide à chaque instant s'il doit demander une clarification ou exécuter directement la tâche. Le système combine les observations courantes avec un historique d'interactions multi-jours pour évaluer la suffisance contextuelle avant d'agir. L'implémentation principale repose sur du reinforcement learning, et les auteurs introduisent une nouvelle métrique, la "clarification utility", qui mesure le compromis entre précision de l'assistance et fréquence des interruptions imposées à l'utilisateur. Ce framework répond à un déficit structurel des robots d'assistance actuels : en inférant silencieusement, un robot avec un modèle utilisateur incomplet accumule les erreurs et dégrade rapidement la confiance opérationnelle. PACT inverse la logique -- le robot reconnaît son incertitude et l'exprime plutôt que de la masquer. Pour les intégrateurs envisageant des robots en assistance à domicile, en co-robotique de bureau ou en environnement industriel léger, cette approche réduit la nécessité d'une modélisation préalable exhaustive des préférences utilisateur. Les expériences en scénarios multi-jours montrent des gains consistants en précision et en utilité des clarifications face aux baselines d'inférence passive, bien que la validation sur plateforme matérielle réelle reste à démontrer. Le défi de l'adaptation continue en collaboration humain-robot est partagé par plusieurs axes de recherche actifs, dont les benchmarks domestiques ALFRED et les travaux de personnalisation menés chez Figure, 1X ou Boston Dynamics pour leurs robots humanoïdes. Des équipes européennes -- INRIA, TU Delft -- explorent également ces mécanismes d'apprentissage en contexte prolongé. PACT se distingue en traitant l'incertitude épistémique par le dialogue explicite plutôt que par des mécanismes d'inférence silencieux, une approche complémentaire aux méthodes VLA (Vision-Language-Action) actuellement dominantes. La publication reste un preprint sans validation industrielle annoncée ; l'étape critique sera de quantifier le coût cognitif réel des clarifications répétées pour l'utilisateur dans des contextes de travail prolongés.

UEDes équipes européennes dont l'INRIA (France) et TU Delft (Pays-Bas) travaillent sur des mécanismes similaires d'apprentissage contextuel prolongé, ce qui positionne PACT comme référence pertinente pour la communauté HRI européenne, sans impact industriel direct à ce stade.

RecherchePaper
1 source
Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors
3arXiv cs.RO 

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

Des chercheurs ont publié sur arXiv (référence 2509.10692, troisième révision en avril 2026) un framework de planification de mouvement et d'analyse de risque pour la collaboration humain-robot avec un véhicule aérien multirotor. Le coeur du système repose sur la Signal Temporal Logic (STL), un formalisme mathématique permettant d'encoder des objectifs de mission structurés : contraintes de sécurité, exigences temporelles, et préférences humaines incluant l'ergonomie et le confort de l'opérateur. Un planificateur par optimisation génère des trajectoires dynamiquement faisables en tenant compte des dynamiques non-linéaires du drone et de ses contraintes d'actuation. Pour résoudre le problème d'optimisation non-convexe et non-lisse qui en résulte, le framework adopte des approximations de robustesse différentiables combinées à des méthodes de gradient. Le système inclut également un mécanisme de replanification en ligne déclenché par événements, activé lorsque des perturbations menacent les marges de sécurité. La validation s'appuie exclusivement sur des simulations MATLAB et Gazebo, sur une tâche de remise d'objet inspirée de la maintenance de lignes électriques. Ce travail adresse un verrou réel dans le déploiement de drones en environnement industriel partagé : la cohabitation sûre avec des techniciens humains dont la posture est incertaine et dynamique. L'analyse de risque probabiliste quantifie la vraisemblance de violations de spécifications sous incertitude de pose humaine, ce qui représente une avancée par rapport aux approches conservatrices à marge fixe. La replanification événementielle permet une récupération en ligne sans interrompre la mission, un critère déterminant pour les applications en conditions réelles. Cela dit, l'absence de validation physique sur hardware réel constitue une limite importante : le gap sim-to-real pour les drones en proximité humaine reste un problème ouvert, et les résultats en simulation Gazebo ne peuvent pas être directement extrapolés à un déploiement terrain. Le contexte de ce travail s'inscrit dans un effort plus large de la communauté robotique aérienne pour rendre les drones industriels opérables à proximité immédiate des travailleurs, notamment dans les secteurs de l'énergie et de la maintenance d'infrastructures. Côté concurrence, des acteurs comme Skydio (USA) ou Flyability (Suisse) avancent sur des drones robustes en environnement contraint, mais sans formalisme STL ni modèle explicite d'interaction humain-robot. En Europe, des projets académiques financés par l'ANR et H2020 explorent des pistes similaires. La prochaine étape naturelle pour ce framework serait une validation sur banc physique avec un multirotor réel et des opérateurs humains instrumentés, condition sine qua non avant toute intégration industrielle.

UEDes projets ANR et H2020 explorent des approches similaires ; ce framework STL pourrait alimenter la recherche européenne sur les drones industriels en proximité humaine, notamment pour la maintenance d'infrastructures énergétiques.

RecherchePaper
1 source
Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués
4arXiv cs.RO 

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

Des chercheurs de l'Université de Tampere (Finlande) publient sur arXiv (2606.06061) un framework distribué permettant à un opérateur humain de piloter un robot manipulateur par commandes vocales ou textuelles en langage naturel. L'architecture repose sur ROS 2, avec quatre nœuds indépendants : compréhension linguistique (LLM local), ancrage visuel (VLM), orchestration, et exécution moteur. À partir d'une instruction libre, le système génère des requêtes structurées pour des tâches de saisie, dépose et transfert d'objet. Le VLM retourne des cibles en espace-image, ensuite converties en objectifs métriques dans le référentiel robot grâce à la profondeur et à la calibration. Les expériences sont menées sur un bras Franka FR3 ; les auteurs mesurent la fiabilité bout-en-bout et la latence en faisant varier le degré d'ambiguïté de la scène sur la table de travail, et comparent plusieurs configurations LLM/VLM dans le même pipeline. Un tableau de bord web affiche les intentions intermédiaires et les superpositions d'ancrage visuel (pixel, profondeur, référentiel robot), et exige une confirmation explicite de l'opérateur avant tout mouvement. L'intérêt principal de cette approche pour un intégrateur ou un COO industriel tient à trois points. Premièrement, le choix de modèles locaux, pas de dépendance cloud, répond directement aux contraintes de latence et de confidentialité en environnement de production. Deuxièmement, la modularité ROS 2 permet de substituer un modèle par un autre sans refondre la stack, ce qui facilite le benchmarking et la mise à jour. Troisièmement, la boucle de confirmation opérateur est un signal clair que les auteurs ne cherchent pas à masquer le gap demo-versus-réalité : le système ne prétend pas être autonome, il vise une collaboration vérifiable. À noter que les métriques de fiabilité ne sont pas chiffrées dans l'abstract, les résultats quantitatifs précis restent à vérifier dans le corps du papier. Ce travail s'inscrit dans un courant de recherche actif autour des VLA (vision-language-action) pour la manipulation, où Physical Intelligence (Pi-0), Google DeepMind (RT-2, π0) et Stanford (Mobile ALOHA) occupent le devant de la scène avec des approches end-to-end à grande échelle. Le choix de Tampere d'utiliser des modèles légers et locaux contraste délibérément avec ces acteurs : c'est un positionnement orienté déploiement industriel frugal plutôt que performance brute. Le code est disponible en open source sur GitHub (cogrob-tuni/franka-llm), ce qui facilite la reproductibilité. La prochaine étape logique serait d'étendre le framework à des scènes dynamiques ou multi-robots, et de publier des benchmarks comparatifs sur des tâches standardisées comme celles de RoboAgent ou BridgeData.

UETravaux issus de l'Université de Tampere (Finlande, UE) proposant une architecture LLM/VLM entièrement locale et open source pour la manipulation collaborative, directement alignée sur les contraintes RGPD et de souveraineté industrielle du marché européen.

RechercheOpinion
1 source