
Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace
Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12374v1) DAR-Net, un framework basé sur des transformers conçu pour reconnaître automatiquement les activités de plongeurs en milieu sous-marin. Le système classifie six catégories d'activités distinctes à partir de séquences vidéo, en combinant un raisonnement temporel global avec une supervision sémantique au niveau pixel. Pour entraîner et évaluer ce modèle, les auteurs ont constitué le premier jeu de données dédié à cette tâche : l'Underwater Diver Activity (UDA) dataset, qui comprend plus de 2 600 images annotées avec des masques de segmentation pixel-level. Les expériences sont réalisées en environnement contrôlé, et DAR-Net surpasse les modèles de référence actuels sur ce benchmark maison. Aucun déploiement opérationnel n'est rapporté à ce stade.
L'enjeu industriel est réel : les véhicules sous-marins autonomes (AUV) sont de plus en plus utilisés pour assister les plongeurs dans des opérations à risque élevé, de l'inspection d'infrastructures offshore à la maintenance de câbles sous-marins. Pour qu'un AUV soit un véritable coéquipier et non un simple observateur, il doit interpréter les gestes et postures d'un humain en temps réel, dans des conditions de faible visibilité et de bruit visuel important. L'approche multi-loss de DAR-Net, qui couple la reconnaissance d'activité globale à la compréhension locale des interactions humain-robot via des contraintes de segmentation sémantique, adresse précisément ce gap. C'est une piste prometteuse, mais les validations restent en bassin contrôlé, loin des conditions réelles d'une inspection sous-marine à 30 mètres de profondeur avec turbidité variable.
La reconnaissance d'activité humaine sous-marine est un domaine de niche mais en croissance, porté par l'essor des AUV commerciaux de sociétés comme Saab (BlueZone), Kongsberg, ou l'Ifremer en France. L'absence historique de datasets annotés a freiné les approches deep learning dans ce secteur, là où la robotique terrestre bénéficie de corpus massifs. La contribution principale de ce travail est précisément cette ressource de données fondatrice. Les auteurs positionnent explicitement DAR-Net comme une première brique, destinée à servir de baseline pour des travaux futurs sur la collaboration humain-robot en milieu subaquatique. Des extensions vers des environnements non contrôlés et des AUV réels constitueront le vrai test de généralisation du modèle.
Le dataset UDA et le framework DAR-Net constituent une ressource de référence pour les acteurs européens de l'inspection sous-marine autonome (Ifremer, Kongsberg, Saab BlueZone), mais la validation en conditions réelles reste à démontrer.
Dans nos dossiers




