Aller au contenu principal
SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot
RecherchearXiv cs.RO7sem

SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent SASI (Sub-Action Semantics Integrated cross-modal fusion), un cadre de reconnaissance d'actions humaines publié en préprint sur arXiv (réf. 2604.27508). L'objectif est d'améliorer la reconnaissance précoce des gestes dans le contexte de l'interaction homme-robot (HRI) : identifier une action avant qu'elle soit complètement exécutée, à partir d'une séquence incomplète. SASI combine un réseau de convolution sur graphe (GCN) basé sur le squelette humain avec un modèle de segmentation de sous-actions, fusionnant des features spatiotemporelles et la sémantique des sous-actions via une fusion cross-modale. Le système fonctionne en temps réel à 29 Hz. Les évaluations sont conduites sur le dataset BABEL, un jeu de données squelettiques avec annotations au niveau de la frame, et montrent une amélioration de la précision de reconnaissance précoce par rapport aux approches conventionnelles.

La capacité à reconnaître une action avant sa complétion est décisive pour les robots collaboratifs qui doivent anticiper et répondre de manière proactive. Les approches existantes traitent l'action comme un tout holiste et ignorent la structure hiérarchique inhérente aux mouvements humains : un "saisir un objet" se décompose en approche, préhension et retrait, avec des indices sémantiques distincts à chaque sous-étape. En exploitant ces sous-actions comme unités d'analyse, SASI permet au robot de prendre des décisions à partir d'observations partielles. Pour un intégrateur de robots industriels ou un opérateur d'AMR en entrepôt, cela se traduit concrètement par des systèmes capables d'adapter leur trajectoire avant qu'un opérateur humain ait terminé son geste, réduisant les temps d'attente et les risques de collision.

La reconnaissance d'actions par squelette s'appuie depuis 2018 sur les GCN spatio-temporels (ST-GCN, puis CTR-GCN, MS-G3D), devenus le backbone standard du domaine. BABEL, le dataset utilisé ici, est construit sur AMASS, une collection motion-capture multi-sujets avec étiquetage sémantique fin. Il n'y a pas, à ce stade, d'entreprise ou de partenaire industriel mentionné : SASI est un travail académique en préprint, soumis de façon anonyme (dépôt de code temporaire sur anonymous.4open.science), ce qui en limite pour l'instant la reproductibilité indépendante. Les auteurs indiquent que des gains supplémentaires sont attendus avec l'amélioration de la segmentation des sous-actions, une dépendance critique non résolue pour un déploiement réel. Aucune timeline de productisation ni partenaire industriel ne sont mentionnés.

Dans nos dossiers

À lire aussi

Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace
1arXiv cs.RO 

Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12374v1) DAR-Net, un framework basé sur des transformers conçu pour reconnaître automatiquement les activités de plongeurs en milieu sous-marin. Le système classifie six catégories d'activités distinctes à partir de séquences vidéo, en combinant un raisonnement temporel global avec une supervision sémantique au niveau pixel. Pour entraîner et évaluer ce modèle, les auteurs ont constitué le premier jeu de données dédié à cette tâche : l'Underwater Diver Activity (UDA) dataset, qui comprend plus de 2 600 images annotées avec des masques de segmentation pixel-level. Les expériences sont réalisées en environnement contrôlé, et DAR-Net surpasse les modèles de référence actuels sur ce benchmark maison. Aucun déploiement opérationnel n'est rapporté à ce stade. L'enjeu industriel est réel : les véhicules sous-marins autonomes (AUV) sont de plus en plus utilisés pour assister les plongeurs dans des opérations à risque élevé, de l'inspection d'infrastructures offshore à la maintenance de câbles sous-marins. Pour qu'un AUV soit un véritable coéquipier et non un simple observateur, il doit interpréter les gestes et postures d'un humain en temps réel, dans des conditions de faible visibilité et de bruit visuel important. L'approche multi-loss de DAR-Net, qui couple la reconnaissance d'activité globale à la compréhension locale des interactions humain-robot via des contraintes de segmentation sémantique, adresse précisément ce gap. C'est une piste prometteuse, mais les validations restent en bassin contrôlé, loin des conditions réelles d'une inspection sous-marine à 30 mètres de profondeur avec turbidité variable. La reconnaissance d'activité humaine sous-marine est un domaine de niche mais en croissance, porté par l'essor des AUV commerciaux de sociétés comme Saab (BlueZone), Kongsberg, ou l'Ifremer en France. L'absence historique de datasets annotés a freiné les approches deep learning dans ce secteur, là où la robotique terrestre bénéficie de corpus massifs. La contribution principale de ce travail est précisément cette ressource de données fondatrice. Les auteurs positionnent explicitement DAR-Net comme une première brique, destinée à servir de baseline pour des travaux futurs sur la collaboration humain-robot en milieu subaquatique. Des extensions vers des environnements non contrôlés et des AUV réels constitueront le vrai test de généralisation du modèle.

UELe dataset UDA et le framework DAR-Net constituent une ressource de référence pour les acteurs européens de l'inspection sous-marine autonome (Ifremer, Kongsberg, Saab BlueZone), mais la validation en conditions réelles reste à démontrer.

RecherchePaper
1 source
Raisonnement robuste sur l'état d'assemblage par reconnaissance d'actions pour la collaboration homme-robot
2arXiv cs.RO 

Raisonnement robuste sur l'état d'assemblage par reconnaissance d'actions pour la collaboration homme-robot

Une étude publiée sur arXiv (identifiant 2606.20150) en juin 2026 évalue de manière systématique cinq méthodes de suivi d'état d'assemblage à partir de la reconnaissance d'actions humaines (HAR), dans le cadre de la collaboration homme-robot (HRC). Les chercheurs ont testé des approches à base de règles logiques, de modèles de Markov cachés (HMM) et de réseaux de neurones (NN) sur deux jeux de données aux caractéristiques différentes. Les tests combinent des entrées simulées avec différents niveaux de bruit et des entrées réalistes issues d'un modèle HAR opérationnel. L'objectif est de déterminer quelle méthode permet de suivre fidèlement l'état d'une tâche d'assemblage coopérative, étape par étape, à partir de la seule reconnaissance des gestes humains. Les résultats contredisent l'hypothèse dominante selon laquelle les approches par réseaux de neurones surpassent systématiquement les méthodes classiques. Les NN et HMM affichent de bonnes performances sur des tâches à faible variabilité, mais se révèlent fragiles face à des séquences atypiques ou bruitées. Les méthodes logiques, bien que moins sophistiquées, se montrent plus robustes dans les scénarios à haute variabilité. Par ailleurs, la modélisation de la durée attendue des actions s'avère critique pour les tâches comportant des actions répétées, notamment lorsqu'aucun capteur complémentaire ne fournit de signal de confirmation. Ce constat a des implications directes pour les intégrateurs industriels qui déploient des cellules HRC sur des lignes d'assemblage réelles : choisir un modèle d'inférence d'état inadapté au profil de la tâche peut entraîner des erreurs de synchronisation robot-opérateur difficiles à diagnostiquer. Ce travail s'inscrit dans un domaine de recherche en pleine effervescence, porté par l'essor des robots collaboratifs (cobots) dans les environnements manufacturiers. Des acteurs comme Universal Robots, FANUC ou encore des laboratoires européens tels que ceux du LAAS-CNRS et de Fraunhofer travaillent sur des pipelines HAR similaires pour des applications d'assistance à l'assemblage. La difficulté centrale, le "demo-to-reality gap" entre conditions de laboratoire et déploiement en usine, reste entière. Cette étude ne propose pas de solution universelle mais établit une carte comparative utile, à condition que les praticiens caractérisent d'abord la variabilité réelle de leur tâche avant de sélectionner une architecture de suivi d'état.

UELe LAAS-CNRS et Fraunhofer sont explicitement cités comme acteurs travaillant sur des pipelines HAR similaires, et les conclusions comparatives offrent une grille de décision directement utilisable par les intégrateurs européens qui déploient des cellules cobot sur des lignes d'assemblage réelles.

RecherchePaper
1 source
Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour
3arXiv cs.RO 

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

Une équipe de chercheurs publie sur arXiv (ref. 2605.23987, mai 2026) un modèle d'interaction pensée-apprentissage (thinking-learning interaction model) pour robots autonomes évoluant en environnements ouverts et changeants. Le problème visé est structurel : la quasi-totalité des méthodes d'apprentissage robot actuelles fixent à l'avance leurs objets d'apprentissage, qu'il s'agisse des features d'entrée, des catégories de sortie, de l'architecture réseau ou des séquences d'action, ce qui bloque toute adaptation lorsque l'environnement dérive en exploitation longue durée. Le modèle proposé repose sur un mécanisme bidirectionnel : la pensée guide l'apprentissage en identifiant les changements potentiels, en sélectionnant les preuves pertinentes et en planifiant des actions de vérification, tandis que l'apprentissage améliore en retour les processus de raisonnement. Les résultats expérimentaux font état d'une progression de la précision de reconnaissance de 0,419 à 0,845 en adaptation de features, d'une réduction de la longueur moyenne des séquences d'action de 13,0 à 4,0 étapes, et d'une hausse du taux de sélection de preuves utiles de 0,272 à 0,965. L'enjeu est concret pour quiconque déploie des robots en environnement non structuré sur la durée. Les approches VLA (vision-language-action) et d'apprentissage par renforcement supposent généralement un espace d'états relativement stable : toute dérive contextuelle, nouvelle référence produit sur une ligne, réaménagement d'entrepôt, apparition d'obstacle inédit, impose un recalibrage humain ou un nouveau cycle d'entraînement coûteux. Un système capable de redéfinir ses propres catégories de sortie et de reconstruire ses routines d'action sans intervention extérieure réduirait considérablement le coût total de maintenance dans des contextes à forte variabilité, comme la logistique ou le manufacturing discret. Ces résultats restent toutefois issus d'expériences de laboratoire sur des scénarios contrôlés, et la généralisation à des déploiements industriels réels n'est pas encore démontrée. Ce travail s'inscrit dans un courant actif autour de l'apprentissage continu (continual learning), en réponse aux limites du fine-tuning ponctuel. Les approches concurrentes incluent le meta-apprentissage (MAML), les architectures à mémoire épisodique, et les agents LLM embarqués pour la planification robotique comme SayCan (Google DeepMind) ou Code-as-Policies. La spécificité de la contribution est de viser l'autonomie dans la définition des objets d'apprentissage eux-mêmes, pas seulement dans l'exécution de tâches prédéfinies. Le papier est un preprint sans annonce de déploiement ni partenariat industriel ; les prochaines étapes naturelles seraient une validation sur des benchmarks standardisés comme RLBench ou Open X-Embodiment, et des tests sur des plateformes physiques diversifiées.

RecherchePaper
1 source
Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires
4arXiv cs.RO 

Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires

Des chercheurs présentent dans un preprint arXiv (2606.08281, soumis en juin 2026) une architecture de contrôle en deux couches baptisée Impedance MPC, conçue pour les robots collaboratifs soumis à des contacts humains non planifiés. Le cœur du système repose sur une première couche qui annule analytiquement la gravité, les forces de Coriolis et l'inertie en espace de tâche, réduisant la dynamique résiduelle à un double intégrateur à matrice de transition constante. Une seconde couche résout un problème d'optimisation quadratique convexe à 30 variables à 100 Hz, en exploitant cette structure constante pour précalculer la matrice de réponse libre une seule fois. Un filtre de Kalman augmenté estime l'état de perturbation persistante, garantissant formellement une erreur statique nulle. Les tests ont été conduits sur un Franka FR3 à 7 degrés de liberté : sous une force soutenue de 15 N, l'erreur statique descend à moins de 0,05 mm, contre 44,8 mm pour un contrôle d'impédance classique, soit une réduction supérieure à 800. Le suivi de quatre trajectoires circulaires 3D reste sous le millimètre. Ce résultat touche un problème structurel bien connu des intégrateurs de cobots : le contrôle d'impédance classique accumule une erreur de position proportionnelle à la force appliquée divisée par la raideur de tâche, et les correcteurs intégraux capables de la résorber déstabilisent facilement le système au-delà d'un budget de gain étroit. L'Impedance MPC contourne cette contrainte en incorporant la prédiction de perturbation directement dans la loi de commande, sans sacrifier la compliance ni la sécurité aux butées articulaires, assurée par un potentiel de barrière inverse dans l'espace nul. Pour un COO ou un intégrateur industriel, cela signifie un cobot capable de tenir sa trajectoire même sous charge humaine prolongée, sans recours à des gains agressifs risquant l'instabilité. L'impédance mécanique comme paradigme de contrôle pour la collaboration homme-robot remonte aux travaux de Neville Hogan dans les années 1980 ; son couplage avec le MPC est une direction active depuis une décennie, notamment pour les manipulateurs série. Le Franka FR3, successeur du Panda, est devenu la plateforme de référence pour les publications en contrôle cobot grâce à son interface de couple en temps réel à 1 kHz. Sur ce segment, les concurrents incluent Universal Robots (UR10e), KUKA LBR iisy, et ABB YuMi, tous confrontés au même compromis compliance-précision. L'approche proposée reste pour l'instant au stade preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles sont la validation sur tâches d'assemblage réelles et le passage à des robots à dynamique plus complexe (bases mobiles, humanoïdes légers).

UELes résultats pourraient bénéficier aux intégrateurs cobots européens (KUKA, ABB) confrontés au compromis compliance-précision, en ouvrant la voie à des robots collaboratifs plus précis sous charge humaine prolongée sans sacrifier la sécurité articulaire.

RecherchePaper
1 source