
SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot
Des chercheurs présentent SASI (Sub-Action Semantics Integrated cross-modal fusion), un cadre de reconnaissance d'actions humaines publié en préprint sur arXiv (réf. 2604.27508). L'objectif est d'améliorer la reconnaissance précoce des gestes dans le contexte de l'interaction homme-robot (HRI) : identifier une action avant qu'elle soit complètement exécutée, à partir d'une séquence incomplète. SASI combine un réseau de convolution sur graphe (GCN) basé sur le squelette humain avec un modèle de segmentation de sous-actions, fusionnant des features spatiotemporelles et la sémantique des sous-actions via une fusion cross-modale. Le système fonctionne en temps réel à 29 Hz. Les évaluations sont conduites sur le dataset BABEL, un jeu de données squelettiques avec annotations au niveau de la frame, et montrent une amélioration de la précision de reconnaissance précoce par rapport aux approches conventionnelles.
La capacité à reconnaître une action avant sa complétion est décisive pour les robots collaboratifs qui doivent anticiper et répondre de manière proactive. Les approches existantes traitent l'action comme un tout holiste et ignorent la structure hiérarchique inhérente aux mouvements humains : un "saisir un objet" se décompose en approche, préhension et retrait, avec des indices sémantiques distincts à chaque sous-étape. En exploitant ces sous-actions comme unités d'analyse, SASI permet au robot de prendre des décisions à partir d'observations partielles. Pour un intégrateur de robots industriels ou un opérateur d'AMR en entrepôt, cela se traduit concrètement par des systèmes capables d'adapter leur trajectoire avant qu'un opérateur humain ait terminé son geste, réduisant les temps d'attente et les risques de collision.
La reconnaissance d'actions par squelette s'appuie depuis 2018 sur les GCN spatio-temporels (ST-GCN, puis CTR-GCN, MS-G3D), devenus le backbone standard du domaine. BABEL, le dataset utilisé ici, est construit sur AMASS, une collection motion-capture multi-sujets avec étiquetage sémantique fin. Il n'y a pas, à ce stade, d'entreprise ou de partenaire industriel mentionné : SASI est un travail académique en préprint, soumis de façon anonyme (dépôt de code temporaire sur anonymous.4open.science), ce qui en limite pour l'instant la reproductibilité indépendante. Les auteurs indiquent que des gains supplémentaires sont attendus avec l'amélioration de la segmentation des sous-actions, une dépendance critique non résolue pour un déploiement réel. Aucune timeline de productisation ni partenaire industriel ne sont mentionnés.
Dans nos dossiers




