
Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service
Des chercheurs ont publié sur arXiv (référence 2602.22346) un framework de perception sociale destiné aux robots de service mobiles autonomes, comme les robots tondeuses ou les robots nettoyeurs opérant dans des espaces fréquentés par des humains. Le système repose sur une architecture en deux étapes : une première phase identifie les paires d'individus susceptibles d'interagir en s'appuyant uniquement sur des indices géométriques et de mouvement (positions relatives, trajectoires, orientations corporelles), puis une seconde phase classe le type d'interaction à l'aide d'un réseau relationnel (relation network). L'approche a été évaluée sur le dataset JRDB, benchmark de référence pour la perception sociale en robotique, ainsi que sur le Collective Activity Dataset (CAD) et, en évaluation zero-shot, sur un jeu de données collecté directement par une tondeuse autonome en conditions réelles.
L'enjeu est concret pour les intégrateurs de robots de service : détecter qu'un groupe de personnes interagit entre elles, qu'il s'agisse d'une discussion, d'un attroupement ou d'une interaction dynamique, permet au robot de planifier une trajectoire socialement acceptable sans interrompre ni gêner ces échanges. Les approches existantes reposent souvent sur des modèles de reconnaissance d'activité de groupe qui mobilisent des réseaux d'analyse visuelle coûteux en calcul, inadaptés aux plateformes embarquées à ressources limitées. Ce framework démontre que des indices géométriques simples suffisent à obtenir des performances compétitives tout en réduisant significativement la taille du modèle et le coût computationnel. Ce résultat remet en question l'hypothèse largement répandue selon laquelle l'analyse visuelle par apparence serait indispensable pour ce type de tâche de perception sociale.
Ce travail s'inscrit dans le champ de la navigation socialement consciente (socially aware navigation), où des frameworks comme SARL, CrowdNav ou ORCA constituent les références historiques. Le dataset JRDB, produit par Stanford, reste le principal benchmark pour ce type de tâche en environnement robotique réel. Le code est publié en open source, ce qui facilitera son intégration dans des pipelines ROS existants. La limite notable est que l'évaluation porte sur des interactions coarse-grained, c'est-à-dire des catégories comportementales larges plutôt que des gestes fins, ce qui suffit pour la navigation mais exclut les applications nécessitant une compréhension sociale plus granulaire. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes réelles déployées en environnements semi-publics, comme des aéroports, des centres commerciaux ou des entrepôts à occupation mixte.
Dans nos dossiers




