Reconnaissance gestuelle multimodale…

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

41

1arXiv cs.RO

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

Des chercheurs ont publié sur arXiv (référence 2602.22346) un framework de perception sociale destiné aux robots de service mobiles autonomes, comme les robots tondeuses ou les robots nettoyeurs opérant dans des espaces fréquentés par des humains. Le système repose sur une architecture en deux étapes : une première phase identifie les paires d'individus susceptibles d'interagir en s'appuyant uniquement sur des indices géométriques et de mouvement (positions relatives, trajectoires, orientations corporelles), puis une seconde phase classe le type d'interaction à l'aide d'un réseau relationnel (relation network). L'approche a été évaluée sur le dataset JRDB, benchmark de référence pour la perception sociale en robotique, ainsi que sur le Collective Activity Dataset (CAD) et, en évaluation zero-shot, sur un jeu de données collecté directement par une tondeuse autonome en conditions réelles. L'enjeu est concret pour les intégrateurs de robots de service : détecter qu'un groupe de personnes interagit entre elles, qu'il s'agisse d'une discussion, d'un attroupement ou d'une interaction dynamique, permet au robot de planifier une trajectoire socialement acceptable sans interrompre ni gêner ces échanges. Les approches existantes reposent souvent sur des modèles de reconnaissance d'activité de groupe qui mobilisent des réseaux d'analyse visuelle coûteux en calcul, inadaptés aux plateformes embarquées à ressources limitées. Ce framework démontre que des indices géométriques simples suffisent à obtenir des performances compétitives tout en réduisant significativement la taille du modèle et le coût computationnel. Ce résultat remet en question l'hypothèse largement répandue selon laquelle l'analyse visuelle par apparence serait indispensable pour ce type de tâche de perception sociale. Ce travail s'inscrit dans le champ de la navigation socialement consciente (socially aware navigation), où des frameworks comme SARL, CrowdNav ou ORCA constituent les références historiques. Le dataset JRDB, produit par Stanford, reste le principal benchmark pour ce type de tâche en environnement robotique réel. Le code est publié en open source, ce qui facilitera son intégration dans des pipelines ROS existants. La limite notable est que l'évaluation porte sur des interactions coarse-grained, c'est-à-dire des catégories comportementales larges plutôt que des gestes fins, ce qui suffit pour la navigation mais exclut les applications nécessitant une compréhension sociale plus granulaire. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes réelles déployées en environnements semi-publics, comme des aéroports, des centres commerciaux ou des entrepôts à occupation mixte.

RecherchePaper

1 source

Reconnaissance gestuelle tactile par capteurs articulaires intégrés pour robots industriels

48

2arXiv cs.RO

Reconnaissance gestuelle tactile par capteurs articulaires intégrés pour robots industriels

Des chercheurs ont publié sur arXiv (2508.12435) une étude démontrant qu'un robot industriel peut reconnaître des gestes tactiles humains en exploitant uniquement ses capteurs articulaires intégrés, sans aucun capteur externe. Implémentée sur un bras Franka Emika Research (7 DOF), l'approche s'appuie sur des architectures CNN évaluées sur un dataset collecté spécifiquement pour l'expérience. Deux méthodes ont atteint plus de 95 % de précision en détection de contact et classification de gestes : STFT2DCNN, qui applique une transformée de Fourier à court terme pour générer des spectrogrammes 2D, et STT3DCNN, qui exploite des représentations temps-fréquence tridimensionnelles. La variable déterminante n'est pas le choix d'architecture CNN mais la représentation des données : passer des séries temporelles brutes aux spectrogrammes fait bondir les performances de façon significative. L'implication industrielle est directe. Équiper un robot d'une peau tactile ou de caméras supplémentaires pour détecter l'intention humaine coûte cher, complexifie l'intégration et fragilise la maintenance. Prouver que les couples et positions articulaires déjà remontés par le contrôleur suffisent à atteindre 95 % de précision ouvre une voie de déploiement à coût quasi nul pour la collaboration homme-robot dans les cellules existantes. Les modèles spectraux montrent également une meilleure généralisation à de nouvelles configurations articulaires, ce qui est un signal positif pour des applications où le robot change fréquemment de posture de travail. Cela dit, les performances sont mesurées en laboratoire sur un seul modèle de robot et un dataset maison dont la taille et la diversité ne sont pas précisées dans l'abstract, ce qui invite à la prudence avant de conclure à une généralisation industrielle immédiate. La reconnaissance tactile sans peau robotique est un chantier actif depuis plusieurs années, notamment dans les labos qui travaillent sur la conformance mécanique (robots cobots comme le Franka, UR, ou le Kinova). Des approches concurrentes s'appuient sur des capteurs de force-couple au poignet (ATI, Robotiq FT300), des peaux à électrodes capacitives, ou la vision RGB-D pour inférer l'intention de contact, chacune avec un surcoût matériel substantiel. Ce travail positionne les signaux proprioceptifs comme une alternative viable et souligne que le verrou n'est pas hardware mais algorithmique. Les prochaines étapes probables : validation sur d'autres plateformes (UR10, KUKA iiwa), extension à des gestes plus complexes, et tests en conditions industrielles réelles avec bruit vibratoire ambiant.

UELa validation s'appuie sur un bras Franka Emika (plateforme allemande dominante dans les labos et cellules cobots européens) : si confirmée sur d'autres plateformes, cette approche offrirait aux intégrateurs EU une voie de déploiement HRI à coût quasi nul sans capteurs supplémentaires.

RecherchePaper

1 source

MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée

38

3arXiv cs.RO

MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée

Des chercheurs ont publié MAG-VLAQ (Multi-modal Aerial-Ground Query Aggregation for Cross-View Place Recognition), un framework de reconnaissance de lieux qui associe des observations au sol -- caméra RGB et LiDAR -- à des images aériennes ou satellites. L'architecture repose sur des modèles de fondation pré-entraînés pour extraire des tokens visuels denses depuis les images sol et aériennes, auxquels s'ajoutent des tokens géométriques issus du LiDAR. La contribution principale est l'ODE-conditioned VLAQ : une fusion RGB-LiDAR pilotée par des équations différentielles ordinaires (ODE), couplée à des vecteurs de requêtes localement agrégées (VLAQ) dont les centres s'adaptent dynamiquement à l'état multi-modal fusionné. Sur le benchmark KITTI360-AG, MAG-VLAQ atteint 61,1 de Recall@1 en configuration satellite, contre 34,5 pour l'approche concurrente la plus proche, soit un quasi-doublement de l'état de l'art. Les résultats sont également validés sur nuScenes-AG. Le papier est disponible en préprint sur arXiv (2605.09418v1) et n'a pas encore été soumis à revue par les pairs. Ce gain de performance est significatif pour la localisation robotique en milieu urbain, où la capacité à se positionner sur une carte satellite sans GPS fiable reste un verrou applicatif majeur pour les véhicules autonomes, les drones de livraison ou les AMR opérant en extérieur. Cela dit, les benchmarks KITTI360-AG et nuScenes-AG sont dérivés de datasets de conduite autonome : leur transférabilité à des environnements industriels ou à des configurations de drones réels n'est pas démontrée. Sur le plan technique, le conditionnement ODE pour piloter dynamiquement les prototypes de requêtes représente une approche originale pour fusionner des modalités hétérogènes dans un descripteur global cohérent. C'est un signal que les modèles de fondation commencent à apporter des gains mesurables sur des tâches de localisation géométrique, au-delà de la détection d'objets. La reconnaissance de lieux multi-modale est un champ actif depuis une décennie, avec des approches pionnières comme NetVLAD (2016) pour la compression de descripteurs visuels. L'essor des modèles de fondation visuels -- DINOv2, SAM -- a relancé les performances sur cette tâche depuis 2023. Dans le paysage concurrent, des travaux comme AnyLoc, EigenPlaces ou BEV-Net cherchent également à combler l'écart entre vue sol et vue aérienne, mais restent majoritairement mono-modaux (vision seule). MAG-VLAQ se distingue en intégrant LiDAR et conditionnement ODE là où ces approches s'appuient uniquement sur le RGB. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans l'article : à ce stade, il s'agit d'une contribution académique dont les suites pratiques dépendront de tests sur des capteurs et scénarios réels.

RecherchePaper

1 source

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative

42

4arXiv cs.RO

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative

Des chercheurs ont publié KGLAMP (Knowledge Graph-guided Language Model for Adaptive Multi-robot Planning and Replanning), un framework de planification combinant graphes de connaissances et grands modèles de langage pour coordonner des équipes de robots hétérogènes sur des missions longues. La contribution centrale est une architecture en deux couches : un graphe de connaissances structuré encode en temps réel les relations entre objets, la portée spatiale de chaque robot et leurs capacités spécifiques, tandis qu'un LLM s'appuie sur ce graphe pour générer automatiquement des spécifications PDDL (Planning Domain Definition Language) correctes. Quand l'environnement évolue, un obstacle déplacé, un robot en panne, le graphe détecte l'incohérence et déclenche un replanification automatique. Sur le benchmark MAT-THOR (un environnement simulé de type habitat domestique conçu pour tester la coordination multi-agents), KGLAMP surpasse de 25,3 % au minimum les deux approches de référence : planificateurs PDDL classiques seuls et LLM seuls. Ce résultat est significatif parce qu'il attaque un problème structurel bien documenté dans la littérature : les planificateurs symboliques PDDL exigent des modèles du monde construits manuellement, coûteux à maintenir dans des environnements dynamiques, tandis que les LLM utilisés seuls tendent à ignorer l'hétérogénéité des agents et à produire des plans invalides face à l'incertitude. KGLAMP propose une mémoire persistante et mise à jour dynamiquement qui sert d'interface entre perception et raisonnement symbolique. Pour un intégrateur déployant des flottes mixtes (AMR, bras manipulateurs, drones), la promesse d'un replanning automatique sans re-modélisation manuelle représente un gain opérationnel concret, notamment dans les entrepôts à géométrie variable ou la logistique hospitalière. L'article s'inscrit dans la tendance des approches dites "neuro-symboliques" qui tentent de corriger les faiblesses des LLM par des représentations explicites du monde. Les travaux concurrents incluent SayPlan (Rana et al., 2023) et les variantes LLM+PDDL de Meta AI, Google DeepMind ou CMU. Il reste à noter que les expériences sont conduites exclusivement en simulation sur MAT-THOR : aucune validation physique n'est rapportée, ce qui laisse ouverte la question du sim-to-real gap pour des flottes réelles. La prochaine étape naturelle serait un déploiement sur des plateformes matérielles hétérogènes pour mesurer la robustesse du graphe de connaissances face au bruit sensoriel du monde réel.

RecherchePaper

1 source

Reconnaissance gestuelle multimodale interprétable pour la téléopération de drones et robots mobiles par fusion de rapports de vraisemblance

À lire aussi

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

Reconnaissance gestuelle tactile par capteurs articulaires intégrés pour robots industriels

MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative