Aller au contenu principal
RecherchearXiv cs.RO4h

Reconnaissance gestuelle multimodale interprétable pour la téléopération de drones et robots mobiles par fusion de rapports de vraisemblance

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (réf. 2602.23694, troisième révision) un framework de reconnaissance gestuelle multimodale destiné à la téléopération sans contact physique de robots mobiles et de drones en environnements dangereux. Le système combine des données inertielles issues d'Apple Watches portées aux deux poignets -- accéléromètre, gyroscope et orientation -- avec des signaux de capacitance provenant de gants instrumentés développés spécifiquement pour l'étude. L'architecture repose sur une fusion tardive fondée sur le rapport de vraisemblance logarithmique (log-likelihood ratio, LLR), appliquée à un vocabulaire de 20 gestes distincts inspirés des signaux de balisage utilisés par les marshalls aéroportuaires. Les chercheurs publient simultanément un dataset synchronisant vidéo RGB, données IMU et capteurs capacitifs pour l'ensemble de ces 20 gestes.

L'intérêt principal de cette approche réside dans sa robustesse face aux conditions qui font défaillir les systèmes purement visuels : occultations, variations d'éclairage, arrière-plans encombrés -- autant de contraintes courantes sur les sites industriels ou en zone de catastrophe. Les résultats expérimentaux indiquent des performances comparables à une baseline vision state-of-the-art, avec une empreinte computationnelle, une taille de modèle et un temps d'entraînement significativement réduits, ce qui le rend compatible avec du contrôle robotique temps réel. Le mécanisme LLR apporte également une propriété d'interprétabilité rare dans ce domaine : il quantifie la contribution de chaque modalité à la décision finale, ce qui peut intéresser les intégrateurs soumis à des exigences de traçabilité ou de certification.

La téléopération par gestes fait l'objet d'une compétition active, notamment entre les approches EMG (électromyographie), les interfaces cerveau-machine et la reconnaissance visuelle pure. Ce travail positionne la fusion IMU-capacitance comme une alternative robuste et légère, sans nécessiter de caméra orientée vers l'opérateur. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs, sans déploiement annoncé sur du matériel de production. Aucun partenaire industriel n'est mentionné, et les prochaines étapes logiques seraient une validation sur des robots commerciaux (AMR, drones quadrotors) dans des conditions terrain réelles, ainsi qu'une intégration avec des middlewares robotiques standards tels que ROS 2.

Dans nos dossiers

À lire aussi

MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée
1arXiv cs.RO 

MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée

Des chercheurs ont publié MAG-VLAQ (Multi-modal Aerial-Ground Query Aggregation for Cross-View Place Recognition), un framework de reconnaissance de lieux qui associe des observations au sol -- caméra RGB et LiDAR -- à des images aériennes ou satellites. L'architecture repose sur des modèles de fondation pré-entraînés pour extraire des tokens visuels denses depuis les images sol et aériennes, auxquels s'ajoutent des tokens géométriques issus du LiDAR. La contribution principale est l'ODE-conditioned VLAQ : une fusion RGB-LiDAR pilotée par des équations différentielles ordinaires (ODE), couplée à des vecteurs de requêtes localement agrégées (VLAQ) dont les centres s'adaptent dynamiquement à l'état multi-modal fusionné. Sur le benchmark KITTI360-AG, MAG-VLAQ atteint 61,1 de Recall@1 en configuration satellite, contre 34,5 pour l'approche concurrente la plus proche, soit un quasi-doublement de l'état de l'art. Les résultats sont également validés sur nuScenes-AG. Le papier est disponible en préprint sur arXiv (2605.09418v1) et n'a pas encore été soumis à revue par les pairs. Ce gain de performance est significatif pour la localisation robotique en milieu urbain, où la capacité à se positionner sur une carte satellite sans GPS fiable reste un verrou applicatif majeur pour les véhicules autonomes, les drones de livraison ou les AMR opérant en extérieur. Cela dit, les benchmarks KITTI360-AG et nuScenes-AG sont dérivés de datasets de conduite autonome : leur transférabilité à des environnements industriels ou à des configurations de drones réels n'est pas démontrée. Sur le plan technique, le conditionnement ODE pour piloter dynamiquement les prototypes de requêtes représente une approche originale pour fusionner des modalités hétérogènes dans un descripteur global cohérent. C'est un signal que les modèles de fondation commencent à apporter des gains mesurables sur des tâches de localisation géométrique, au-delà de la détection d'objets. La reconnaissance de lieux multi-modale est un champ actif depuis une décennie, avec des approches pionnières comme NetVLAD (2016) pour la compression de descripteurs visuels. L'essor des modèles de fondation visuels -- DINOv2, SAM -- a relancé les performances sur cette tâche depuis 2023. Dans le paysage concurrent, des travaux comme AnyLoc, EigenPlaces ou BEV-Net cherchent également à combler l'écart entre vue sol et vue aérienne, mais restent majoritairement mono-modaux (vision seule). MAG-VLAQ se distingue en intégrant LiDAR et conditionnement ODE là où ces approches s'appuient uniquement sur le RGB. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans l'article : à ce stade, il s'agit d'une contribution académique dont les suites pratiques dépendront de tests sur des capteurs et scénarios réels.

RecherchePaper
1 source
KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative
2arXiv cs.RO 

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative

Des chercheurs ont publié KGLAMP (Knowledge Graph-guided Language Model for Adaptive Multi-robot Planning and Replanning), un framework de planification combinant graphes de connaissances et grands modèles de langage pour coordonner des équipes de robots hétérogènes sur des missions longues. La contribution centrale est une architecture en deux couches : un graphe de connaissances structuré encode en temps réel les relations entre objets, la portée spatiale de chaque robot et leurs capacités spécifiques, tandis qu'un LLM s'appuie sur ce graphe pour générer automatiquement des spécifications PDDL (Planning Domain Definition Language) correctes. Quand l'environnement évolue, un obstacle déplacé, un robot en panne, le graphe détecte l'incohérence et déclenche un replanification automatique. Sur le benchmark MAT-THOR (un environnement simulé de type habitat domestique conçu pour tester la coordination multi-agents), KGLAMP surpasse de 25,3 % au minimum les deux approches de référence : planificateurs PDDL classiques seuls et LLM seuls. Ce résultat est significatif parce qu'il attaque un problème structurel bien documenté dans la littérature : les planificateurs symboliques PDDL exigent des modèles du monde construits manuellement, coûteux à maintenir dans des environnements dynamiques, tandis que les LLM utilisés seuls tendent à ignorer l'hétérogénéité des agents et à produire des plans invalides face à l'incertitude. KGLAMP propose une mémoire persistante et mise à jour dynamiquement qui sert d'interface entre perception et raisonnement symbolique. Pour un intégrateur déployant des flottes mixtes (AMR, bras manipulateurs, drones), la promesse d'un replanning automatique sans re-modélisation manuelle représente un gain opérationnel concret, notamment dans les entrepôts à géométrie variable ou la logistique hospitalière. L'article s'inscrit dans la tendance des approches dites "neuro-symboliques" qui tentent de corriger les faiblesses des LLM par des représentations explicites du monde. Les travaux concurrents incluent SayPlan (Rana et al., 2023) et les variantes LLM+PDDL de Meta AI, Google DeepMind ou CMU. Il reste à noter que les expériences sont conduites exclusivement en simulation sur MAT-THOR : aucune validation physique n'est rapportée, ce qui laisse ouverte la question du sim-to-real gap pour des flottes réelles. La prochaine étape naturelle serait un déploiement sur des plateformes matérielles hétérogènes pour mesurer la robustesse du graphe de connaissances face au bruit sensoriel du monde réel.

RecherchePaper
1 source
Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication
3arXiv cs.RO 

Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication

Une équipe de chercheurs propose, dans un preprint déposé sur arXiv le 25 mai 2026 (arXiv:2605.19209), un framework hiérarchique pour résoudre le problème de planification de mouvement multi-robots sans étiquetage, c'est-à-dire l'assignation simultanée de robots à des objectifs et la génération de trajectoires sûres dans des environnements partagés. Le système combine deux composants : un Graph ATtention Planner (GATP), fondé sur des réseaux de neurones à graphes avec mécanisme d'attention, qui génère des sous-objectifs intermédiaires par coopération entre agents, et un contrôleur NMPC (Nonlinear Model Predictive Controller) décentralisé, exécuté en embarqué sur chaque robot, qui garantit la faisabilité des trajectoires sous dynamiques non-linéaires et contraintes d'actuation réelles. Le framework a été évalué à la fois en simulation et sur des quadrotors physiques. Les auteurs rapportent une tolérance aux délais de communication allant jusqu'à 200 ms, une inférence entièrement décentralisée à bord, et une meilleure généralisation à des équipes de taille croissante. Ce travail s'attaque directement au gouffre sim-to-real qui mine la plupart des approches GNN appliquées à la robotique multi-agents : les méthodes existantes supposent des dynamiques simplifiées et un environnement de simulation idéalisé, ce qui les rend fragiles en conditions réelles. En couplant un planificateur neuronal décentralisé à un contrôleur à modèle prédictif, le framework maintient les propriétés de scalabilité des GNN tout en imposant des garanties de sécurité physiques que les approches purement apprises ne fournissent pas. La robustesse aux délais de communication est particulièrement significative pour les déploiements en entrepôts ou en milieu industriel, où les réseaux sans fil ne sont jamais idéaux. Cette contribution s'inscrit dans un corpus actif de recherche sur les GNN pour la coordination multi-robots, aux côtés de travaux comme MAGAT ou DAN, qui visent à remplacer les solveurs centralisés classiques (MILP, CBS) par des approches distribuées passant à l'échelle. Le preprint n'est pas encore soumis à une revue avec comité de lecture, et aucun déploiement industriel ni partenariat n'est annoncé : il s'agit d'une validation expérimentale académique sur quadrotors, prometteuse mais à consolider. Les prochaines étapes naturelles seraient des expériences sur flottes plus larges et des robots à dynamiques plus complexes, comme des manipulateurs mobiles ou des AMR en environnement entrepôt.

RecherchePaper
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
4arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source