Aller au contenu principal
MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée
RecherchearXiv cs.RO6sem

MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié MAG-VLAQ (Multi-modal Aerial-Ground Query Aggregation for Cross-View Place Recognition), un framework de reconnaissance de lieux qui associe des observations au sol -- caméra RGB et LiDAR -- à des images aériennes ou satellites. L'architecture repose sur des modèles de fondation pré-entraînés pour extraire des tokens visuels denses depuis les images sol et aériennes, auxquels s'ajoutent des tokens géométriques issus du LiDAR. La contribution principale est l'ODE-conditioned VLAQ : une fusion RGB-LiDAR pilotée par des équations différentielles ordinaires (ODE), couplée à des vecteurs de requêtes localement agrégées (VLAQ) dont les centres s'adaptent dynamiquement à l'état multi-modal fusionné. Sur le benchmark KITTI360-AG, MAG-VLAQ atteint 61,1 de Recall@1 en configuration satellite, contre 34,5 pour l'approche concurrente la plus proche, soit un quasi-doublement de l'état de l'art. Les résultats sont également validés sur nuScenes-AG. Le papier est disponible en préprint sur arXiv (2605.09418v1) et n'a pas encore été soumis à revue par les pairs.

Ce gain de performance est significatif pour la localisation robotique en milieu urbain, où la capacité à se positionner sur une carte satellite sans GPS fiable reste un verrou applicatif majeur pour les véhicules autonomes, les drones de livraison ou les AMR opérant en extérieur. Cela dit, les benchmarks KITTI360-AG et nuScenes-AG sont dérivés de datasets de conduite autonome : leur transférabilité à des environnements industriels ou à des configurations de drones réels n'est pas démontrée. Sur le plan technique, le conditionnement ODE pour piloter dynamiquement les prototypes de requêtes représente une approche originale pour fusionner des modalités hétérogènes dans un descripteur global cohérent. C'est un signal que les modèles de fondation commencent à apporter des gains mesurables sur des tâches de localisation géométrique, au-delà de la détection d'objets.

La reconnaissance de lieux multi-modale est un champ actif depuis une décennie, avec des approches pionnières comme NetVLAD (2016) pour la compression de descripteurs visuels. L'essor des modèles de fondation visuels -- DINOv2, SAM -- a relancé les performances sur cette tâche depuis 2023. Dans le paysage concurrent, des travaux comme AnyLoc, EigenPlaces ou BEV-Net cherchent également à combler l'écart entre vue sol et vue aérienne, mais restent majoritairement mono-modaux (vision seule). MAG-VLAQ se distingue en intégrant LiDAR et conditionnement ODE là où ces approches s'appuient uniquement sur le RGB. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans l'article : à ce stade, il s'agit d'une contribution académique dont les suites pratiques dépendront de tests sur des capteurs et scénarios réels.

Dans nos dossiers

À lire aussi

ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines
1arXiv cs.RO 

ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines

Des chercheurs ont déposé le 24 juin 2026 sur arXiv (2606.24234) ProteusVPR, un système de reconnaissance visuelle de lieu (VPR, Visual Place Recognition) conçu pour les robots d'inspection en milieu maritime. Le problème de fond : à bord d'un navire, un robot doit naviguer entre deux environnements visuellement antagonistes, les ponts extérieurs aux textures rares et aux variations d'éclairage sévères, et les cabines intérieures aux structures répétitives générant de fortes ambiguïtés. ProteusVPR répond avec une architecture à deux étapes : une première phase de récupération d'images via n'importe quel backbone VPR standard, suivie d'un réseau d'estimation géométrico-visuelle qui fusionne l'image récupérée avec deux trames temporellement précédentes, intégrant des descripteurs géométriques, un système de coordonnées affines locales et un encodage de l'azimut caméra. Les auteurs introduisent également le dataset XHZ, jeu de données panoramiques 8K collecté sur un navire en opération, couvrant des structures multi-niveaux de cabines, des zones de transition pont-intérieur et une séparation stricte requête-base de données. Sur ce benchmark, ProteusVPR réduit l'erreur de localisation moyenne de plus de 60 % par rapport aux backbones classiques testés. Ce résultat pèse parce que les méthodes VPR actuelles, conçues pour l'urbain ou l'indoor, échouent systématiquement à généraliser sur des scènes aussi hétérogènes au sein d'un même parcours. En inspection navale autonome, une localisation dégradée invalide un cycle d'audit entier ou génère de fausses alertes sur l'état de la coque ou des espaces confinés. La modularité de ProteusVPR est son argument commercial le plus fort : son deuxième étage s'intègre au-dessus de tout pipeline VPR existant, ce qui réduit le coût d'adoption pour les équipes qui disposent déjà d'une infrastructure de localisation visuelle. La VPR est un problème actif depuis vingt ans, de NetVLAD aux approches transformers récentes, mais son application maritime reste marginale, la plupart des systèmes embarqués s'appuyant sur LiDAR ou GNSS, peu fiables sous pont. Des acteurs comme SeaRobotics, Voyis ou Greensea Systems couvrent l'inspection de coque et sous-marine, mais le créneau ponts-cabines demeure peu industrialisé. L'équipe ne mentionne ni partenaire industriel ni calendrier de déploiement : ProteusVPR reste pour l'heure une contribution académique (preprint arXiv), sans produit embarqué démontré en conditions réelles.

RecherchePaper
1 source
Reconnaissance gestuelle multimodale interprétable pour la téléopération de drones et robots mobiles par fusion de rapports de vraisemblance
2arXiv cs.RO 

Reconnaissance gestuelle multimodale interprétable pour la téléopération de drones et robots mobiles par fusion de rapports de vraisemblance

Une équipe de recherche a publié sur arXiv (réf. 2602.23694, troisième révision) un framework de reconnaissance gestuelle multimodale destiné à la téléopération sans contact physique de robots mobiles et de drones en environnements dangereux. Le système combine des données inertielles issues d'Apple Watches portées aux deux poignets -- accéléromètre, gyroscope et orientation -- avec des signaux de capacitance provenant de gants instrumentés développés spécifiquement pour l'étude. L'architecture repose sur une fusion tardive fondée sur le rapport de vraisemblance logarithmique (log-likelihood ratio, LLR), appliquée à un vocabulaire de 20 gestes distincts inspirés des signaux de balisage utilisés par les marshalls aéroportuaires. Les chercheurs publient simultanément un dataset synchronisant vidéo RGB, données IMU et capteurs capacitifs pour l'ensemble de ces 20 gestes. L'intérêt principal de cette approche réside dans sa robustesse face aux conditions qui font défaillir les systèmes purement visuels : occultations, variations d'éclairage, arrière-plans encombrés -- autant de contraintes courantes sur les sites industriels ou en zone de catastrophe. Les résultats expérimentaux indiquent des performances comparables à une baseline vision state-of-the-art, avec une empreinte computationnelle, une taille de modèle et un temps d'entraînement significativement réduits, ce qui le rend compatible avec du contrôle robotique temps réel. Le mécanisme LLR apporte également une propriété d'interprétabilité rare dans ce domaine : il quantifie la contribution de chaque modalité à la décision finale, ce qui peut intéresser les intégrateurs soumis à des exigences de traçabilité ou de certification. La téléopération par gestes fait l'objet d'une compétition active, notamment entre les approches EMG (électromyographie), les interfaces cerveau-machine et la reconnaissance visuelle pure. Ce travail positionne la fusion IMU-capacitance comme une alternative robuste et légère, sans nécessiter de caméra orientée vers l'opérateur. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs, sans déploiement annoncé sur du matériel de production. Aucun partenaire industriel n'est mentionné, et les prochaines étapes logiques seraient une validation sur des robots commerciaux (AMR, drones quadrotors) dans des conditions terrain réelles, ainsi qu'une intégration avec des middlewares robotiques standards tels que ROS 2.

RecherchePaper
1 source
OctoSense : apprentissage auto-supervisé pour la perception multimodale des robots
3arXiv cs.RO 

OctoSense : apprentissage auto-supervisé pour la perception multimodale des robots

Une équipe de recherche a publié sur arXiv (arXiv:2606.17317) OctoSense, une plateforme matérielle open-source de perception multimodale accompagnée d'un dataset de 59 heures de données embarquées synchronisées. Le rig intègre une paire de caméras RGB stéréo, une caméra à événements, un LiDAR, une caméra thermique, une centrale inertielle (IMU), un GPS RTK et des données de proprioception issues d'un bus CAN automobile et d'un robot quadrupède. Les données ont été collectées dans des environnements variés, à différentes heures du jour et de la nuit, y compris en conditions de dégradation sensorielle sévère. Sur ce dataset, les auteurs démontrent une architecture de foundation model baptisée "late-fusion masked autoencoder" : des tokeniseurs spécifiques par modalité gèrent les différences de résolution spatiotemporelle, de fréquence et de latence entre capteurs, puis les tokens sont mis en cache à l'inférence pour traiter les nouvelles mesures au fil de leur arrivée. Le temps de calcul de représentation atteint 6,68 ms sur GPU NVIDIA RTX 5090 et 112 ms sur module embarqué Jetson Orin NX. Ce résultat est notable pour les intégrateurs robotiques car il démontre qu'un modèle auto-supervisé entraîné sur des données réelles hétérogènes surpasse les foundation models vision-only (entraînés sur images seules) sur quatre tâches critiques : estimation du flot optique, reconstruction de profondeur, segmentation sémantique et estimation de l'ego-motion (translation, rotation, angle de braquage). L'absence de labels supervisés dans le pipeline d'entraînement réduit significativement le coût de constitution des datasets pour les équipes qui déploient sur des plateformes mobiles. La robustesse nocturne et en conditions dégradées adresse directement un point de friction récurrent dans les déploiements AMR en entrepôts logistiques et en robotique outdoor. OctoSense s'inscrit dans la tendance des foundation models perceptifs pour la robotique, un espace très actif depuis les travaux de type CLIP/DINOv2 et plus récemment les VLA (Vision-Language-Action models) poussés par Physical Intelligence (Pi-0) et NVIDIA (GR00T). Contrairement à ces approches centrées sur la manipulation ou la navigation en langage naturel, OctoSense cible la représentation sensorielle bas-niveau sur plateforme embarquée contrainte. Le projet est entièrement open-source (code, dataset et vidéos supplémentaires disponibles), ce qui le distingue des stacks propriétaires des acteurs commerciaux. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade ; il s'agit d'un preprint de recherche sans validation externe. La prochaine étape naturelle serait une évaluation sur des benchmarks robotiques standardisés (OpenX-Embodiment, CARLA) pour confirmer la généralisation hors-distribution.

RecherchePaper
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
4arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source