Aller au contenu principal
CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur
RecherchearXiv cs.RO1h

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

CoMo3R-SLAM est un système de SLAM dense collaboratif monoculaire présenté en preprint sur arXiv (2605.30488) en mai 2026. Il permet à plusieurs robots de construire ensemble une carte 3D dense d'un environnement extérieur en n'utilisant que des caméras RGB monoculaires, sans capteurs de profondeur de type LiDAR ou RGB-D. Chaque agent embarque un front-end guidé par des priors de reconstruction appris pour assurer le suivi en temps réel et la fusion dense locale. Un coordinateur centralisé prend ensuite en charge la cohérence globale via correspondance de pointmaps denses, synchronisation géométrique Sim(3) en forme fermée, et ajustement de faisceaux global accéléré GPU avec optimisation de profondeur par segments. Le système ne requiert ni capteur de profondeur ni calibration d'intrinsèques paramétriques. Tournant en ligne à 8 FPS, il obtient le meilleur ATE (erreur de trajectoire absolue) sur trois des quatre scènes Tanks and Temples, et des résultats compétitifs sur les séquences Waymo, égalant ou dépassant les méthodes RGB-D état de l'art.

L'impact concret pour l'industrie est d'abord matériel : supprimer les capteurs de profondeur réduit significativement le poids embarqué, le coût unitaire et la complexité de calibration des plateformes robotiques. LiDAR et caméras RGB-D représentent souvent plusieurs kilogrammes et plusieurs milliers d'euros par unité, ce qui pénalise le déploiement en flotte. Que des priors d'apprentissage profond permettent de lever l'ambiguïté d'échelle monoculaire en extérieur valide une hypothèse forte du secteur : les modèles feed-forward de reconstruction 3D sont désormais suffisamment robustes pour opérer hors conditions contrôlées. Pour les intégrateurs et décideurs B2B, cela ouvre la voie à des flottes de robots légers capables de cartographier collaborativement des environnements vastes sans infrastructure capteur lourde.

Le SLAM collaboratif dense est un défi ouvert depuis une décennie. Des systèmes comme COVINS ou Kimera-Multi s'appuient encore majoritairement sur des capteurs de profondeur ou des environnements intérieurs. La montée en puissance des modèles de reconstruction 3D appris, notamment DUSt3R (2023) et MASt3R (2024), issus de Naver Labs Europe à Grenoble, a rendu accessible la reconstruction dense monoculaire sans calibration explicite. CoMo3R-SLAM est la première application de ces priors dans un cadre multi-agents outdoor. Les benchmarks Tanks and Temples et Waymo constituent une validation pertinente pour des conditions de déploiement réelles. Côté concurrents, les systèmes multi-robots embarqués de Boston Dynamics, ANYbotics ou de spécialistes SLAM comme SLAMcore restent ancrés sur des architectures multi-capteurs. Ce preprint, non encore évalué par les pairs, ouvre la voie à des pilotes sur drones d'inspection ou robots mobiles légers où le rapport poids/performance est critique.

Impact France/UE

CoMo3R-SLAM s'appuie directement sur DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble, validant l'apport fondamental de la recherche française comme socle des futurs systèmes SLAM multi-agents légers en extérieur.

À lire aussi

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure
1arXiv cs.RO 

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

Des chercheurs ont publié en mai 2026 (arXiv:2605.17661) Mono-Hydra++, un pipeline temps réel capable de construire des graphes de scène 3D hiérarchiques d'intérieurs en n'utilisant qu'une caméra RGB monoculaire et une IMU, sans capteur de profondeur actif. Le coeur du système repose sur M2H-MX, un modèle multi-tâches fondé sur DINOv3 qui estime simultanément la profondeur et la sémantique des images. Ces estimations alimentent un front-end d'odométrie visuelle-inertielle (VIO) enrichi de contraintes de profondeur prédites creuses, d'un masquage sémantique des zones dynamiques et d'un alignement temporel tenant compte de la pose, avant fusion volumétrique dans le backend Mono-Hydra. Sur le sous-ensemble d'évaluation Go-SLAM/ScanNet, le système affiche 1,6 % d'erreur de trajectoire en moins que le meilleur baseline RGB-D testé ; sur le benchmark calibré 7-Scenes, il réduit l'ATE moyen de 29,8 % par rapport au meilleur concurrent calibré. Le modèle de perception M2H-MX-L, exporté en ONNX/TensorRT FP16, tourne à 25,53 FPS sur un Jetson Orin NX 16 Go, et le pipeline a été validé dans un déploiement réel dans un bâtiment ITC avec une caméra RealSense RGB + IMU. L'impact industriel est direct pour les plateformes à contraintes sévères : drones d'inspection, robots humanoïdes légers et AMR embarquant peu de puissance. Jusqu'ici, la construction de graphes de scène 3D, qui organisent l'espace en objets, pièces et relations spatiales, nécessitait des capteurs actifs (RGB-D ou LiDAR) impraticables dès que le payload ou la consommation électrique sont limités. Mono-Hydra++ démontre qu'il est possible d'atteindre, voire de dépasser, la précision de ces baselines lourds avec une seule caméra et une IMU bas coût. Pour un intégrateur ou un COO industriel, cela signifie une réduction substantielle du coût matériel embarqué et l'ouverture de cas d'usage où le RGB-D n'est pas envisageable. Il convient toutefois de noter que les résultats sont issus de benchmarks académiques standardisés : la robustesse sur des scènes industrielles non contrôlées, avec éclairages difficiles ou textures répétitives, reste à confirmer dans des conditions opérationnelles réelles. Mono-Hydra++ s'inscrit dans la lignée du système Hydra du MIT, qui a posé les bases de la représentation hiérarchique en graphe de scène pour la robotique. L'utilisation de DINOv3 comme backbone de vision fondationnelle est cohérente avec la tendance forte à extraire simultanément géométrie et sémantique depuis des modèles pré-entraînés à grande échelle. Sur ce terrain, les concurrents directs incluent les systèmes basés sur RGB-D comme Go-SLAM, iMAP ou NICE-SLAM, ainsi que des approches VIO-sémantiques récentes, mais peu proposent la combinaison complète cartographie métrique, sémantique et graphe de scène en temps réel sur matériel embarqué contraint. En tant que preprint arXiv non encore évalué par les pairs, les prochaines étapes attendues sont la publication en conférence (IROS, ICRA), des tests sur plateformes aériennes effectives et une éventuelle intégration dans des stacks robotiques open-source comme ROS 2.

UELes constructeurs européens d'AMR légers et de drones d'inspection pourraient à terme réduire leurs coûts matériels embarqués en remplaçant les capteurs RGB-D par une caméra monoculaire, sous réserve de validation dans des conditions industrielles non contrôlées.

RecherchePaper
1 source
Vers une récupération d'architecture assistée par LLM pour les systèmes ROS 2 réels : approche multi-niveaux à base d'agents pour la reconstruction de structure hiérarchique
2arXiv cs.RO 

Vers une récupération d'architecture assistée par LLM pour les systèmes ROS 2 réels : approche multi-niveaux à base d'agents pour la reconstruction de structure hiérarchique

Des chercheurs ont publié sur arXiv (arXiv:2605.20055) une approche basée sur des agents LLM pour reconstruire automatiquement l'architecture logicielle hiérarchique de systèmes robotiques développés sous ROS 2. Le pipeline, dit "blueprint-guided", intègre deux améliorations majeures par rapport à une version antérieure : un raffinement du prompting pour améliorer la cohérence et la contrôlabilité de la synthèse architecturale, et une stratégie de récupération par étapes s'appuyant sur des représentations intermédiaires multi-niveaux, incluant la liste des nœuds ROS atomiques et les dépendances entre fichiers de lancement. L'approche a été évaluée sur un système réel de désassemblage automatisé de produits, basé sur des bras robotiques coopératifs et des artefacts ROS 2 hétérogènes, présentant une complexité d'intégration nettement supérieure au cas d'étude précédent. L'enjeu est concret pour les équipes robotique en production : dans un système ROS 2, la structure logicielle est rarement documentée explicitement. Elle est fragmentée entre le code source, les fichiers de lancement et les paramètres de configuration, rendant la maintenance, l'audit de sécurité et l'évolution du système coûteux. Les outils existants se limitent généralement à la cartographie des nœuds et des topics (niveau "câblage"), sans restituer la décomposition fonctionnelle hiérarchique que les architectes logiciels utilisent réellement. Cette approche LLM propose de franchir ce saut d'abstraction, avec des résultats jugés améliorés en consistance structurelle et en robustesse, bien que les auteurs signalent eux-mêmes des limites persistantes sur la sémantique d'intégration dynamique dans les déploiements à grande échelle, un point de fragilité non négligeable pour des systèmes en production. ROS 2, successeur de ROS 1 maintenu par la Open Robotics Foundation, est devenu le middleware de référence pour les robots industriels et de recherche, avec une adoption croissante chez des intégrateurs comme Clearpath, Boston Dynamics ou Universal Robots. La récupération d'architecture logicielle (architecture recovery) est un problème classique du génie logiciel, mais son application aux systèmes cyber-physiques distribués comme ROS 2 reste un chantier ouvert. Ce travail s'inscrit dans un effort académique plus large visant à automatiser la documentation des systèmes robotiques complexes, en complément d'approches d'analyse statique comme ros2doctor ou roslaunch-analyzer. La prochaine étape naturelle serait de tester la méthode sur des systèmes ROS 2 de plus grande envergure, notamment dans des environnements d'entrepôts ou de lignes de production, pour valider la tenue à l'échelle revendiquée.

RecherchePaper
1 source
Algorithme d'enchères consensuelles à stratégie d'enchère apprise pour systèmes multi-robots
3arXiv cs.RO 

Algorithme d'enchères consensuelles à stratégie d'enchère apprise pour systèmes multi-robots

Une équipe de chercheurs a publié sur arXiv (ref. 2605.21932) une approche hybride pour l'allocation décentralisée de tâches en flotte robotique : remplacer le mécanisme d'enchères déterministe du CBBA (Consensus-Based Bundle Algorithm) par une politique d'enchères neuronale entraînée par apprentissage par renforcement. Le CBBA, algorithme de référence en coordination multi-robots, garantit une convergence prouvable mais repose sur des fonctions de score heuristiques codées à la main, souvent sous-optimales face à des scénarios complexes. Les auteurs entraînent leur politique avec PPO (Proximal Policy Optimization), en calibrant les récompenses sur la proximité aux solutions globalement optimales obtenues par programmation linéaire en nombres entiers mixtes (MILP). Trois architectures neuronales sont comparées : un Neural Additive Model (NAM), un LSTM et un Set Transformer. Les expériences couvrent plusieurs tailles de flotte et confirment que les politiques apprises améliorent systématiquement la qualité d'allocation par rapport au CBBA classique, tout en conservant une exécution entièrement décentralisée. Le résultat structurellement important est que ce cadre CTDE (Centralized Training, Decentralized Execution) permet aux robots d'enchérir sur des tâches à partir d'observations locales partielles, sans communication globale à l'exécution. Pour les intégrateurs déployant des flottes en entrepôt ou en logistique industrielle, c'est un signal concret : les heuristiques codées manuellement, longtemps standard de fait, peuvent être surpassées par des politiques apprises sans sacrifier les garanties de coordination décentralisée. La capacité à tenir à l'échelle sur différentes tailles de flotte est particulièrement notable, les approches MARL pures souffrant souvent d'une instabilité d'entraînement croissante avec le nombre d'agents. Le CBBA est issu des travaux de Choi et al. (2009) et reste une référence dans les systèmes multi-robots décentralisés, notamment pour les drones et les AMR industriels. L'hybridation RL et algorithmes de coordination classiques s'inscrit dans un axe de recherche actif, face à deux alternatives concurrentes : les approches MARL pures (scalabilité difficile) et les méthodes d'optimisation combinatoire centralisée (inadaptées au temps réel). Cette publication reste une contribution académique sans déploiement annoncé ni partenaire industriel identifié, mais elle pose une base méthodologique pour des flottes hétérogènes plus larges. Les suites naturelles seraient la validation sur robots physiques et l'extension à des contraintes temporelles explicites, comme des tâches avec fenêtres de temps ou des dépendances séquentielles.

RecherchePaper
1 source
Apprentissage de la collaboration altruiste dans les systèmes multi-équipes hétérogènes
4arXiv cs.RO 

Apprentissage de la collaboration altruiste dans les systèmes multi-équipes hétérogènes

Des chercheurs ont soumis en mai 2025 sur arXiv (arXiv:2605.21723) un framework d'allocation dynamique de robots entre équipes hétérogènes, où chaque robot constitue une ressource transférable d'une équipe à l'autre en cours de mission. Le mécanisme de décision repose sur la règle de Hamilton, empruntée à la biologie évolutive : un agent "accepte" de quitter son équipe d'origine si le bénéfice collectif pondéré par la relation entre équipes dépasse le coût de transfert. Le problème d'optimisation résultant est combinatoire et démontré NP-difficile. Pour contourner ce verrou de scalabilité, les auteurs proposent une politique fondée sur un réseau de neurones sur graphe (GNN), entraîné en mode centralisé mais exécuté de façon décentralisée (paradigme CTDE, Centralized Training, Decentralized Execution). Le modèle opère sur le graphe d'interaction entre équipes et prédit à la fois les transferts de robots et les réaffectations équipe-par-équipe. La validation s'appuie sur un scénario de lutte contre des incendies simultanés, combinant simulations à grande échelle et expériences physiques réelles, avec des performances proches de l'optimal calculé. Pour les intégrateurs de flottes multi-robots, l'apport principal est la capacité à redistribuer dynamiquement des actifs hétérogènes (robots de capacités différentes) sans coordinateur central en temps réel, ce qui réduit la dépendance à une infrastructure de communication fiable. Démontrer que ce comportement altruiste peut être appris via un GNN et exécuté localement contredit l'idée selon laquelle la coordination complexe entre équipes exige impérativement une optimisation centralisée en ligne. Le passage à l'échelle est validé empiriquement, pas seulement en simulation. Ce travail s'inscrit dans la vague du Multi-Agent Reinforcement Learning (MARL), où CTDE est désormais un paradigme standard avec des baselines comme MAPPO ou QMIX. L'originalité réside dans l'emprunt explicite à l'écologie évolutive comme principe normatif, là où la plupart des approches MARL restent purement empiriques. L'article n'est pas encore évalué par des pairs (preprint arXiv). Aucun acteur industriel n'est impliqué dans cette publication académique, et aucune timeline de déploiement n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des scénarios industriels réels (entrepôts, chantiers, réponse aux catastrophes) avec des flottes robotiques hétérogènes commerciales.

RecherchePaper
1 source