
Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure
Des chercheurs ont publié en mai 2026 (arXiv:2605.17661) Mono-Hydra++, un pipeline temps réel capable de construire des graphes de scène 3D hiérarchiques d'intérieurs en n'utilisant qu'une caméra RGB monoculaire et une IMU, sans capteur de profondeur actif. Le coeur du système repose sur M2H-MX, un modèle multi-tâches fondé sur DINOv3 qui estime simultanément la profondeur et la sémantique des images. Ces estimations alimentent un front-end d'odométrie visuelle-inertielle (VIO) enrichi de contraintes de profondeur prédites creuses, d'un masquage sémantique des zones dynamiques et d'un alignement temporel tenant compte de la pose, avant fusion volumétrique dans le backend Mono-Hydra. Sur le sous-ensemble d'évaluation Go-SLAM/ScanNet, le système affiche 1,6 % d'erreur de trajectoire en moins que le meilleur baseline RGB-D testé ; sur le benchmark calibré 7-Scenes, il réduit l'ATE moyen de 29,8 % par rapport au meilleur concurrent calibré. Le modèle de perception M2H-MX-L, exporté en ONNX/TensorRT FP16, tourne à 25,53 FPS sur un Jetson Orin NX 16 Go, et le pipeline a été validé dans un déploiement réel dans un bâtiment ITC avec une caméra RealSense RGB + IMU.
L'impact industriel est direct pour les plateformes à contraintes sévères : drones d'inspection, robots humanoïdes légers et AMR embarquant peu de puissance. Jusqu'ici, la construction de graphes de scène 3D, qui organisent l'espace en objets, pièces et relations spatiales, nécessitait des capteurs actifs (RGB-D ou LiDAR) impraticables dès que le payload ou la consommation électrique sont limités. Mono-Hydra++ démontre qu'il est possible d'atteindre, voire de dépasser, la précision de ces baselines lourds avec une seule caméra et une IMU bas coût. Pour un intégrateur ou un COO industriel, cela signifie une réduction substantielle du coût matériel embarqué et l'ouverture de cas d'usage où le RGB-D n'est pas envisageable. Il convient toutefois de noter que les résultats sont issus de benchmarks académiques standardisés : la robustesse sur des scènes industrielles non contrôlées, avec éclairages difficiles ou textures répétitives, reste à confirmer dans des conditions opérationnelles réelles.
Mono-Hydra++ s'inscrit dans la lignée du système Hydra du MIT, qui a posé les bases de la représentation hiérarchique en graphe de scène pour la robotique. L'utilisation de DINOv3 comme backbone de vision fondationnelle est cohérente avec la tendance forte à extraire simultanément géométrie et sémantique depuis des modèles pré-entraînés à grande échelle. Sur ce terrain, les concurrents directs incluent les systèmes basés sur RGB-D comme Go-SLAM, iMAP ou NICE-SLAM, ainsi que des approches VIO-sémantiques récentes, mais peu proposent la combinaison complète cartographie métrique, sémantique et graphe de scène en temps réel sur matériel embarqué contraint. En tant que preprint arXiv non encore évalué par les pairs, les prochaines étapes attendues sont la publication en conférence (IROS, ICRA), des tests sur plateformes aériennes effectives et une éventuelle intégration dans des stacks robotiques open-source comme ROS 2.
Les constructeurs européens d'AMR légers et de drones d'inspection pourraient à terme réduire leurs coûts matériels embarqués en remplaçant les capteurs RGB-D par une caméra monoculaire, sous réserve de validation dans des conditions industrielles non contrôlées.
Dans nos dossiers




