Détection structurelle en temps réel pour la…

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

42

1arXiv cs.RO

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

Des chercheurs ont publié en mai 2026 (arXiv:2605.17661) Mono-Hydra++, un pipeline temps réel capable de construire des graphes de scène 3D hiérarchiques d'intérieurs en n'utilisant qu'une caméra RGB monoculaire et une IMU, sans capteur de profondeur actif. Le coeur du système repose sur M2H-MX, un modèle multi-tâches fondé sur DINOv3 qui estime simultanément la profondeur et la sémantique des images. Ces estimations alimentent un front-end d'odométrie visuelle-inertielle (VIO) enrichi de contraintes de profondeur prédites creuses, d'un masquage sémantique des zones dynamiques et d'un alignement temporel tenant compte de la pose, avant fusion volumétrique dans le backend Mono-Hydra. Sur le sous-ensemble d'évaluation Go-SLAM/ScanNet, le système affiche 1,6 % d'erreur de trajectoire en moins que le meilleur baseline RGB-D testé ; sur le benchmark calibré 7-Scenes, il réduit l'ATE moyen de 29,8 % par rapport au meilleur concurrent calibré. Le modèle de perception M2H-MX-L, exporté en ONNX/TensorRT FP16, tourne à 25,53 FPS sur un Jetson Orin NX 16 Go, et le pipeline a été validé dans un déploiement réel dans un bâtiment ITC avec une caméra RealSense RGB + IMU. L'impact industriel est direct pour les plateformes à contraintes sévères : drones d'inspection, robots humanoïdes légers et AMR embarquant peu de puissance. Jusqu'ici, la construction de graphes de scène 3D, qui organisent l'espace en objets, pièces et relations spatiales, nécessitait des capteurs actifs (RGB-D ou LiDAR) impraticables dès que le payload ou la consommation électrique sont limités. Mono-Hydra++ démontre qu'il est possible d'atteindre, voire de dépasser, la précision de ces baselines lourds avec une seule caméra et une IMU bas coût. Pour un intégrateur ou un COO industriel, cela signifie une réduction substantielle du coût matériel embarqué et l'ouverture de cas d'usage où le RGB-D n'est pas envisageable. Il convient toutefois de noter que les résultats sont issus de benchmarks académiques standardisés : la robustesse sur des scènes industrielles non contrôlées, avec éclairages difficiles ou textures répétitives, reste à confirmer dans des conditions opérationnelles réelles. Mono-Hydra++ s'inscrit dans la lignée du système Hydra du MIT, qui a posé les bases de la représentation hiérarchique en graphe de scène pour la robotique. L'utilisation de DINOv3 comme backbone de vision fondationnelle est cohérente avec la tendance forte à extraire simultanément géométrie et sémantique depuis des modèles pré-entraînés à grande échelle. Sur ce terrain, les concurrents directs incluent les systèmes basés sur RGB-D comme Go-SLAM, iMAP ou NICE-SLAM, ainsi que des approches VIO-sémantiques récentes, mais peu proposent la combinaison complète cartographie métrique, sémantique et graphe de scène en temps réel sur matériel embarqué contraint. En tant que preprint arXiv non encore évalué par les pairs, les prochaines étapes attendues sont la publication en conférence (IROS, ICRA), des tests sur plateformes aériennes effectives et une éventuelle intégration dans des stacks robotiques open-source comme ROS 2.

UELes constructeurs européens d'AMR légers et de drones d'inspection pourraient à terme réduire leurs coûts matériels embarqués en remplaçant les capteurs RGB-D par une caméra monoculaire, sous réserve de validation dans des conditions industrielles non contrôlées.

RecherchePaper

1 source

Navigation par apprentissage pour robots mobiles en intérieur

38

2arXiv cs.RO

Navigation par apprentissage pour robots mobiles en intérieur

Des chercheurs ont publié sur arXiv (référence 2605.30468) un framework de navigation hybride pour robots mobiles intérieurs, combinant un planificateur global neuronal et un planificateur local affiné par apprentissage par renforcement. Le planificateur global est un réseau de neurones supervisé, entraîné à partir de trajectoires générées par un algorithme A* pondéré par les coûts, ce qui lui permet de produire des routes globalement cohérentes et évitant les zones dangereuses. Le planificateur local, baptisé Learning-Based DWA, reformule l'approche classique Dynamic Window Approach (DWA) comme un problème de sélection discrète sur une grille d'actions prédéfinies. La politique locale est d'abord initialisée par clonage comportemental (imitation d'un expert), puis optimisée par Proximal Policy Optimization (PPO) avec un masquage de faisabilité, un mécanisme éliminant les actions physiquement irréalisables ou à risque de collision avant même l'exploration. Les résultats expérimentaux, conduits en simulation et en environnement réel intérieur, montrent une navigation sûre et fiable vers des objectifs en présence d'obstacles. L'intérêt de cette contribution réside dans son positionnement hybride : plutôt que d'abandonner DWA au profit d'une approche entièrement apprise, les auteurs l'utilisent comme squelette structurant pour contraindre le problème d'apprentissage. Ce choix de conception présente deux avantages pour les intégrateurs. D'abord, le masquage de faisabilité réduit l'espace d'exploration du policy gradient aux seules actions physiquement admissibles, limitant les comportements dangereux en phase d'apprentissage et facilitant le transfert sim-to-réel. Ensuite, conserver la logique DWA comme substrat rend la politique plus interprétable qu'un réseau boîte noire, un critère non négligeable pour les déploiements industriels soumis à certification. La méthode démontre qu'un classique de la robotique réactive, largement jugé dépassé par les approches end-to-end, peut encore être un socle pertinent pour des pipelines d'apprentissage modernes. Le DWA a été introduit par Fox, Burgard et Thrun en 1997 et reste une brique fondamentale des stacks de navigation ROS et Nav2, déployés sur une large partie des flottes d'AMR (robots mobiles autonomes) industriels actuels. C'est dans cet écosystème très installé que s'inscrit ce travail, face à des approches concurrentes plus radicales : navigation end-to-end par apprentissage (ETH Zurich, MIT CSAIL), planificateurs à modèle comme TEB ou MPPI, et méthodes VLA émergentes pour la navigation en langage naturel. Les auteurs annoncent la mise à disposition du code source sur leur page projet. Aucun partenaire industriel ni déploiement commercial n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RecherchePaper

1 source

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

40

3arXiv cs.RO

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

Des chercheurs présentent dans un preprint arXiv (référence 2602.11575, troisième version) un pipeline baptisé ReaDy-Go qui vise à combler l'écart simulation-réalité pour la navigation visuelle robotique en environnements dynamiques. Le principe : reconstruire une scène réelle cible (domicile, restaurant, usine) sous forme de nuage de gaussiennes 3D (Gaussian Splatting, ou GS), puis y insérer des avatars humains animables, eux aussi représentés en GS photoreáliste, dont les mouvements sont synthétisés à partir de trajectoires 2D. Un planificateur expert dédié aux représentations GS dynamiques, couplé à un planificateur humain, génère ensuite automatiquement des milliers de scénarios de navigation depuis des points de vue arbitraires. Les politiques de navigation entraînées sur ces datasets sont ensuite déployées sur robot physique. Les auteurs rapportent des gains de performance en simulation et en conditions réelles face à des obstacles mobiles, ainsi qu'un transfert zero-shot dans un environnement inédit, ce qui suggère une capacité de généralisation au-delà des scènes d'entraînement. L'enjeu industriel est significatif pour les intégrateurs de robots de service et les concepteurs de systèmes AMR (autonomous mobile robots) en environnements non contrôlés. Le verrou principal que ReaDy-Go cherche à lever est double : les méthodes classiques souffrent d'un sim-to-real gap important parce que les scènes d'entraînement sont génériques, et les obstacles dynamiques y sont soit absents, soit représentés par des mannequins non photoréalistes issus de simulateurs comme Isaac Sim ou Gazebo. En ancrant la simulation dans une reconstruction GS de l'environnement cible réel et en peuplant cette scène d'avatars humains photoréalistes et cinématiquement plausibles, l'approche réduit la distance de distribution entre entraînement et déploiement. Il s'agit d'une contribution méthodologique, pas d'un produit commercialisé ; les résultats restent à ce stade des démonstrations académiques, et les métriques annoncées (temps de cycle, taux de succès) gagneraient à être contextualisées par des conditions de test plus variées. Le Gaussian Splatting a émergé comme technique de reconstruction 3D rapide et photoréaliste depuis les travaux de Kerbl et al. en 2023, et plusieurs groupes l'ont depuis exploré pour la simulation robotique, notamment pour la manipulation (voir les travaux de RoboGSim ou GaussianWorld). ReaDy-Go se distingue en ciblant la navigation en présence de piétons, un cas d'usage critique pour les robots de livraison indoor et les plateformes de service en espace public. Sur ce segment, les concurrents directs incluent les pipelines basés sur NeRF (plus lents à l'entraînement), les simulateurs procéduraux type NVIDIA Omniverse, et des approches comme UniSim ou HabitatSim. Aucun acteur européen n'est cité dans le preprint, mais des équipes comme Enchanted Tools (robotique de service, France) ou les labos de navigation de l'INRIA pourraient trouver dans ReaDy-Go une brique de simulation réutilisable. La page projet est accessible et le code pourrait être publié ; les prochaines étapes naturelles seraient des tests à plus grande échelle avec diversité de populations et d'environnements, et une intégration dans des stacks de navigation open-source comme Nav2.

UECette méthode de simulation photoréaliste à base de Gaussian Splatting pourrait être réutilisée par des équipes européennes de navigation robotique (INRIA, Enchanted Tools) pour réduire le sim-to-real gap sans dépendre de simulateurs propriétaires comme Isaac Sim ou NVIDIA Omniverse.

RecherchePaper

1 source

Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique

40

4arXiv cs.RO

Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique

Des chercheurs ont publié le 25 avril 2026 sur arXiv (arXiv:2604.18336) un framework de reconstruction de surfaces vitrées destiné à améliorer la navigation autonome en intérieur. Le problème visé est concret : les capteurs de profondeur (LiDAR, RGB-D) échouent systématiquement face aux surfaces transparentes ou réfléchissantes comme le verre, qui génèrent des mesures erronées ou absentes. L'approche proposée exploite Depth Anything 3, un modèle fondationnel de vision monoculaire, comme prior géométrique, puis aligne ce prior sur les données brutes du capteur via un algorithme RANSAC local. Ce mécanisme permet d'éviter que les mesures corrompues par le verre ne contaminent la reconstruction finale, tout en récupérant une échelle métrique absolue que le modèle de fondation seul ne fournit pas. L'équipe publie également GlassRecon, un dataset RGB-D inédit avec vérité terrain dérivée géométriquement pour les régions vitrées, et annonce la mise à disposition du code et des données sur GitHub. Ce travail adresse un angle mort réel de la navigation robotique en milieu tertiaire. Les bureaux, centres commerciaux, aéroports et hôpitaux sont truffés de cloisons vitrées, de vitrines et de portes transparentes qui font échouer les AMR (Autonomous Mobile Robots) commerciaux en production. Le fait que le framework soit training-free est un avantage pratique direct pour les intégrateurs : il ne nécessite pas de retrainer un modèle sur des données propriétaires, et peut s'insérer dans un pipeline de navigation existant sans modification majeure. Les expériences montrent des gains consistants par rapport aux baselines de l'état de l'art, particulièrement dans les cas de corruption sévère du capteur, ce qui suggère une robustesse utile en conditions réelles plutôt qu'en environnement de laboratoire contrôlé. La détection et la reconstruction de surfaces transparentes est un problème ouvert depuis plusieurs années dans la communauté robotique. Des travaux antérieurs comme GlassNet ou Trans10K avaient abordé la segmentation du verre en RGB pur, mais la fusion avec des données de profondeur restait peu explorée de manière training-free. Du côté concurrentiel, des approches de completion de profondeur par deep learning (IP-Basic, PENet) ou de slam robuste aux occultations existent, mais elles requièrent typiquement un entraînement spécialisé. La contribution de ce papier est de positionner les modèles de fondation non pas comme remplaçants du capteur, mais comme régularisateurs géométriques. Les prochaines étapes annoncées sont la publication du dataset GlassRecon et du code, ce qui permettra à la communauté d'évaluer la reproductibilité des résultats. Aucun déploiement terrain ni partenaire industriel n'est mentionné à ce stade : il s'agit d'une contribution de recherche, pas d'un produit.

RecherchePaper

1 source

Détection structurelle en temps réel pour la navigation intérieure par LiDAR 3D avec images en vue aérienne

À lire aussi

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

Navigation par apprentissage pour robots mobiles en intérieur

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique