Aller au contenu principal
OREN : réseau résiduel octree pour la cartographie en distance euclidienne signée en temps réel
RecherchearXiv cs.RO6sem

OREN : réseau résiduel octree pour la cartographie en distance euclidienne signée en temps réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2510.18999, version 2) OREN, pour Octree Residual Network, une méthode de reconstruction de fonctions de distance signée euclidienne (ESDF) en temps réel à partir de nuages de points 3D. L'architecture est hybride : une structure octree assure l'interpolation spatiale explicite, tandis qu'un réseau de neurones calcule le résidu implicite. L'objectif annoncé est un ESDF complet (non tronqué), différentiable, avec une empreinte mémoire et computationnelle comparable aux méthodes volumétriques discrètes classiques, et une précision proche des approches entièrement neurales. Des expériences extensives sur des jeux de données de référence sont citées à l'appui de ces affirmations.

La carte de distance signée est une primitive fondamentale de l'autonomie robotique : elle conditionne la planification de trajectoire, le contrôle d'évitement de collision et le SLAM. Les méthodes en production restent majoritairement des TSDF (Truncated Signed Distance Field, comme VoxBlox) rapides et scalables mais tronqués à une bande de surface étroite et non différentiables ; les méthodes neurales pures (iSDF de Meta, approches NeRF-based) sont continues et précises mais souffrent d'oubli catastrophique dans les grands environnements et restent trop coûteuses pour l'embarqué temps-réel. Si les performances annoncées de OREN résistent à une validation indépendante, l'approche pourrait concrètement débloquer l'ESDF temps-réel pour des robots mobiles et manipulateurs opérant à grande échelle en environnements dynamiques, sans les compromis habituels.

OREN s'inscrit dans une vague de méthodes hybrides cherchant à réconcilier efficacité des structures discrètes et expressivité neurale, aux côtés de travaux comme SHINE-Mapping ou NGLOD. Les représentations volumétriques comme OctoMap et OpenVDB dominent encore les déploiements industriels réels. Meta avait positionné iSDF en 2022 comme alternative neurale scalable ; depuis, plusieurs équipes de recherche travaillent à réduire les coûts d'inférence pour franchir le seuil du temps-réel embarqué. L'article est un preprint arXiv (v2, soumis en octobre 2025), sans peer-review finalisé et sans affiliation industrielle identifiée dans le résumé. Les prochaines étapes attendues incluent une évaluation sur des benchmarks standardisés tels que ScanNet ou SemanticKITTI, et une intégration dans des pipelines SLAM open-source pour confirmer les gains annoncés en conditions réelles.

Dans nos dossiers

À lire aussi

Capteur cutané conforme pour la cartographie en temps réel de la forme
1arXiv cs.RO 

Capteur cutané conforme pour la cartographie en temps réel de la forme

Des chercheurs ont présenté sur arXiv (preprint 2605.01170, mai 2025) un capteur souple et conforme capable de reconstruire en temps réel la déformation tridimensionnelle d'une surface flexible, sans recourir à la vision. Le dispositif intègre un réseau 2D de jauges de contrainte imprimées à base d'indium-gallium eutectique oxydé (o-EGaIn), emboîtées en miroir dans un film élastomère. Un réseau de 5x5 capteurs espacés de 12 mm mesure les contraintes hors axe neutre, et un modèle d'observation informé par la mécanique des matériaux, couplé à une routine d'optimisation rapide, estime simultanément la courbure locale, l'élongation, le décalage et l'orientation. Le système atteint une erreur moyenne de reconstruction de surface de 0,62 mm avec une latence de 100 ms, testée sur des scénarios combinant étirement, flexion et indentation. Les démonstrations incluent le suivi de gestes de la paume, l'indentation par un doigt, et la déformation d'un ballon sous contact. Ce résultat est notable parce qu'il adresse une limitation structurelle des approches visuelles existantes : la nécessité d'une ligne de visée et d'une instrumentation complexe, incompatibles avec les environnements occultés ou à espace contraint, notamment la chirurgie mini-invasive, les prothèses ou les doigts de préhension robotique. La précision sub-millimétrique à 10 Hz ouvre un espace d'utilisation pour le suivi épidermique du mouvement, l'interaction haptique à retour de forme, et la surveillance peropératoire en temps réel, sans nécessiter de marqueurs externes ni de caméras. Il s'agit cependant d'un preprint académique : aucun produit n'est annoncé ni commercialisé. Les capteurs à base d'EGaIn liquide-métal sont étudiés depuis une décennie pour leur déformabilité et leur conductivité, mais la reconstruction 3D continue à partir de mesures de contraintes distribuées reste un problème ouvert. Les approches concurrentes incluent les capteurs à fibre optique (FBG), plus précis mais rigides et coûteux, et les peaux tactiles matricielles à base de matériaux piézorésistifs ou capacitifs. Ce travail se distingue par la combinaison d'une fabrication par impression, d'un modèle mécanique intégré et d'une latence compatible avec le contrôle en boucle fermée. Les prochaines étapes naturelles sont l'intégration sur un effecteur robotique souple ou un instrument chirurgical, et la tenue à l'autoclave pour la stérilisation.

RecherchePaper
1 source
Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure
2arXiv cs.RO 

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

Des chercheurs ont publié en mai 2026 (arXiv:2605.17661) Mono-Hydra++, un pipeline temps réel capable de construire des graphes de scène 3D hiérarchiques d'intérieurs en n'utilisant qu'une caméra RGB monoculaire et une IMU, sans capteur de profondeur actif. Le coeur du système repose sur M2H-MX, un modèle multi-tâches fondé sur DINOv3 qui estime simultanément la profondeur et la sémantique des images. Ces estimations alimentent un front-end d'odométrie visuelle-inertielle (VIO) enrichi de contraintes de profondeur prédites creuses, d'un masquage sémantique des zones dynamiques et d'un alignement temporel tenant compte de la pose, avant fusion volumétrique dans le backend Mono-Hydra. Sur le sous-ensemble d'évaluation Go-SLAM/ScanNet, le système affiche 1,6 % d'erreur de trajectoire en moins que le meilleur baseline RGB-D testé ; sur le benchmark calibré 7-Scenes, il réduit l'ATE moyen de 29,8 % par rapport au meilleur concurrent calibré. Le modèle de perception M2H-MX-L, exporté en ONNX/TensorRT FP16, tourne à 25,53 FPS sur un Jetson Orin NX 16 Go, et le pipeline a été validé dans un déploiement réel dans un bâtiment ITC avec une caméra RealSense RGB + IMU. L'impact industriel est direct pour les plateformes à contraintes sévères : drones d'inspection, robots humanoïdes légers et AMR embarquant peu de puissance. Jusqu'ici, la construction de graphes de scène 3D, qui organisent l'espace en objets, pièces et relations spatiales, nécessitait des capteurs actifs (RGB-D ou LiDAR) impraticables dès que le payload ou la consommation électrique sont limités. Mono-Hydra++ démontre qu'il est possible d'atteindre, voire de dépasser, la précision de ces baselines lourds avec une seule caméra et une IMU bas coût. Pour un intégrateur ou un COO industriel, cela signifie une réduction substantielle du coût matériel embarqué et l'ouverture de cas d'usage où le RGB-D n'est pas envisageable. Il convient toutefois de noter que les résultats sont issus de benchmarks académiques standardisés : la robustesse sur des scènes industrielles non contrôlées, avec éclairages difficiles ou textures répétitives, reste à confirmer dans des conditions opérationnelles réelles. Mono-Hydra++ s'inscrit dans la lignée du système Hydra du MIT, qui a posé les bases de la représentation hiérarchique en graphe de scène pour la robotique. L'utilisation de DINOv3 comme backbone de vision fondationnelle est cohérente avec la tendance forte à extraire simultanément géométrie et sémantique depuis des modèles pré-entraînés à grande échelle. Sur ce terrain, les concurrents directs incluent les systèmes basés sur RGB-D comme Go-SLAM, iMAP ou NICE-SLAM, ainsi que des approches VIO-sémantiques récentes, mais peu proposent la combinaison complète cartographie métrique, sémantique et graphe de scène en temps réel sur matériel embarqué contraint. En tant que preprint arXiv non encore évalué par les pairs, les prochaines étapes attendues sont la publication en conférence (IROS, ICRA), des tests sur plateformes aériennes effectives et une éventuelle intégration dans des stacks robotiques open-source comme ROS 2.

UELes constructeurs européens d'AMR légers et de drones d'inspection pourraient à terme réduire leurs coûts matériels embarqués en remplaçant les capteurs RGB-D par une caméra monoculaire, sous réserve de validation dans des conditions industrielles non contrôlées.

RecherchePaper
1 source
TACO : optimisation par consensus temporel pour la cartographie neurale continue
3arXiv cs.RO 

TACO : optimisation par consensus temporel pour la cartographie neurale continue

Une équipe de recherche propose TACO (TemporAl Consensus Optimization), un framework de cartographie neurale continue publié sur arXiv (arXiv:2602.04516v3). L'idée centrale consiste à reformuler la construction de cartes comme un problème d'optimisation par consensus temporel : au lieu de stocker et rejouer des observations passées, TACO traite les versions antérieures du modèle de carte lui-même comme des "voisins temporels". Concrètement, la mise à jour de la carte courante est contrainte par un consensus pondéré avec ces instantanés historiques, ce qui permet aux zones géométriquement fiables du passé de guider l'optimisation, tout en laissant les régions obsolètes se réviser librement face aux nouvelles observations. Les auteurs valident l'approche sur des expériences simulées et en environnement réel, où TACO surpasse les baselines de continual learning existantes. L'enjeu industriel est direct : les systèmes de cartographie neurale implicite (de type NeRF ou occupancy networks) offrent des représentations denses et différentiables attractives pour la navigation robotique, mais leur déploiement réel bute sur deux contraintes dures. Premièrement, les environnements changent, un entrepôt, un chantier ou un hôpital n'est jamais statique. Deuxièmement, les méthodes actuelles supposent des scènes fixes ou exigent des buffers de replay coûteux en mémoire, incompatibles avec les contraintes embarquées des robots mobiles. TACO adresse les deux en supprimant le replay : la mémoire requise ne croît pas avec le nombre d'observations, et le modèle s'adapte aux changements sans oublier catégoriquement les structures stables. C'est un avantage mesurable pour les intégrateurs qui dimensionnent du matériel edge ou qui déploient sur des flottes à ressources limitées. La cartographie neurale continue est un problème ouvert depuis que les représentations implicites (iMap, NICE-SLAM, puis leurs successeurs) ont montré leur supériorité sur les cartes voxéliques classiques pour la précision et la compacité. Le verrou du "catastrophic forgetting" en continual learning est connu depuis les années 1990, mais son application aux cartes 3D temps-réel est récente. Les approches concurrentes s'appuient principalement sur la distillation de connaissances, les regularizers de type EWC (Elastic Weight Consolidation), ou des buffers de replay explicites. TACO se distingue en exploitant l'historique du modèle lui-même comme source de régularisation, sans données stockées. Les prochaines étapes naturelles incluent l'intégration dans des pipelines SLAM complets et des tests à plus longue durée dans des environnements fortement dynamiques.

RecherchePaper
1 source
Détection structurelle en temps réel pour la navigation intérieure par LiDAR 3D avec images en vue aérienne
4arXiv cs.RO 

Détection structurelle en temps réel pour la navigation intérieure par LiDAR 3D avec images en vue aérienne

Des chercheurs ont publié sur arXiv (arXiv:2603.19830v2) un pipeline de perception léger capable de détecter en temps réel les structures d'un environnement intérieur à partir de données LiDAR 3D, sans recourir à un GPU. Le principe : projeter le nuage de points 3D en images Bird's-Eye-View (BEV) 2D, puis appliquer un détecteur sur cette représentation compressée. L'équipe a comparé quatre approches de détection de structures (murs, couloirs, portes) : la transformée de Hough, RANSAC, LSD (Line Segment Detector) et un réseau YOLO-OBB (Oriented Bounding Box). Les expériences ont été conduites sur une plateforme robotique mobile standard équipée d'un single-board computer (SBC) à faible consommation. Résultat : YOLO-OBB est la seule méthode à satisfaire la contrainte temps réel de 10 Hz en bout de chaîne, là où RANSAC dépasse les budgets de latence et LSD génère une fragmentation excessive de segments qui sature le système. Un module de fusion spatiotemporelle stabilise les détections entre frames consécutives. L'intérêt opérationnel est direct pour les intégrateurs de robots mobiles autonomes (AMR) fonctionnant sur du matériel embarqué standard, typiquement des SBC ARM sans accélérateur dédié. Démontrer qu'un détecteur basé YOLO-OBB tient 10 Hz sur ce type de plateforme réduit le coût matériel des solutions de cartographie et navigation indoor, un verrou persistant dans le déploiement à grande échelle d'AMR en entrepôt ou en milieu hospitalier. L'approche BEV contourne également la complexité computationnelle des traitements de nuages de points 3D complets (méthodes de type PointNet, VoxelNet), qui restent prohibitifs hors GPU. La mise à disposition du code source et des modèles pré-entraînés facilite la reproductibilité et l'adaptation industrielle. Ce travail s'inscrit dans un courant de recherche actif visant à rendre la perception robotique robuste accessibles aux plateformes contraintes en ressources, en concurrence directe avec des approches comme les architectures 2D range-image ou les méthodes pillars (PointPillars). Sur le plan de la navigation indoor, il complète des stacks SLAM existants (Cartographer, RTAB-Map) en ajoutant une couche de détection structurelle explicite, utile pour la planification de trajectoires en espaces semi-structurés. Les prochaines étapes logiques incluent la validation sur des scénarios plus denses (open space vs couloirs étroits), ainsi que l'intégration dans des boucles de localisation et cartographie continues, où la stabilité temporelle du module de fusion sera mise à l'épreuve à plus grande échelle.

RecherchePaper
1 source