RechercheInteresting Engineering3h

La puce 6 mW du MIT permet aux mini-drones de voir et cartographier leur environnement en temps réel

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs du MIT ont présenté à l'IEEE VLSI Symposium un système-sur-puce baptisé Gleanmer, capable de construire des cartes 3D détaillées de l'environnement en temps réel avec une consommation d'environ 6 milliwatts. La puce cible les plateformes à très faible autonomie énergétique : micro-drones, robots embarqués, et potentiellement casques de réalité augmentée légers. Ses applications directes incluent la navigation en milieux confinés, systèmes de ventilation industriels, entrepôts, tunnels, où l'évitement d'obstacles est critique et où embarquer un GPU classique est hors de question. L'équipe, conduite par Vivienne Sze (professeure de génie électrique et informatique au MIT) et les co-premiers auteurs Peter Zhi Xuan Li et Zih-Sing Fu, a couplé le silicium à un algorithme de cartographie maison nommé GMMap. Plutôt que de recourir aux représentations voxel classiques (des millions de petits cubes), GMMap modélise l'espace avec des ellipsoïdes gaussiens flexibles qui encodent les surfaces courbes et les espaces ouverts en consommant nettement moins de mémoire. L'algorithme traite chaque image de profondeur en un seul passage et peut fusionner les gaussiennes redondantes, celles générées quand le robot observe le même objet sous plusieurs angles, sans avoir à relire les données brutes. Résultat : seuls quelques pixels doivent résider en mémoire à tout instant, et la majeure partie des données actives tient dans la SRAM on-chip rapide, évitant les accès coûteux à une mémoire externe.

Ce niveau de frugalité est significatif pour le secteur. Gleanmer consomme environ 2,5 % de l'énergie exigée par la meilleure puce de cartographie existante selon les benchmarks publiés par l'équipe, et réduit la consommation de la planification de trajectoire sans collision à environ 20 % de la référence habituelle. Pour les intégrateurs qui travaillent sur des plateformes à budget énergétique serré (nano-drones de 50 g, robots d'inspection en tube, wearables industriels), la différence entre 250 mW et 6 mW n'est pas marginale : elle conditionne la durée de mission et le dimensionnement de la batterie. La puce a également démontré sa capacité à reconstruire des obstacles et espaces libres en direct à partir du flux vidéo d'une caméra iPhone, ce qui ouvre une voie vers des prototypes rapides sans matériel dédié.

Le MIT n'est pas seul sur ce terrain. Intel Labs, Qualcomm et plusieurs startups spécialisées en edge AI (Syntiant, Perceive) travaillent à réduire l'empreinte des pipelines de perception embarquée. Mais l'angle co-design algorithme-hardware du groupe de Vivienne Sze, déjà connu pour des travaux similaires sur les accélérateurs de réseaux de neurones, distingue Gleanmer d'une approche purement matérielle. Les chercheurs envisagent de rapprocher davantage les ressources de calcul des capteurs pour gagner encore en efficacité lors des prochaines itérations, et explorent si les représentations gaussiennes pourraient aussi accélérer le traitement de plans techniques et de schémas complexes, au-delà du seul domaine robotique. Aucun calendrier de commercialisation ni partenaire industriel n'ont été annoncés à ce stade.

À lire aussi

1arXiv cs.RO

Capteur cutané conforme pour la cartographie en temps réel de la forme

Des chercheurs ont présenté sur arXiv (preprint 2605.01170, mai 2025) un capteur souple et conforme capable de reconstruire en temps réel la déformation tridimensionnelle d'une surface flexible, sans recourir à la vision. Le dispositif intègre un réseau 2D de jauges de contrainte imprimées à base d'indium-gallium eutectique oxydé (o-EGaIn), emboîtées en miroir dans un film élastomère. Un réseau de 5x5 capteurs espacés de 12 mm mesure les contraintes hors axe neutre, et un modèle d'observation informé par la mécanique des matériaux, couplé à une routine d'optimisation rapide, estime simultanément la courbure locale, l'élongation, le décalage et l'orientation. Le système atteint une erreur moyenne de reconstruction de surface de 0,62 mm avec une latence de 100 ms, testée sur des scénarios combinant étirement, flexion et indentation. Les démonstrations incluent le suivi de gestes de la paume, l'indentation par un doigt, et la déformation d'un ballon sous contact. Ce résultat est notable parce qu'il adresse une limitation structurelle des approches visuelles existantes : la nécessité d'une ligne de visée et d'une instrumentation complexe, incompatibles avec les environnements occultés ou à espace contraint, notamment la chirurgie mini-invasive, les prothèses ou les doigts de préhension robotique. La précision sub-millimétrique à 10 Hz ouvre un espace d'utilisation pour le suivi épidermique du mouvement, l'interaction haptique à retour de forme, et la surveillance peropératoire en temps réel, sans nécessiter de marqueurs externes ni de caméras. Il s'agit cependant d'un preprint académique : aucun produit n'est annoncé ni commercialisé. Les capteurs à base d'EGaIn liquide-métal sont étudiés depuis une décennie pour leur déformabilité et leur conductivité, mais la reconstruction 3D continue à partir de mesures de contraintes distribuées reste un problème ouvert. Les approches concurrentes incluent les capteurs à fibre optique (FBG), plus précis mais rigides et coûteux, et les peaux tactiles matricielles à base de matériaux piézorésistifs ou capacitifs. Ce travail se distingue par la combinaison d'une fabrication par impression, d'un modèle mécanique intégré et d'une latence compatible avec le contrôle en boucle fermée. Les prochaines étapes naturelles sont l'intégration sur un effecteur robotique souple ou un instrument chirurgical, et la tenue à l'autoclave pour la stérilisation.

RecherchePaper

1 source

2MIT News Robotics

Une nouvelle puce pourrait aider les petits robots à traverser des environnements complexes

Des chercheurs du MIT ont conçu un système-sur-puce baptisé Gleanmer, capable de générer des cartes 3D en temps réel à partir d'un flux de caméra de profondeur, avec une consommation d'environ 6 milliwatts, soit l'équivalent d'une LED. Cette performance s'obtient grâce à une co-conception algorithme-matériel : l'équipe, menée par la professeure Vivienne Sze (EECS/RLE) et le professeur Sertac Karaman (aéronautique, directeur du LIDS), a couplé leur algorithme de cartographie GMMap à un accélérateur matériel dédié. Les co-premiers auteurs Zih-Sing Fu et Peter Zhi Xuan Li ont présenté ces travaux à l'IEEE Very Large-Scale Integrated Circuits Symposium. L'application cible annoncée : de petits UAVs à batterie limitée, comme ceux qui pourraient inspecter des conduits HVAC industriels pour détecter des fuites de gaz en naviguant dans des espaces confinés avec évitement d'obstacles. La différence technique réside dans la représentation géométrique. Là où les approches classiques modélisent l'espace en voxels, des cubes 3D qui demandent de charger et retraiter chaque image de profondeur plusieurs fois, Gleanmer utilise des gaussiennes, des ellipsoïdes dont la taille, la forme et l'orientation s'adaptent librement à la géométrie des objets. Un seul ellipsoïde allongé peut remplacer des dizaines de voxels pour représenter une surface courbe, ce qui réduit drastiquement l'empreinte mémoire. L'innovation clé est une technique de génération de gaussiennes en un seul passage sur l'image de profondeur : une fois traitée, l'image est effacée et n'a pas besoin d'être stockée. Résultat : des cartes denses incluant obstacles et espace libre, suffisantes pour planifier un chemin sans collision, générées sans le GPU ni la mémoire vive que requièrent habituellement les pipelines de cartographie dense. Pour un intégrateur robotique, cela signifie qu'il devient envisageable d'embarquer de la navigation autonome sur des plateformes où la contrainte énergétique était jusqu'ici rédhibitoire. Ce travail s'inscrit dans un effort plus large de miniaturisation des capacités de cartographie et de localisation simultanées (SLAM). Les systèmes embarqués actuels capables de cartographie 3D dense en temps réel, qu'il s'agisse de solutions comme Intel RealSense couplées à des SBC, ou des implémentations GPU embarquées type Nvidia Jetson, consomment plusieurs watts à quelques dizaines de watts, plusieurs ordres de grandeur au-dessus des 6 mW de Gleanmer. Les auteurs mentionnent aussi un second débouché : les casques de réalité augmentée légers, pour des applications médicales ou de maintenance industrielle, où l'autonomie de la batterie conditionne l'usage prolongé. Le composant n'est pour l'instant qu'un prototype de recherche présenté en symposium ; aucun partenariat industriel ni calendrier de productisation n'a été annoncé. Les prochaines étapes naturelles seraient une validation sur plateforme réelle en vol, et une intégration dans une chaîne SLAM complète incluant localisation, pas seulement cartographie.

RecherchePaper

1 source

3arXiv cs.RO

OREN : réseau résiduel octree pour la cartographie en distance euclidienne signée en temps réel

Des chercheurs ont publié sur arXiv (réf. 2510.18999, version 2) OREN, pour Octree Residual Network, une méthode de reconstruction de fonctions de distance signée euclidienne (ESDF) en temps réel à partir de nuages de points 3D. L'architecture est hybride : une structure octree assure l'interpolation spatiale explicite, tandis qu'un réseau de neurones calcule le résidu implicite. L'objectif annoncé est un ESDF complet (non tronqué), différentiable, avec une empreinte mémoire et computationnelle comparable aux méthodes volumétriques discrètes classiques, et une précision proche des approches entièrement neurales. Des expériences extensives sur des jeux de données de référence sont citées à l'appui de ces affirmations. La carte de distance signée est une primitive fondamentale de l'autonomie robotique : elle conditionne la planification de trajectoire, le contrôle d'évitement de collision et le SLAM. Les méthodes en production restent majoritairement des TSDF (Truncated Signed Distance Field, comme VoxBlox) rapides et scalables mais tronqués à une bande de surface étroite et non différentiables ; les méthodes neurales pures (iSDF de Meta, approches NeRF-based) sont continues et précises mais souffrent d'oubli catastrophique dans les grands environnements et restent trop coûteuses pour l'embarqué temps-réel. Si les performances annoncées de OREN résistent à une validation indépendante, l'approche pourrait concrètement débloquer l'ESDF temps-réel pour des robots mobiles et manipulateurs opérant à grande échelle en environnements dynamiques, sans les compromis habituels. OREN s'inscrit dans une vague de méthodes hybrides cherchant à réconcilier efficacité des structures discrètes et expressivité neurale, aux côtés de travaux comme SHINE-Mapping ou NGLOD. Les représentations volumétriques comme OctoMap et OpenVDB dominent encore les déploiements industriels réels. Meta avait positionné iSDF en 2022 comme alternative neurale scalable ; depuis, plusieurs équipes de recherche travaillent à réduire les coûts d'inférence pour franchir le seuil du temps-réel embarqué. L'article est un preprint arXiv (v2, soumis en octobre 2025), sans peer-review finalisé et sans affiliation industrielle identifiée dans le résumé. Les prochaines étapes attendues incluent une évaluation sur des benchmarks standardisés tels que ScanNet ou SemanticKITTI, et une intégration dans des pipelines SLAM open-source pour confirmer les gains annoncés en conditions réelles.

RecherchePaper

1 source

4arXiv cs.RO

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

Des chercheurs ont publié en mai 2026 (arXiv:2605.17661) Mono-Hydra++, un pipeline temps réel capable de construire des graphes de scène 3D hiérarchiques d'intérieurs en n'utilisant qu'une caméra RGB monoculaire et une IMU, sans capteur de profondeur actif. Le coeur du système repose sur M2H-MX, un modèle multi-tâches fondé sur DINOv3 qui estime simultanément la profondeur et la sémantique des images. Ces estimations alimentent un front-end d'odométrie visuelle-inertielle (VIO) enrichi de contraintes de profondeur prédites creuses, d'un masquage sémantique des zones dynamiques et d'un alignement temporel tenant compte de la pose, avant fusion volumétrique dans le backend Mono-Hydra. Sur le sous-ensemble d'évaluation Go-SLAM/ScanNet, le système affiche 1,6 % d'erreur de trajectoire en moins que le meilleur baseline RGB-D testé ; sur le benchmark calibré 7-Scenes, il réduit l'ATE moyen de 29,8 % par rapport au meilleur concurrent calibré. Le modèle de perception M2H-MX-L, exporté en ONNX/TensorRT FP16, tourne à 25,53 FPS sur un Jetson Orin NX 16 Go, et le pipeline a été validé dans un déploiement réel dans un bâtiment ITC avec une caméra RealSense RGB + IMU. L'impact industriel est direct pour les plateformes à contraintes sévères : drones d'inspection, robots humanoïdes légers et AMR embarquant peu de puissance. Jusqu'ici, la construction de graphes de scène 3D, qui organisent l'espace en objets, pièces et relations spatiales, nécessitait des capteurs actifs (RGB-D ou LiDAR) impraticables dès que le payload ou la consommation électrique sont limités. Mono-Hydra++ démontre qu'il est possible d'atteindre, voire de dépasser, la précision de ces baselines lourds avec une seule caméra et une IMU bas coût. Pour un intégrateur ou un COO industriel, cela signifie une réduction substantielle du coût matériel embarqué et l'ouverture de cas d'usage où le RGB-D n'est pas envisageable. Il convient toutefois de noter que les résultats sont issus de benchmarks académiques standardisés : la robustesse sur des scènes industrielles non contrôlées, avec éclairages difficiles ou textures répétitives, reste à confirmer dans des conditions opérationnelles réelles. Mono-Hydra++ s'inscrit dans la lignée du système Hydra du MIT, qui a posé les bases de la représentation hiérarchique en graphe de scène pour la robotique. L'utilisation de DINOv3 comme backbone de vision fondationnelle est cohérente avec la tendance forte à extraire simultanément géométrie et sémantique depuis des modèles pré-entraînés à grande échelle. Sur ce terrain, les concurrents directs incluent les systèmes basés sur RGB-D comme Go-SLAM, iMAP ou NICE-SLAM, ainsi que des approches VIO-sémantiques récentes, mais peu proposent la combinaison complète cartographie métrique, sémantique et graphe de scène en temps réel sur matériel embarqué contraint. En tant que preprint arXiv non encore évalué par les pairs, les prochaines étapes attendues sont la publication en conférence (IROS, ICRA), des tests sur plateformes aériennes effectives et une éventuelle intégration dans des stacks robotiques open-source comme ROS 2.

UELes constructeurs européens d'AMR légers et de drones d'inspection pourraient à terme réduire leurs coûts matériels embarqués en remplaçant les capteurs RGB-D par une caméra monoculaire, sous réserve de validation dans des conditions industrielles non contrôlées.

RecherchePaper

1 source