Mémoire spatio-sémantique dynamique et résiliente avec localisation hybride pour la manipulation mobile
Une équipe de recherche a publié sur arXiv (réf. 2606.00576) DREAM, un framework de manipulation mobile robotique pour environnements intérieurs dynamiques, fonctionnant sans carte pré-construite. Le système construit en temps réel une mémoire voxel spatio-sémantique à partir d'observations RGB-D enregistrées par un backend SLAM hybride LiDAR-inertiel-visuel. Pour retrouver des objets cibles, DREAM combine retrieval 3D conditionné par le langage naturel, détection à vocabulaire ouvert, et vérification sémantique par un grand modèle de langage multimodal (MLLM). Sa contribution technique centrale est le RMP (Redundancy-Aware Memory Pruning), un mécanisme d'élagage conscient du pose-graph qui propage les corrections de pose aux observations historiques tout en maintenant l'empreinte mémoire bornée. Testé sur robot réel dans quatre scènes de laboratoire dynamiques, DREAM améliore les taux de succès sur tâches longue durée : de 40-60% avec le système de référence DynaMem à 55-70%, avec une empreinte mémoire de 0,37 à 0,63 Go et un temps de mise à jour de 0,43 à 0,53 seconde par scène.
Ce résultat adresse un blocage fondamental de la manipulation mobile en conditions réelles : les systèmes existants supposent un environnement statique, des estimations de pose précises ou une carte pré-construite, trois hypothèses qui s'effondrent dès qu'un objet est déplacé ou qu'une correction de trajectoire intervient. DREAM répond à ce demo-to-real gap en propageant dynamiquement les corrections de pose à toute la mémoire historique, et en s'appuyant sur un MLLM pour la vérification sémantique plutôt qu'une simple correspondance géométrique. Nuance nécessaire toutefois : un taux de succès de 55-70% signifie encore 30-45% d'échecs en conditions de laboratoire contrôlées, et les tâches exactes testées ne sont pas détaillées dans l'abstract disponible, ce qui rend toute extrapolation à des environnements industriels ou domestiques réels prématurée.
DynaMem constitue la référence directe de comparaison. La manipulation mobile autonome en milieu non-structuré est un axe actif chez plusieurs acteurs commerciaux : Figure avec son robot Figure 03, Physical Intelligence avec pi-zero et pi0.5, Boston Dynamics ou encore Agility Robotics. L'approche de DREAM, combinant SLAM dense, mémoire sémantique interrogeable en langage et vérification par LLM, s'inscrit dans la tendance VLA (Vision-Language-Action) qui cherche à combler le sim-to-real gap non par l'entraînement massif mais par une représentation du monde plus dynamique et cohérente. Aucune institution ni partenariat industriel n'est mentionné dans le résumé disponible, classant ce travail pour l'instant comme recherche académique pré-publication, sans timeline de déploiement annoncée.




