RAVEN : raisonnement à long horizon et navigation avec une mémoire visuo-spatio-temporelle
Des chercheurs ont publié RAVEN (arXiv:2606.25206), un système de mémoire agentique conçu pour les robots devant opérer sur de longues durées sans réinitialisation. Le système stocke des embeddings visuels enrichis de données de pose et d'horodatage dans une base vectorielle, puis ancre la récupération dans une carte spatiale pour répondre à des requêtes ou naviguer vers des objectifs exprimés en langage naturel. Contrairement aux approches classiques qui convertissent les images en descriptions textuelles, RAVEN opère directement sur les représentations visuelles brutes, évitant la perte d'information sémantique inhérente à cette étape de transcription. Le système a été évalué sur plusieurs benchmarks de question-réponse vidéo en simulation et en environnement réel, puis déployé physiquement sur un robot quadrupède Unitree Go1 pour des tâches de navigation longue portée dans de grands espaces intérieurs.
Les résultats publiés indiquent que RAVEN surpasse systématiquement les mémoires à base de captioning sur les benchmarks long-horizon, tout en égalant les VLM de pointe à un coût de récupération dix fois inférieur. Ce ratio coût-performance est directement pertinent pour les intégrateurs : maintenir une mémoire épisodique précise sur des heures ou des jours de déploiement est l'un des verrous principaux vers l'autonomie prolongée. La capacité à répondre à des questions sémantiques et spatiales depuis une mémoire compacte ouvre la voie à des robots de service, de logistique ou d'inspection capables de missions multi-sessions, sans réinitialisation entre chaque passage. Il faut cependant noter que les benchmarks et environnements de test restent contrôlés : le fossé entre performance en labo et déploiement industriel à grande échelle n'est pas encore comblé.
La mémoire à long terme est un défi structurel de la robotique autonome depuis l'essor des approches LLM+captioning popularisées entre 2022 et 2024 (SayPlan, CLIP-Nav et leurs dérivés), lesquelles sacrifient la précision visuelle au profit de la flexibilité textuelle. RAVEN s'inscrit dans une tendance croissante de mémoires vectorielles embarquées, proche des architectures RAG transposées au robotique, en compétition conceptuelle avec des systèmes comme SpatialVLM ou MemoryOS. Le Unitree Go1, quadrupède commercialisé autour de 9 000 dollars, sert ici de plateforme de validation accessible, ce qui renforce la reproductibilité potentielle. Aucun partenariat industriel ni calendrier de productisation n'est annoncé : RAVEN demeure une contribution de recherche dont l'impact concret dépendra de la qualité du code publié et de son éventuelle intégration dans des frameworks ouverts comme ROS2.
Dans nos dossiers




