
Robo-Cortex : un agent à base d'IA incarnée auto-évolutif grâce à la mémoire cognitive à double granularité et l'induction autonome de connaissances
Publié mi-mai 2026 sur arXiv (2605.18729), Robo-Cortex est un framework d'agent incarné à auto-évolution conçu pour la navigation robotique en environnements inconnus. L'architecture combine trois briques : un mécanisme d'Induction Autonome de Connaissances (AKI) distillant trajectoires et expériences en heuristiques formulées en langage naturel ; une Mémoire Cognitive à Double Grain, avec mémoire réflexive à court terme (SRM) pour l'analyse locale en temps réel et mémoire de principes à long terme (LPM) pour les règles réutilisables ; et une boucle "Imaginer-puis-Vérifier" où un modèle du monde simule les résultats potentiels avant qu'un évaluateur VLM valide chaque plan d'action. Sur les benchmarks IGNav, AR et AEQA, le système surpasse les meilleures méthodes existantes de +4,16% de SPL (Success weighted by Path Length) et de +15,30% de SPL en scénario de transfert de heuristiques vers des environnements totalement inédits.
L'enjeu central adressé est l'"amnésie expérientielle" : les agents actuels, pilotés par imitation-learning ou politiques réactives, échouent à capitaliser sur leurs interactions passées pour construire des stratégies généralisables. La mémoire LPM/SRM de Robo-Cortex n'est pas un replay-buffer de données brutes mais une base de connaissances symboliques et linguistiques : un robot déployé dans un nouvel entrepôt pourrait potentiellement améliorer ses performances de navigation de façon autonome, sans nouveau cycle d'annotation ni fine-tuning, en rupture avec les pipelines sim-to-real classiques. Des expériences préliminaires en environnement physique réel sont mentionnées, mais restent peu détaillées dans la publication.
Ce travail s'inscrit dans la concurrence directe avec les approches VLA comme Pi-0 de Physical Intelligence ou les architectures à mémoire développées chez DeepMind et Carnegie Mellon, avec une distinction clé : l'accent mis sur la réflexion post-hoc et l'induction de règles symboliques plutôt que sur l'apprentissage end-to-end. La publication reste un preprint non revu par les pairs, et les performances annoncées sont à reproduire indépendamment avant toute conclusion industrielle. Les prochaines étapes naturelles seraient une validation sur des benchmarks physiques standardisés comme RoboCasa ou Open-X Embodiment, et une soumission à une conférence majeure de type ICRA ou CoRL.
Dans nos dossiers




