RecherchearXiv cs.RO 3 juin 2026

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a déposé sur arXiv (arXiv:2606.03374, juin 2026) un système de mémoire baptisé eMEM (Embodied Memory), conçu spécifiquement pour les agents incarnés opérant dans des environnements physiques. Contrairement aux architectures existantes comme Generative Agents, MemGPT ou A-MEM, qui stockent la mémoire sous forme de flux textuels ou de graphes de connaissances, eMEM propose une architecture multi-index combinant SQLite pour le stockage structuré, hnswlib pour la recherche sémantique par voisins les plus proches (ANN), et un R-tree pour les requêtes spatiales, le tout unifié derrière un modèle de graphe unique. Un pipeline de consolidation par niveaux transforme les observations perceptuelles brutes en résumés compressés, en s'inspirant explicitement de la consolidation hippocampo-néocorticale observée chez les mammifères. Dix outils de rappel, exposés en natif au LLM, couvrent des primitives comme la résolution concept-vers-localisation ou le rappel inter-couches. Le système tourne entièrement en mémoire vive, en co-processus avec l'agent. Sur eMEM-Bench v1, un benchmark construit sur les scènes ProcTHOR-10K autour de huit paradigmes de psychologie cognitive (leurres DRM, séparation de patterns, complétion de patterns, surveillance de source, récupération dépendante du contexte, interférence à long horizon, position sérielle, courbe de rétention augmentée par des distracteurs), eMEM atteint un score pondéré moyen de 80,8 sur 988 sondes, avec une courbe de rétention plate au plafond de 1 heure à 1 an de délai simulé sur des objets uniques par pièce.

Ce résultat est significatif parce qu'il isole deux problèmes structurels des approches purement RAG : une baseline flat_rag perd 30 points sur la récupération dépendante du contexte et 29 points sur le rejet des leurres DRM, ce qui valide respectivement la contribution du stockage multi-couches et du pipeline de consolidation. Pour les intégrateurs qui déploient des agents dans des environnements industriels ou domestiques complexes, cela met en évidence un angle mort majeur : un robot ou un agent LLM utilisant une récupération sémantique plate ne peut pas distinguer "le tiroir où j'ai vu les pinces hier dans cette pièce" de "les pinces en général". L'indexation spatiale couplée à la consolidation temporelle est ce qui permet à eMEM de maintenir des performances constantes sur de longues fenêtres simulées, là où les systèmes actuels dégradent. Le choix de benchmarker sur des paradigmes issus de la psychologie cognitive humaine est méthodologiquement solide : il rend les résultats comparables à la littérature sur la mémoire biologique, ce que des benchmarks surfaciques comme LoCoMo ou OpenEQA ne permettent pas.

eMEM s'inscrit dans une vague de travaux sur la mémoire à long terme pour agents LLM, portée notamment par Generative Agents (Park et al., 2023) et MemGPT (Packer et al., 2023), qui ont posé les bases mais restent aveugles à la dimension spatiale, critique pour les robots physiques. L'environnement ProcTHOR-10K offre des scènes intérieures procédurales variées, mais les performances en transfert vers des environnements réels restent entièrement à démontrer : le sim-to-real gap s'applique autant aux systèmes de mémoire qu'aux politiques motrices. Le code du système et du benchmark est rendu public, ouvrant la voie à des évaluations indépendantes. Aucun partenariat industriel ni déploiement terrain n'est mentionné : c'est une contribution académique, pas un produit. Les étapes suivantes naturelles seraient de valider eMEM sur des plateformes embarquées à mémoire contrainte et de tester sa robustesse dans des scènes dynamiques où les objets se déplacent entre deux requêtes.

Dans nos dossiers

IA physique & VLA arXiv cs.RO

À lire aussi

1arXiv cs.RO

Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents

Une équipe de recherche a soumis le 30 juin 2026 sur arXiv (arXiv:2606.29774) un cadre de mémoire structurée pour agents de manipulation robotique à long horizon. Baptisé "analytic concept-centric memory", le système organise l'expérience autour de concepts analytiques : chaque objet est représenté par ses parties sémantiques, des gabarits paramétriques, des poses ancrées dans l'espace, ses affordances et ses états de manipulation. Deux couches supplémentaires complètent l'architecture : une mémoire de transitions enregistrant les effets des actions sur l'état de scène, et une mémoire de compétences (skill memory) stockant des politiques réutilisables ancrées dans ces gabarits. À l'exécution, l'agent effectue une récupération coarse-to-fine pour identifier objets pertinents, états courants et compétences applicables. Les auteurs valident leur approche sur des tâches de manipulation dépendantes de la mémoire, la généralisation à des objets articulés (portes, tiroirs) et une évaluation en environnement réel. La gestion de mémoire reste un goulet d'étranglement critique en manipulation longue durée. Les agents actuels, y compris ceux fondés sur des architectures VLA (Vision-Language-Action), peinent à réutiliser les connaissances acquises lors d'interactions passées, forçant une replanification coûteuse à chaque nouvelle tâche. Ce cadre montre que structurer explicitement la mémoire autour de concepts physiques améliore le taux de complétion de tâches, la précision de récupération, la réidentification d'objets et la généralisation de compétences inter-objets, par rapport aux baselines non structurées et aux représentations vectorielles par embeddings. Pour les intégrateurs industriels, c'est un signal que la réutilisabilité des compétences sans réentraînement complet commence à devenir atteignable, ce qui réduit potentiellement les coûts de déploiement dans des environnements variables. La manipulation robotique à long horizon est un chantier actif chez plusieurs acteurs majeurs : Google DeepMind avec ses architectures RT-2 et SayCan, Physical Intelligence et son modèle Pi-0, Boston Dynamics, ainsi que des laboratoires comme Stanford et ETH Zurich. Ce travail s'inscrit dans une lignée cherchant à concilier planification symbolique structurée et politiques neuronales, deux paradigmes longtemps opposés. Ce preprint n'a pas encore été soumis à revue par les pairs, et les benchmarks restent des environnements de laboratoire contrôlés. La démonstration sur une plateforme industrielle réelle, avec la diversité des objets, le bruit sensoriel et les contraintes temps réel, reste à établir. Les prochaines étapes naturelles incluent l'intégration avec des VLA à grande échelle et l'évaluation sur des manipulateurs ou humanoïdes en contexte de production semi-réelle.

RechercheOpinion

1 source

2arXiv cs.RO

EmbodiedGen V2 : un moteur de monde 3D à base d'agents, prêt pour la simulation, pour l'IA incarnée

Une équipe de recherche a publié EmbodiedGen V2 sur arXiv (2607.07459v1), un moteur génératif de mondes 3D destiné à produire des environnements de simulation directement exploitables pour l'entraînement de robots. Le problème visé est concret : générer des assets 3D "sim-ready" est devenu rapide, mais les assembler en environnements de tâches réellement utilisables pour l'apprentissage reste largement manuel, ce qui limite le passage à l'échelle de l'apprentissage en boucle fermée. EmbodiedGen V2 propose une représentation unifiée qui relie assets compatibles multi-simulateurs, affordances d'interaction, mondes orientés tâches, scènes multi-pièces à grande échelle, et un système de "Vibe Coding" avec état, le tout dans un pipeline génératif, éditable et réutilisable. Les environnements produits couvrent la manipulation, la navigation, la manipulation mobile, le déploiement cross-simulateur et l'entraînement de politiques robotiques. Sur le plan chiffré, le pipeline de génération d'assets atteint 96,5% d'acceptation humaine et 98,6% de réussite de détection de collisions, et 83,3% des mondes orientés tâches sont directement utilisables en simulation sans retouche manuelle. L'intérêt principal tient aux résultats de transfert obtenus grâce à ces environnements générés. Un entraînement par renforcement en ligne fait passer le taux de succès en simulation de 9,7% à 79,8%, et ces gains se transfèrent à des robots réels avec un taux de succès en tâche réelle passant de 21,7% à 75,0%. Pour un secteur où l'écart entre démonstration simulée et comportement réel reste un obstacle majeur à la commercialisation de robots humanoïdes ou mobiles pilotés par des politiques apprises, ce type de résultat constitue un argument concret en faveur de la génération procédurale de mondes comme infrastructure d'entraînement, plutôt qu'une simple preuve de concept de génération d'assets visuels. Le travail s'inscrit dans la lignée des efforts récents de génération de scènes 3D et d'assets simulables pour l'IA incarnée, où la difficulté ne portait plus tant sur la qualité visuelle des objets générés que sur leur intégration fonctionnelle dans des tâches robotiques complètes et transférables entre simulateurs. Le papier ne mentionne pas de partenariat industriel ni de déploiement sur robot commercial identifié, et se positionne comme une contribution d'infrastructure de recherche, dont l'adoption dépendra de sa reproductibilité et de son intégration par d'autres laboratoires travaillant sur l'apprentissage par renforcement pour la robotique.

RechercheActu

1 source

3arXiv cs.RO

ARIS : un système d'intelligence relationnelle à base d'agents pour les robots sociaux

Des chercheurs ont publié sur arXiv (arXiv:2605.00943) ARIS, un cadre IA agentique conçu pour doter les robots sociaux d'une mémoire relationnelle persistante et d'un raisonnement contextuel multi-tours. L'architecture combine trois composants : un raisonnement multimodal (vision, parole, action physique), un Social World Model structuré en graphe de connaissances qui cartographie les relations entre utilisateurs, et un pipeline de génération augmentée par récupération (RAG) garantissant une latence bornée même lorsque l'historique de dialogue atteint plusieurs milliers d'échanges. Le système a été évalué sur un robot Pepper de SoftBank Robotics dans un cadre de conversation dyadique. Une étude utilisateur portant sur 23 participants montre qu'ARIS obtient des scores significativement supérieurs à une baseline LLM classique sur quatre dimensions : intelligence perçue, animacité, anthropomorphisme et sympathie. L'apport principal réside dans l'architecture de persistance sociale : les systèmes actuels traitent chaque interaction comme stateless, sans mémoire des rencontres précédentes ni modélisation des liens entre individus. ARIS rompt avec ce paradigme via un graphe de connaissances capable de réidentifier les utilisateurs d'une session à l'autre et de raisonner sur leurs relations mutuelles, une propriété directement utile dans des contextes d'accueil, d'assistance en entreprise ou d'accompagnement médical. Le pipeline RAG résout par ailleurs un problème pratique souvent ignoré : maintenir des réponses pertinentes sans dégradation de latence lorsque l'historique s'allonge, une contrainte critique pour un déploiement réel. Les résultats d'une étude à N=23 restent modestes en termes de puissance statistique, et aucune métrique de latence absolue n'est communiquée dans l'abstract. Le travail s'inscrit dans la vague d'application des grands modèles de fondation à la robotique sociale, dans la lignée de PaLM-E (Google, 2023) et des architectures Vision-Language-Action (VLA) de Physical Intelligence. Sur le marché des robots sociaux, les acteurs clés restent SoftBank Robotics (Pepper, NAO), Furhat Robotics et, côté français, Enchanted Tools avec son robot Miroki. ARIS sera publié en open source à la parution de l'article, ce qui pourrait accélérer l'adoption par des intégrateurs cherchant une couche de mémoire sociale au-dessus de modèles LLM existants. La prochaine étape est une validation en environnement réel.

UELe framework ARIS, promis en open source à la parution, offre une couche de mémoire sociale réutilisable que des intégrateurs européens, notamment Enchanted Tools (Miroki) pour l'accueil et l'assistance, pourraient exploiter directement au-dessus de leurs modèles LLM existants.

RecherchePaper

1 source

4arXiv cs.RO

TypeGo : un runtime système pour agents incarnés

TypeGo est un nouveau runtime de type "système d'exploitation" pour agents incarnés, présenté dans un article arXiv (2607.05482v1) publié le 8 juillet 2026. Le prototype a été testé sur Kalos, un quadrupède Unitree Go2, et structure la planification par LLM en boucles asynchrones à plusieurs échelles de temps qui se chevauchent avec l'exécution physique du robot. Son composant central, le Skill Kernel, arbitre des sous-systèmes physiques typés entre plusieurs processus concurrents par tâche, tandis qu'un ordonnanceur peut préempter, reprendre ou remplacer ces processus selon leur source. Le système utilise aussi un mécanisme de "streaming" spéculatif de compétences qui masque la latence du LLM derrière le mouvement en cours, plus un chemin rapide pour la première action garantissant un retour visible en moins d'une seconde. Résultat mesuré sur la suite de tâches des chercheurs: le délai par étape chute de 50% par rapport à une planification pas-à-pas classique, et le délai avant première action baisse de 73% par rapport à une planification monolithique, avec une faible surcharge d'ordonnancement même en cas de tâches concurrentes. L'enjeu dépasse la simple optimisation de latence: TypeGo attaque un problème structurel largement ignoré par les démonstrations actuelles de robots pilotés par LLM, à savoir que traiter un modèle de langage comme un oracle requête/réponse sur le chemin critique de contrôle est incompatible avec le temps réel et la gestion de tâches concurrentes. En empruntant les principes d'un OS classique (gestion de ressources matérielles, préemption, ordonnancement) pour orchestrer un corps robotique, les auteurs proposent une réponse concrète à l'écart persistant entre les capacités de planification des VLA en démonstration et leur fiabilité en exécution réelle, sujet central pour tout intégrateur ou décideur évaluant le déploiement de robots pilotés par IA générative. Ce travail s'inscrit dans la lignée des architectures combinant LLM et contrôle robotique bas niveau, où la latence des modèles de langage reste un goulot d'étranglement majeur face aux exigences de réactivité physique. Il s'agit à ce stade d'un prototype de recherche académique, validé sur une suite de tâches restreinte avec un seul robot quadrupède, et non d'un produit commercialisé ou déployé en flotte. Les auteurs ne précisent pas de calendrier de transfert vers l'industrie, mais posent les bases conceptuelles d'un runtime générique que d'autres plateformes robotiques pourraient reprendre.

RecherchePaper

1 source