Aller au contenu principal
eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée
RecherchearXiv cs.RO2h

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a déposé sur arXiv (arXiv:2606.03374, juin 2026) un système de mémoire baptisé eMEM (Embodied Memory), conçu spécifiquement pour les agents incarnés opérant dans des environnements physiques. Contrairement aux architectures existantes comme Generative Agents, MemGPT ou A-MEM, qui stockent la mémoire sous forme de flux textuels ou de graphes de connaissances, eMEM propose une architecture multi-index combinant SQLite pour le stockage structuré, hnswlib pour la recherche sémantique par voisins les plus proches (ANN), et un R-tree pour les requêtes spatiales, le tout unifié derrière un modèle de graphe unique. Un pipeline de consolidation par niveaux transforme les observations perceptuelles brutes en résumés compressés, en s'inspirant explicitement de la consolidation hippocampo-néocorticale observée chez les mammifères. Dix outils de rappel, exposés en natif au LLM, couvrent des primitives comme la résolution concept-vers-localisation ou le rappel inter-couches. Le système tourne entièrement en mémoire vive, en co-processus avec l'agent. Sur eMEM-Bench v1, un benchmark construit sur les scènes ProcTHOR-10K autour de huit paradigmes de psychologie cognitive (leurres DRM, séparation de patterns, complétion de patterns, surveillance de source, récupération dépendante du contexte, interférence à long horizon, position sérielle, courbe de rétention augmentée par des distracteurs), eMEM atteint un score pondéré moyen de 80,8 sur 988 sondes, avec une courbe de rétention plate au plafond de 1 heure à 1 an de délai simulé sur des objets uniques par pièce.

Ce résultat est significatif parce qu'il isole deux problèmes structurels des approches purement RAG : une baseline flat_rag perd 30 points sur la récupération dépendante du contexte et 29 points sur le rejet des leurres DRM, ce qui valide respectivement la contribution du stockage multi-couches et du pipeline de consolidation. Pour les intégrateurs qui déploient des agents dans des environnements industriels ou domestiques complexes, cela met en évidence un angle mort majeur : un robot ou un agent LLM utilisant une récupération sémantique plate ne peut pas distinguer "le tiroir où j'ai vu les pinces hier dans cette pièce" de "les pinces en général". L'indexation spatiale couplée à la consolidation temporelle est ce qui permet à eMEM de maintenir des performances constantes sur de longues fenêtres simulées, là où les systèmes actuels dégradent. Le choix de benchmarker sur des paradigmes issus de la psychologie cognitive humaine est méthodologiquement solide : il rend les résultats comparables à la littérature sur la mémoire biologique, ce que des benchmarks surfaciques comme LoCoMo ou OpenEQA ne permettent pas.

eMEM s'inscrit dans une vague de travaux sur la mémoire à long terme pour agents LLM, portée notamment par Generative Agents (Park et al., 2023) et MemGPT (Packer et al., 2023), qui ont posé les bases mais restent aveugles à la dimension spatiale, critique pour les robots physiques. L'environnement ProcTHOR-10K offre des scènes intérieures procédurales variées, mais les performances en transfert vers des environnements réels restent entièrement à démontrer : le sim-to-real gap s'applique autant aux systèmes de mémoire qu'aux politiques motrices. Le code du système et du benchmark est rendu public, ouvrant la voie à des évaluations indépendantes. Aucun partenariat industriel ni déploiement terrain n'est mentionné : c'est une contribution académique, pas un produit. Les étapes suivantes naturelles seraient de valider eMEM sur des plateformes embarquées à mémoire contrainte et de tester sa robustesse dans des scènes dynamiques où les objets se déplacent entre deux requêtes.

À lire aussi

ARIS : un système d'intelligence relationnelle à base d'agents pour les robots sociaux
1arXiv cs.RO 

ARIS : un système d'intelligence relationnelle à base d'agents pour les robots sociaux

Des chercheurs ont publié sur arXiv (arXiv:2605.00943) ARIS, un cadre IA agentique conçu pour doter les robots sociaux d'une mémoire relationnelle persistante et d'un raisonnement contextuel multi-tours. L'architecture combine trois composants : un raisonnement multimodal (vision, parole, action physique), un Social World Model structuré en graphe de connaissances qui cartographie les relations entre utilisateurs, et un pipeline de génération augmentée par récupération (RAG) garantissant une latence bornée même lorsque l'historique de dialogue atteint plusieurs milliers d'échanges. Le système a été évalué sur un robot Pepper de SoftBank Robotics dans un cadre de conversation dyadique. Une étude utilisateur portant sur 23 participants montre qu'ARIS obtient des scores significativement supérieurs à une baseline LLM classique sur quatre dimensions : intelligence perçue, animacité, anthropomorphisme et sympathie. L'apport principal réside dans l'architecture de persistance sociale : les systèmes actuels traitent chaque interaction comme stateless, sans mémoire des rencontres précédentes ni modélisation des liens entre individus. ARIS rompt avec ce paradigme via un graphe de connaissances capable de réidentifier les utilisateurs d'une session à l'autre et de raisonner sur leurs relations mutuelles, une propriété directement utile dans des contextes d'accueil, d'assistance en entreprise ou d'accompagnement médical. Le pipeline RAG résout par ailleurs un problème pratique souvent ignoré : maintenir des réponses pertinentes sans dégradation de latence lorsque l'historique s'allonge, une contrainte critique pour un déploiement réel. Les résultats d'une étude à N=23 restent modestes en termes de puissance statistique, et aucune métrique de latence absolue n'est communiquée dans l'abstract. Le travail s'inscrit dans la vague d'application des grands modèles de fondation à la robotique sociale, dans la lignée de PaLM-E (Google, 2023) et des architectures Vision-Language-Action (VLA) de Physical Intelligence. Sur le marché des robots sociaux, les acteurs clés restent SoftBank Robotics (Pepper, NAO), Furhat Robotics et, côté français, Enchanted Tools avec son robot Miroki. ARIS sera publié en open source à la parution de l'article, ce qui pourrait accélérer l'adoption par des intégrateurs cherchant une couche de mémoire sociale au-dessus de modèles LLM existants. La prochaine étape est une validation en environnement réel.

UELe framework ARIS, promis en open source à la parution, offre une couche de mémoire sociale réutilisable que des intégrateurs européens, notamment Enchanted Tools (Miroki) pour l'accueil et l'assistance, pourraient exploiter directement au-dessus de leurs modèles LLM existants.

RecherchePaper
1 source
IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions
2arXiv cs.RO 

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17810) un travail portant sur la question-réponse incarnée multi-agents (MA-EQA), un paradigme où plusieurs robots coopèrent pour répondre à des requêtes sur ce qu'ils ont collectivement observé sur un horizon temporel long. Le problème central est l'allocation de puissance de transmission entre agents : quand les ressources radio sont limitées, quels robots doivent avoir la priorité pour transmettre leurs souvenirs ? Les auteurs proposent deux contributions : un modèle de qualité de mémoire (QoM) basé sur un examen génératif adversarial (GAE), et un algorithme d'allocation de puissance centré sur la mémoire (MCPA). Le GAE fonctionne par simulation prospective : il génère des questions-tests, évalue la capacité de chaque agent à y répondre correctement à partir de sa mémoire locale, puis convertit les scores obtenus en valeurs QoM. Le MCPA maximise ensuite la fonction QoM globale sous contraintes de ressources de communication. L'analyse asymptotique montre que la puissance allouée à chaque robot est proportionnelle à sa probabilité d'erreur GAE, ce qui revient à prioriser les agents dont la mémoire est la plus riche et la plus fiable. L'intérêt concret pour les architectes de systèmes multi-robots est de déplacer le critère d'optimisation réseau des métriques classiques (débit, latence, taux d'erreur paquet) vers une métrique applicative directement liée à la tâche cognitive. Dans les déploiements d'inspection industrielle, de surveillance ou d'exploration, les robots ne transmettent pas pour transmettre : ils transmettent pour que le système réponde correctement à des requêtes. Traiter la qualité de mémoire comme une ressource à optimiser, au même titre que la bande passante, est une rupture de cadre qui pourrait influencer la conception des protocoles MAC dans les flottes d'agents embarqués. Les expériences montrent des gains significatifs sur plusieurs benchmarks et scénarios, bien que les conditions exactes de déploiement (nombre d'agents, topologie réseau, type de mémoire) ne soient pas détaillées dans le résumé. Ce travail s'inscrit dans la convergence entre vision-langage-action (VLA), robotique incarnée et gestion des ressources sans-fil, un champ en forte expansion depuis 2023 avec les architectures de type RT-2 (Google DeepMind), GR00T (NVIDIA) et les travaux sur les mémoires épisodiques longue durée pour robots mobiles. Sur le plan académique, le GAE adversarial rappelle les techniques d'évaluation automatique utilisées dans les LLM, ici transposées à l'évaluation de mémoire sensorimotrice. Les prochaines étapes logiques seraient une validation sur flotte physique réelle et une intégration avec des architectures mémoire de type VectorDB embarqué. Aucun acteur industriel ni partenaire de déploiement n'est mentionné dans la publication.

RecherchePaper
1 source
DexHoldem : jouer au Texas Hold'em avec un système à IA incarnée dextérique
3arXiv cs.RO 

DexHoldem : jouer au Texas Hold'em avec un système à IA incarnée dextérique

Une équipe de chercheurs a publié DexHoldem, un benchmark système conçu pour évaluer les robots dextres sur du matériel physique réel. Structuré autour de la manipulation de cartes Texas Hold'em, il mobilise une ShadowHand (24 degrés de liberté) et propose 1 470 démonstrations téléopérées couvrant 14 primitives de manipulation : distribution, tri, retournement de cartes et autres gestes imposant précision et continuité de scène. Sur l'exécution des primitives, le modèle pi-0.5 de Physical Intelligence obtient le meilleur taux de complétion brute à 61,2 %, et s'aligne avec pi-0 sur le taux de succès "préservant la scène" à 47,5 %. Sur la perception agentique, Claude Opus 4.7 d'Anthropic décroche la meilleure précision stricte au niveau du problème complet à 34,3 %, tandis que GPT-5.5 d'OpenAI atteint la meilleure précision champ par champ à 66,8 %. Ces résultats exposent une fracture structurelle dans les pipelines VLA actuels : reconnaître 66,8 % des éléments visuels individuellement ne garantit pas de reconstituer l'état global de la scène, indispensable au routage décisionnel. Pour un intégrateur ou un décideur industriel, cela signifie qu'un modèle performant sur des primitives isolées peut s'effondrer en boucle fermée dès que les erreurs de perception et d'exécution s'accumulent. Les trois études de cas en boucle complète du benchmark le confirment : attentes, replanifications, demandes d'aide humaine et réexécutions émergent comme comportements nécessaires à la robustesse. DexHoldem formalise ainsi une contrainte rarement évaluée dans la littérature : laisser la scène utilisable pour les décisions suivantes, et non simplement compléter chaque primitive en isolation. La ShadowHand, produite par Shadow Robot Company (Royaume-Uni), est une référence académique de longue date dans la manipulation dextre. Le benchmark s'inscrit dans la vague des évaluations système intégrées qui émergent en 2025 face à la multiplication des VLA, dont pi-0, pi-0.5, GR00T N2 de NVIDIA ou encore Helix de Figure. En choisissant le poker comme cadre d'évaluation, les auteurs imposent une perception structurée, une séquence longue et une contrainte d'état partagé entre actions successives, trois propriétés que les benchmarks à primitives isolées ne capturent pas. Le jeu de données de 1 470 démonstrations et le code du benchmark sont disponibles en open source sur dexholdem.github.io, ce qui le rend directement exploitable pour calibrer des pipelines dextres sur des conditions réelles reproductibles.

UELa ShadowHand de Shadow Robot Company (Royaume-Uni) constitue la plateforme matérielle du benchmark, et le dataset open source de 1 470 démonstrations est directement exploitable par les équipes de recherche en manipulation dextre des universités et laboratoires européens.

RechercheOpinion
1 source
EmbodiedLGR : un graphe léger pour la mémoire sémantique-spatiale des agents robotiques
4arXiv cs.RO 

EmbodiedLGR : un graphe léger pour la mémoire sémantique-spatiale des agents robotiques

Des chercheurs ont publié le 23 avril 2026 sur arXiv (référence 2604.18271) les travaux sur EmbodiedLGR-Agent, une architecture mémoire pour robots mobiles combinant graphe sémantique léger et retrieval-augmented generation. Le système repose sur un modèle visuo-langagier (VLM) à faible empreinte paramétrique qui indexe en continu les objets détectés, leurs positions et leurs relations spatiales dans un graphe dense, tout en conservant des descriptions de haut niveau des scènes observées via une couche RAG classique. L'ensemble tourne localement, sans dépendance cloud. Évalué sur le benchmark NaVQA, EmbodiedLGR-Agent atteint des performances état de l'art sur les temps d'inférence et de requête pour les agents robotiques embarqués, tout en maintenant une précision compétitive sur la tâche globale de question-réponse spatiale. Le système a également été déployé sur un robot physique réel, validant son utilité hors simulation. Ce qui mérite attention, c'est moins la précision brute que la latence : dans les interactions humain-robot, un agent qui répond "où sont les ciseaux ?" en temps humain change radicalement l'expérience utilisateur. La majorité des architectures mémoire robotiques actuelles sacrifient la réactivité à la richesse sémantique, ou inversement. L'approche hybride graphe + RAG tente de résoudre ce compromis sans exploser les ressources de calcul embarqué. Le déploiement sur robot physique, et non en simulation pure, est un signal concret, même si l'article ne précise pas la plateforme matérielle ni les métriques de latence chiffrées en millisecondes, ce qui limite la comparabilité directe avec d'autres systèmes. L'enjeu de la mémoire sémantique-spatiale est un chantier ouvert depuis plusieurs années dans la communauté robotique, avec des approches comme les scene graphs neuraux, ConceptGraphs ou encore les travaux de SayPlan. EmbodiedLGR se positionne sur le segment des architectures légères et déployables sur matériel contraint, là où des solutions comme celles de Boston Dynamics ou des startups comme Skild AI misent plutôt sur la puissance de calcul embarquée ou le traitement distant. Sur le front européen, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft travaillent également sur la cognition embarquée, mais dans des contextes applicatifs distincts. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks plus récents (Habitat, OpenEQA) et une publication des temps de latence mesurés sur plateforme physique.

RechercheOpinion
1 source