Aller au contenu principal
Mémoire épisodique pour robots à filtrage par surprise
RecherchearXiv cs.RO2h

Mémoire épisodique pour robots à filtrage par surprise

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.03787) une architecture de mémoire épisodique sélective pour robots généralistes, baptisée "Surprise-Gated Episodic Memory". Le principe central : utiliser la surprise bayésienne comme filtre pour décider quels événements méritent d'être mémorisés à long terme. Plutôt que de stocker l'intégralité du flux sensoriel, un mécanisme de calcul de surprise opère dans l'espace latent de V-JEPA-2, le modèle vidéo de Meta, jugé sémantiquement riche et indépendant du contexte de déploiement. Cette mémoire épisodique filtrée vient augmenter une mémoire spatiale fondée sur des graphes de scène 4D. Sur les benchmarks de question-answering robot, l'approche surpasse les méthodes de référence d'au moins 12 % sur les questions temporelles, spatiales et binaires, et bat également des méthodes supervisées ainsi que des approches non-causales, avec une méthode non supervisée et causale pour la segmentation d'événements.

L'enjeu derrière ce résultat est directement opérationnel : un robot généraliste déployé en entrepôt, en hôpital ou sur un chantier reçoit des instructions ancrées dans des événements passés ("Retourne là où le colis a été mal placé hier soir"). Sans mémoire épisodique sélective, soit le robot stocke tout et sature sa mémoire, soit il oublie et échoue à répondre. La surprise bayésienne comme critère de filtrage est élégante parce qu'elle ne nécessite aucun superviseur humain ni liste de tâches futures a priori, elle capte l'inhabituel de façon autonome. Que cette méthode non supervisée et causale batte des méthodes supervisées est un signal fort : le sim-to-real gap pour la mémoire sémantique pourrait se réduire sans annotation coûteuse.

Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la mémoire à long terme pour les robots mobiles, face aux limites des approches purement réactives popularisées par les VLA (Vision-Language-Action models). V-JEPA-2, publié par Meta en 2025, s'impose progressivement comme fondation visuelle pour plusieurs équipes de recherche extérieures à Meta. Sur le plan concurrentiel, des approches comparables sont développées par des groupes travaillant sur les représentations spatiales pour l'embodied AI (CMU, Stanford, ETH Zurich). L'étape suivante naturelle serait de valider la méthode sur du matériel réel en conditions non contrôlées, les résultats actuels restant des benchmarks, la question du passage à l'échelle sur des robots comme Figure 03 ou Unitree G1 en déploiement continu reste entière.

À lire aussi

Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots
1arXiv cs.RO 

Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots

Des chercheurs ont publié H²-EMV, un cadre logiciel permettant aux robots humanoïdes de gérer sélectivement leur mémoire épisodique sur le long terme. Le problème adressé est concret : lorsqu'un utilisateur demande « Où as-tu mis mes clés ? » ou « Pourquoi la tâche a-t-elle échoué ? », le robot doit interroger un historique d'expériences captées en continu depuis des capteurs multimodaux. Sans filtrage, ce volume dépasse rapidement les capacités de stockage et rend les requêtes en temps réel impraticables. H²-EMV construit une mémoire hiérarchique de manière incrémentale, applique un oubli sélectif via un modèle de langage qui évalue la pertinence de chaque événement selon des règles en langage naturel, puis affine ces règles à partir des retours utilisateur. Testé sur des simulations de tâches domestiques et sur 20,5 heures d'enregistrements réels collectés avec le robot humanoïde ARMAR-7, le système réduit la taille mémoire de 45 % et le temps de calcul des requêtes de 35 %, tout en maintenant la précision des réponses. En deuxième session, cette précision progresse de 70 % grâce à l'adaptation aux priorités individuelles de l'utilisateur. Pour les déploiements longs de robots de service, ce résultat lève un frein non résolu. La mémoire épisodique est un point de friction majeur : un robot qui efface tout entre deux sessions est inutilisable sur la durée, mais stocker sans discrimination devient ingérable sur plusieurs semaines ou plusieurs mois. H²-EMV démontre qu'un oubli structuré et appris ne dégrade pas les performances de question-réponse, et que celles-ci s'améliorent avec l'usage, propriété rare dans les systèmes robotiques actuels. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des assistants humanoïdes capables de dialogue contextuel persistant sans infrastructure de stockage surdimensionnée, condition nécessaire à un déploiement viable en environnement réel. ARMAR-7 est un humanoïde développé à l'Institut für Anthropomatik und Robotik du Karlsruhe Institute of Technology (KIT), en Allemagne, dont les recherches en interaction homme-robot figurent parmi les plus avancées en Europe. La gestion de mémoire long terme en robotique est un champ actif : des approches comme MemoryBank ou les bases vectorielles couplées à des grands modèles de langage ciblent des problèmes comparables, mais rarement sur des horizons temporels aussi longs ni sur des données réelles aussi volumineuses. L'article (arXiv:2604.11306v2) reste un preprint non encore évalué en conférence à comité de lecture ; les résultats annoncés attendent une confirmation indépendante. Les prochaines étapes naturelles sont une validation sur d'autres plateformes humanoïdes et des horizons de déploiement encore plus étendus pour confirmer la stabilité de l'apprentissage des règles d'oubli.

UEH²-EMV est développé et validé sur ARMAR-7, humanoïde du KIT (Allemagne), positionnant un laboratoire européen à la pointe de la gestion mémoire long terme pour robots de service.

RecherchePaper
1 source
AURA : une mémoire à déclenchement par action pour les politiques robotiques à VRAM constante
2arXiv cs.RO 

AURA : une mémoire à déclenchement par action pour les politiques robotiques à VRAM constante

Des chercheurs ont publié sur arXiv (référence 2606.02775) une architecture mémoire baptisée AURA-Mem (Action-Utility Recurrent Adaptive Memory), conçue pour réduire drastiquement l'empreinte mémoire des politiques robotiques exécutées sur matériel embarqué. Le principe est simple : envelopper un backbone Vision-Language-Action (VLA) gelé avec une mémoire récurrente de taille fixe, pilotée par une porte apprise qui n'écrit en mémoire que lorsque l'observation courante modifierait l'action suivante. L'état d'inférence reste constant à 4 224 octets, quelle que soit la durée de l'épisode, là où un KV-cache standard atteint 6 061 fois cette taille après 100 000 pas. Sur le benchmark synthétique contrôlé, AURA-Mem produit entre 5,19 et 6,13 fois moins d'écritures que la meilleure baseline O(1), avec un pic à 9,19 fois moins sur les configurations plus faciles. Sur OpenVLA-OFT 7B évalué en boucle fermée sur LIBERO-Long (60 épisodes par bras), le taux de succès reste stable à 0,233, identique à la politique de base non gatée, et légèrement supérieur au bras KV always-write (0,217), tout en divisant par 7 le nombre d'écritures effectives. L'enjeu industriel est direct : les robots mobiles et les manipulateurs déployés en conditions réelles tournent sur hardware edge à mémoire haute bande passante limitée, avec une flash dont l'endurance en écriture est finie. Dans ce régime, c'est l'écriture mémoire, et non la puissance de calcul, qui devient le goulot d'étranglement. AURA-Mem démontre que le signal d'action-surprise, c'est-à-dire écrire uniquement quand l'observation changerait le comportement, est la clé du gain: les plannings d'écriture aléatoires ou périodiques à budget équivalent ne reproduisent pas les mêmes performances, ce qui isole clairement l'apport de la sélectivité apprise. C'est une réponse concrète au problème du déploiement longue durée des VLA sur robots réels, où la gestion de l'état de contexte est souvent traitée par des heuristiques peu robustes. AURA-Mem s'inscrit dans une vague de travaux visant à rendre les grands modèles VLA viables hors datacenter. OpenVLA, développé à Stanford et Embodied Intelligence, est l'un des modèles VLA open-source les plus utilisés en robotique de manipulation; la variante OFT (fine-tuning orienté action) à 7 milliards de paramètres est aujourd'hui un standard de facto pour les évaluations comparatives. La contribution reste pour l'instant une preuve de concept académique: les auteurs signalent eux-mêmes que la borne théorique sur la valeur de l'état d'information approximée est vacuante à cette échelle, et ne constitue pas encore une garantie formelle. Les travaux compétiteurs dans l'espace mémoire des VLA incluent les approches à fenêtre glissante, les mémoires épisodiques par reconstruction, et les architectures Mamba/SSM; AURA-Mem se distingue en ne nécessitant aucune modification du backbone et en ciblant explicitement les contraintes hardware embarquées. Les prochaines étapes naturelles seraient une validation sur robot physique en environnement non contrôlé et une intégration dans des pipelines de déploiement industriels, deux points absents de l'article actuel.

RechercheOpinion
1 source
EmbodiedLGR : un graphe léger pour la mémoire sémantique-spatiale des agents robotiques
3arXiv cs.RO 

EmbodiedLGR : un graphe léger pour la mémoire sémantique-spatiale des agents robotiques

Des chercheurs ont publié le 23 avril 2026 sur arXiv (référence 2604.18271) les travaux sur EmbodiedLGR-Agent, une architecture mémoire pour robots mobiles combinant graphe sémantique léger et retrieval-augmented generation. Le système repose sur un modèle visuo-langagier (VLM) à faible empreinte paramétrique qui indexe en continu les objets détectés, leurs positions et leurs relations spatiales dans un graphe dense, tout en conservant des descriptions de haut niveau des scènes observées via une couche RAG classique. L'ensemble tourne localement, sans dépendance cloud. Évalué sur le benchmark NaVQA, EmbodiedLGR-Agent atteint des performances état de l'art sur les temps d'inférence et de requête pour les agents robotiques embarqués, tout en maintenant une précision compétitive sur la tâche globale de question-réponse spatiale. Le système a également été déployé sur un robot physique réel, validant son utilité hors simulation. Ce qui mérite attention, c'est moins la précision brute que la latence : dans les interactions humain-robot, un agent qui répond "où sont les ciseaux ?" en temps humain change radicalement l'expérience utilisateur. La majorité des architectures mémoire robotiques actuelles sacrifient la réactivité à la richesse sémantique, ou inversement. L'approche hybride graphe + RAG tente de résoudre ce compromis sans exploser les ressources de calcul embarqué. Le déploiement sur robot physique, et non en simulation pure, est un signal concret, même si l'article ne précise pas la plateforme matérielle ni les métriques de latence chiffrées en millisecondes, ce qui limite la comparabilité directe avec d'autres systèmes. L'enjeu de la mémoire sémantique-spatiale est un chantier ouvert depuis plusieurs années dans la communauté robotique, avec des approches comme les scene graphs neuraux, ConceptGraphs ou encore les travaux de SayPlan. EmbodiedLGR se positionne sur le segment des architectures légères et déployables sur matériel contraint, là où des solutions comme celles de Boston Dynamics ou des startups comme Skild AI misent plutôt sur la puissance de calcul embarquée ou le traitement distant. Sur le front européen, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft travaillent également sur la cognition embarquée, mais dans des contextes applicatifs distincts. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks plus récents (Habitat, OpenEQA) et une publication des temps de latence mesurés sur plateforme physique.

RechercheOpinion
1 source
Filtre de Kalman neuronal à mécanisme d'attention pour l'estimation d'état des robots à pattes
4arXiv cs.RO 

Filtre de Kalman neuronal à mécanisme d'attention pour l'estimation d'état des robots à pattes

Une équipe de chercheurs a publié sur arXiv (2601.18569v2) un filtre hybride baptisé AttenNKF (Attention-Based Neural-Augmented Kalman Filter), conçu pour améliorer l'estimation d'état sur les robots à pattes. Le glissement de pied constitue la principale source d'erreur dans ces systèmes : lorsqu'un pied glisse sur une surface, la mesure cinématique viole l'hypothèse de non-glissement et injecte un biais dans l'étape de mise à jour du filtre, dégradant l'estimation de position, vitesse et orientation. La solution augmente un InEKF (Invariant Extended Kalman Filter) avec un compensateur neuronal à mécanisme d'attention, qui infère l'erreur induite par le glissement en fonction de sa sévérité et l'applique en correction post-mise-à-jour sur l'état du filtre. Ce compensateur est entraîné dans un espace latent pour réduire la sensibilité aux échelles brutes des entrées et encourager des corrections structurées, tout en préservant la récursion mathématique de l'InEKF. L'enjeu est concret pour les équipes de locomotion et les intégrateurs industriels : l'estimation d'état est la brique fondamentale du contrôle d'un robot à pattes, et une erreur non corrigée se propage dans la boucle de contrôle jusqu'à provoquer des chutes ou des trajectoires aberrantes, notamment sur sols glissants, rampes ou surfaces variables en environnement d'usine. L'approche hybride filtres classiques plus réseau de neurones léger préserve les garanties mathématiques de l'InEKF tout en ajoutant une adaptabilité aux conditions non modélisées, sans reformuler entièrement le pipeline d'estimation. Les expériences montrent des performances supérieures aux estimateurs existants sous conditions de glissement, bien que les plateformes hardware testées ne soient pas précisées dans la version publiée, ce qui limite l'évaluation comparative. L'InEKF s'est imposé comme référence pour les robots à pattes grâce à des travaux de l'Université du Michigan vers 2019-2020 sur le bipède Cassie d'Agility Robotics, exploitant son invariance aux symétries de groupe de Lie. L'augmentation par réseaux neuronaux pour corriger les non-linéarités résiduelles est une direction active chez plusieurs groupes de recherche, dont ETH Zurich sur ANYmal, MIT et Carnegie Mellon. Les déploiements réels de Spot (Boston Dynamics), Digit (Agility Robotics) et Figure 02 font tous face au problème d'estimation sous glissement en conditions industrielles, ce qui donne à cette approche une pertinence directe pour le transfert sim-to-real vers des systèmes commerciaux. La prochaine étape naturelle sera une validation embarquée sous contraintes temps-réel sur des plateformes standardisées avec benchmarks publics.

RecherchePaper
1 source