WeaveLA : mémoire latente inter-sous-tâches…

Dual mémoire latente dans les modèles vision-langage-action pour la manipulation robotique

37

1arXiv cs.RO

Dual mémoire latente dans les modèles vision-langage-action pour la manipulation robotique

Des chercheurs ont publié le 7 juillet 2026 sur arXiv (arXiv:2607.07608v1) un nouveau framework baptisé LaMem-VLA, conçu pour doter les modèles Vision-Language-Action (VLA) d'une mémoire native directement intégrée à leur espace latent de raisonnement. Aujourd'hui, la plupart des VLA prédisent une action à partir de la seule observation courante sous hypothèse markovienne, ce qui les rend peu efficaces sur les tâches longues et dépendantes du temps. LaMem-VLA repose sur quatre composants coordonnés: un "curator" qui organise l'expérience passée en deux coffres mémoire, court terme et long terme; un "seeker" qui interroge ces coffres via la cognition multimodale pour en extraire les preuves pertinentes au contexte; un "condenser" qui reconstruit ces preuves en tokens de mémoire latente compacts; et un "weaver" qui injecte ces tokens avec l'observation et l'instruction courantes dans une seule séquence d'embedding continue. Les auteurs rapportent une supériorité de leur approche sur les benchmarks SimplerEnv et LIBERO, deux références standard pour évaluer la manipulation robotique pilotée par VLA. L'enjeu dépasse la simple performance sur benchmark. Les VLA actuels, qu'ils s'appuient sur des architectures type Pi-0, GR00T N2 ou Helix, butent tous sur une mémoire de travail limitée à la fenêtre d'observation courante, ce qui les fragilise dès qu'une tâche exige de se souvenir d'une action antérieure, par exemple qu'un tiroir a déjà été ouvert. Les solutions existantes, élargir la fenêtre d'observation ou interroger une banque mémoire externe comme contexte auxiliaire, laissent cette mémoire hors de l'espace latent natif du modèle, limitant son intégration au raisonnement multimodal. En rendant la mémoire nativement latente, LaMem-VLA vise à réduire l'écart entre démonstrations courtes réussies en laboratoire et déploiements réels où les séquences de tâches s'étirent, un critère que surveillent de près les intégrateurs industriels évaluant la fiabilité des VLA au delà du simple "pick and place". Ce travail s'inscrit dans une vague de recherche sur la mémoire des VLA, alors que le secteur de la robotique humanoïde et généraliste, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, Figure avec Helix, cherche à dépasser les tâches courtes démontrées en vidéo pour viser des chaînes d'actions plus longues et industriellement exploitables. Classé "Announce Type: new" sur arXiv et non encore relu par les pairs, le papier ne mentionne aucun déploiement matériel ni partenariat industriel: il s'agit pour l'instant d'une contribution académique validée uniquement en simulation. Les suites attendues, classiques pour ce type de travaux, seraient une validation sur robot physique et une comparaison directe avec les architectures mémoire déjà explorées par les grands laboratoires de robotique généraliste.

RechercheActu

1 source

NativeMEM : compression native de la mémoire pour la manipulation robotique long horizon

43

2arXiv cs.RO

NativeMEM : compression native de la mémoire pour la manipulation robotique long horizon

Des chercheurs présentent, dans un preprint publié sur arXiv début juillet 2026, NativeMEM, une politique Vision-Language-Action (VLA) dotée d'une mémoire longue durée mise à jour en temps réel. Le cœur du système, baptisé Native Memory Compression, réutilise l'encodeur visuel du VLA lui-même pour compresser chaque image historique de chaque caméra en un unique token, ajouté à la séquence d'entrée du modèle. Cette approche permet au VLA préentraîné d'exploiter un historique long avec un surcoût de latence négligeable, sans planificateur externe ni module mémoire réinitialisé à part. L'entraînement se fait en deux temps : d'abord un tokenizer de mémoire générique, entraîné sous la supervision d'un VLA gelé sur des données exigeantes en mémoire, puis un dégel complet du modèle pour un fine-tuning spécifique à la tâche. Les résultats annoncés sont marqués : le taux de réussite passe de 32,4% à 84,0% en simulation, et grimpe jusqu'à 98,7% sur robots réels, avec une latence d'inférence et une consommation GPU maîtrisées. Le système atteint aussi des performances comparables aux méthodes précédentes en n'utilisant que 20% des données d'entraînement. L'enjeu adressé est concret pour la manipulation robotique longue horizon, un point dur reconnu du secteur : les VLA préentraînés peinent à retenir un historique visuel étendu à haute fréquence de mise à jour sans sacrifier leur réactivité, et les solutions de gestion mémoire externe existantes limitent soit l'horizon temporel, soit la vitesse de réaction. Que la compression tienne dans l'encodeur visuel déjà présent, sans architecture séparée, va à l'encontre de l'hypothèse répandue qu'une mémoire longue nécessite un module dédié coûteux à entraîner. Le saut de performance observé, notamment sur robots réels et non seulement en simulation, est le signal à surveiller pour les intégrateurs qui cherchent à dépasser les tâches courtes et réactives. Ce travail s'inscrit dans la vague de recherche actuelle sur les architectures VLA à mémoire pour la manipulation robotique, un axe activement exploré en parallèle des efforts de robots humanoïdes commerciaux. Le papier n'ayant pas encore été relu par les pairs, ses chiffres restent à confirmer par des évaluations indépendantes ; les prochaines étapes attendues concernent la généralisation à davantage de plateformes robotiques et de tâches multi-étapes en conditions réelles.

RechercheActu

1 source

IMBench : un benchmark pour la manipulation robotique intuitive

42

3arXiv cs.RO

IMBench : un benchmark pour la manipulation robotique intuitive

Une équipe de recherche publie IMBench, un nouveau benchmark conçu pour évaluer ce qu'elle appelle la « manipulation intuitive » des robots, c'est-à-dire la capacité à combiner raisonnement physique et exécution motrice de façon intégrée, plutôt que de tester ces deux compétences séparément. L'article, déposé sur arXiv le 15 juillet 2026, propose un jeu de 35 tâches couvrant la manipulation avec contact riche, l'usage d'outils et les dépendances multi-étapes, accompagné de 14 000 trajectoires filtrées et d'outils permettant de générer de nouveaux scénarios à l'échelle. Contrairement aux benchmarks existants, IMBench exige des modèles qu'ils identifient d'abord la structure physique pertinente d'une scène (poids, friction, contraintes géométriques) avant de produire une séquence d'actions exécutable sous contraintes explicites. Les auteurs ont testé à la fois des modèles vision-langage (VLM) et des modèles vision-langage-action (VLA) de dernière génération sur cet ensemble de tâches. Les résultats mettent en évidence un écart systématique dans les systèmes actuels : les VLM montrent une capacité de raisonnement physique partielle mais ne parviennent pas à traduire ce raisonnement en plans d'action exécutables, tandis que les VLA de pointe échouent à respecter les contraintes des tâches et généralisent mal d'un scénario à l'autre. Pour l'industrie robotique, ce constat confirme un doute déjà répandu chez les intégrateurs : la performance affichée par les politiques génératives sur des démonstrations contrôlées ne garantit pas une compréhension physique transférable à des scènes nouvelles. IMBench propose ainsi une mesure plus rigoureuse pour distinguer les systèmes qui « comprennent » réellement une scène de ceux qui reproduisent des schémas d'entraînement. Ce travail s'inscrit dans une vague récente de benchmarks cherchant à combler le fossé entre évaluation en simulation et déploiement réel, alors que des modèles comme GR00T N2, Pi-0 ou Helix visent une manipulation généraliste dans des environnements variés. En isolant explicitement la composante « raisonnement intuitif » comme axe manquant des politiques robotiques actuelles, les auteurs positionnent IMBench comme un outil de diagnostic pour orienter les prochaines générations de modèles fondation en robotique, plutôt que comme un simple classement de performance brute.

RecherchePaper

1 source

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

35

4arXiv cs.RO

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Une équipe de chercheurs propose dans un preprint arXiv publié en juin 2026 (réf. 2606.08657) une architecture baptisée Latent Diffusion Policy (LDP), conçue pour améliorer les politiques visuomotrices basées sur la diffusion appliquées à la manipulation robotique. LDP fonctionne en deux étapes : un encodeur CVAE (variational autoencoder conditionnel) conditionné par l'observation absorbe d'abord la compréhension de la scène, puis un modèle de flow matching génère les trajectoires dans cet espace latent pré-structuré. Pour gérer les dépendances temporelles entre tokens, les auteurs introduisent un entraînement par diffusion forcing par token et un schéma d'inférence en escalier (staircase inference sampling) pour corriger le décalage de distribution qui en résulte. Ils proposent également la rFID (reconstruction FID) comme métrique proxy légère permettant de prédire le succès d'une tâche à partir des seules statistiques de l'espace latent, sans nécessiter d'évaluation complète en simulation. Sur le benchmark RoboTwin 2.0, LDP surpasse DP3 par une marge qualifiée de "substantielle", et les auteurs rapportent un transfert effectif vers des déploiements réels en manipulation bimanuelle. L'enjeu technique central que LDP cherche à résoudre est réel : les politiques de diffusion opérant directement dans l'espace d'action brut imposent à un seul processus de débruitage de gérer simultanément l'interprétation de la scène et la planification précise de trajectoires, ce qui augmente la complexité d'apprentissage et pénalise notamment les tâches exigeant une coordination temporelle fine entre plusieurs bras. Séparer ces deux responsabilités dans un cadre à deux étages est une approche structurellement cohérente. La rFID, si elle se confirme empiriquement, pourrait réduire significativement le coût d'évaluation des politiques en simulation. Cela dit, l'abstract ne fournit pas de chiffres de performance quantitatifs précis, ce qui rend difficile l'évaluation indépendante de la "marge substantielle" revendiquée face à DP3. Ce travail s'inscrit dans un champ très actif depuis la publication de Diffusion Policy (Chi et al., 2023) et de DP3, qui ont établi la diffusion comme paradigme dominant pour l'imitation de comportements robotiques complexes. Le flow matching, plus efficace que la diffusion classique en nombre d'étapes d'inférence, s'y impose progressivement. Les approches concurrentes incluent ACT, RDT-1B et pi-zero (Physical Intelligence), qui explorent d'autres voies pour combiner compréhension visuelle et contrôle moteur à grande échelle. LDP reste pour l'instant un résultat académique sans annonce de déploiement industriel ou de partenariat commercial, et RoboTwin 2.0 est un benchmark de simulation dont le gap sim-to-réel méritera une validation plus large.

RechercheOpinion

1 source

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

À lire aussi

Dual mémoire latente dans les modèles vision-langage-action pour la manipulation robotique

NativeMEM : compression native de la mémoire pour la manipulation robotique long horizon

IMBench : un benchmark pour la manipulation robotique intuitive

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion