HiMem-WAM : modèles d'action-monde à mémoire…

Modèles du monde pour la manipulation robotique

44

1arXiv cs.RO

Modèles du monde pour la manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.24742) un modèle généraliste de valeur pour la manipulation robotique, le WVM (World Value Model). La proposition centrale consiste à substituer les backbones VLM (Vision-Language Model) habituellement utilisés par un modèle de monde, nativement mieux adapté à la modélisation temporelle nécessaire pour évaluer la progression d'une tâche. Sur les benchmarks standards, WVM atteint les meilleures performances connues en Value-Order Correlation (VOC), la métrique de référence pour les modèles de valeur robotiques. L'équipe introduit également Suboptimal-Value-Bench, un benchmark multi-embodiment composé de 800 trajectoires sous-optimales annotées frame par frame par des humains, comblant un angle mort des évaluations existantes qui ne contenaient que des données expertes. L'enjeu est directement opérationnel pour quiconque entraîne des systèmes de manipulation à grande échelle : les données collectées en conditions réelles sont rarement uniformément expertes. Un modèle de valeur précis permet de pondérer ou filtrer ces trajectoires hétérogènes, améliorant la qualité de l'entraînement sans nettoyage manuel coûteux. WVM démontre des gains de performance sur plusieurs approches d'extraction de politique, en simulation comme en déploiement réel, ce qui renforce la thèse que l'estimation de valeur est un composant orthogonal et complémentaire au choix d'architecture de politique. La robustesse maintenue sur données sous-optimales est l'aspect le plus significatif : c'est précisément dans ce régime que les VLMs classiques décrochent, leurs préentraînements sur observations visuelles statiques ne suffisant pas à capturer les dynamiques temporelles longues. La montée en puissance des VLA comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a rendu critique la question de la qualité des données d'entraînement à grande échelle. L'approche WVM s'inscrit dans une tendance émergente qui consiste à spécialiser les composants : un backbone temporel dédié pour l'évaluation de la valeur, distinct du modèle d'action. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans cet article purement académique. Les prochaines étapes naturelles incluent l'intégration du WVM dans des pipelines d'imitation à grande échelle ou en combinaison avec du reinforcement learning offline (IQL, CQL), et une extension à des environnements multi-tâches plus complexes.

RechercheOpinion

1 source

Dual mémoire latente dans les modèles vision-langage-action pour la manipulation robotique

37

2arXiv cs.RO

Dual mémoire latente dans les modèles vision-langage-action pour la manipulation robotique

Des chercheurs ont publié le 7 juillet 2026 sur arXiv (arXiv:2607.07608v1) un nouveau framework baptisé LaMem-VLA, conçu pour doter les modèles Vision-Language-Action (VLA) d'une mémoire native directement intégrée à leur espace latent de raisonnement. Aujourd'hui, la plupart des VLA prédisent une action à partir de la seule observation courante sous hypothèse markovienne, ce qui les rend peu efficaces sur les tâches longues et dépendantes du temps. LaMem-VLA repose sur quatre composants coordonnés: un "curator" qui organise l'expérience passée en deux coffres mémoire, court terme et long terme; un "seeker" qui interroge ces coffres via la cognition multimodale pour en extraire les preuves pertinentes au contexte; un "condenser" qui reconstruit ces preuves en tokens de mémoire latente compacts; et un "weaver" qui injecte ces tokens avec l'observation et l'instruction courantes dans une seule séquence d'embedding continue. Les auteurs rapportent une supériorité de leur approche sur les benchmarks SimplerEnv et LIBERO, deux références standard pour évaluer la manipulation robotique pilotée par VLA. L'enjeu dépasse la simple performance sur benchmark. Les VLA actuels, qu'ils s'appuient sur des architectures type Pi-0, GR00T N2 ou Helix, butent tous sur une mémoire de travail limitée à la fenêtre d'observation courante, ce qui les fragilise dès qu'une tâche exige de se souvenir d'une action antérieure, par exemple qu'un tiroir a déjà été ouvert. Les solutions existantes, élargir la fenêtre d'observation ou interroger une banque mémoire externe comme contexte auxiliaire, laissent cette mémoire hors de l'espace latent natif du modèle, limitant son intégration au raisonnement multimodal. En rendant la mémoire nativement latente, LaMem-VLA vise à réduire l'écart entre démonstrations courtes réussies en laboratoire et déploiements réels où les séquences de tâches s'étirent, un critère que surveillent de près les intégrateurs industriels évaluant la fiabilité des VLA au delà du simple "pick and place". Ce travail s'inscrit dans une vague de recherche sur la mémoire des VLA, alors que le secteur de la robotique humanoïde et généraliste, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, Figure avec Helix, cherche à dépasser les tâches courtes démontrées en vidéo pour viser des chaînes d'actions plus longues et industriellement exploitables. Classé "Announce Type: new" sur arXiv et non encore relu par les pairs, le papier ne mentionne aucun déploiement matériel ni partenariat industriel: il s'agit pour l'instant d'une contribution académique validée uniquement en simulation. Les suites attendues, classiques pour ce type de travaux, seraient une validation sur robot physique et une comparaison directe avec les architectures mémoire déjà explorées par les grands laboratoires de robotique généraliste.

RechercheActu

1 source

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

44

3arXiv cs.RO

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

Des chercheurs ont publié Mem-World sur arXiv (réf. 2606.18960, juin 2026), un modèle du monde multi-vues augmenté par mémoire pour la manipulation robotique. Le problème adressé est fondamental aux modèles du monde conditionnés par l'action (action-conditioned world models) : lors d'une tâche de manipulation, l'effecteur terminal occulte fréquemment la scène, et les mouvements rapides de la caméra embarquée au poignet rendent l'observation courante insuffisante pour prédire les vues futures, poussant les modèles à halluciner ou oublier des détails observés antérieurement. L'innovation centrale est W-VMem, une mémoire indicée par surfels (éléments de surface 3D) en 4D, centrée sur la vue poignet, qui ancre les observations historiques à des éléments de surface évoluant dans le temps. Cette structure permet une récupération de contexte conditionnée sur les actions futures et consciente de la géométrie de scène, via rendu et scoring basés sur les surfels. Sur les tâches de long horizon, le taux de réussite progresse de 58 % à 72 % grâce à la génération de données synthétiques, et la corrélation de Pearson entre évaluations simulées et performances réelles s'améliore de 14,5 % par rapport à Ctrl-World, le modèle de référence. Ce gain en corrélation est directement actionnable pour les équipes robotique : il indique qu'on peut davantage faire confiance aux rollouts simulés pour prédire le comportement réel d'une politique, réduisant la dépendance aux expérimentations physiques coûteuses. L'hallucination de scène était jusqu'ici un verrou majeur à l'utilisation des world models pour l'entraînement de politiques dextres ; en séparant explicitement quand et où chaque élément a été observé, W-VMem produit un contexte historique non-redondant et pertinent. Il convient toutefois de noter que les scénarios de test et les métriques d'évaluation ne sont pas détaillés dans le résumé disponible, ce qui limite l'interprétation directe des chiffres annoncés. Les world models conditionnés par l'action sont apparus d'abord en jeu vidéo et conduite autonome (DreamerV3, GAIA-1) avant d'être adaptés à la manipulation, domaine plus exigeant en raison des occlusions proches et de la dynamique de caméra embarquée. Ctrl-World est la référence directe contre laquelle Mem-World se positionne. Cette publication reste un preprint, non encore évalué par des pairs, sans partenaire industriel ni timeline de déploiement annoncé. Les suites naturelles incluent une évaluation sur des benchmarks standardisés comme RLBench et une intégration dans des pipelines de modèles Visual Language Action (VLA), où la cohérence temporelle des rollouts est un prérequis à l'entraînement à grande échelle.

RechercheOpinion

1 source

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

44

4arXiv cs.RO

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion

1 source

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

À lire aussi

Modèles du monde pour la manipulation robotique

Dual mémoire latente dans les modèles vision-langage-action pour la manipulation robotique

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts