
Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon
Des chercheurs ont soumis le 16 juin 2026 sur arXiv (2606.16178) une architecture transformer nommée PRISM, conçue pour doter les politiques visuomotrices entraînées par imitation learning d'une mémoire à court terme effective. Le système combine deux mécanismes : une attention filtrée (gated attention) qui supprime les corrélations parasites entre l'historique sensoriel et la prédiction d'action, et une architecture hiérarchique qui compresse les informations locales en tokens compacts pour capturer des dépendances temporelles étendues. PRISM maintient ainsi une mémoire opérationnelle sur environ deux minutes. Ses performances : 5 à 12 % de gains absolus sur les baselines les plus solides, et 11 à 15 % de mieux que sa variante sans mémoire sur RoboCasa et LIBERO, dépassant des modèles VLA fine-tunés comme GR00T-N1-3B (NVIDIA) et OpenVLA, sans aucun pré-entraînement à grande échelle. Les auteurs publient aussi ReMemBench, un benchmark de huit tâches de manipulation domestique couvrant quatre catégories mémorielles.
La quasi-totalité des politiques visuomotrices actuelles n'exploitent que l'entrée sensorielle instantanée, les rendant incapables de gérer des tâches impliquant des objets temporairement occultés ou des actions à déclencher après un délai défini. PRISM démontre qu'une architecture mémoire soigneusement conçue peut surpasser des VLA massivement pré-entraînés, remettant en question l'hypothèse dominante selon laquelle la taille du corpus de pré-entraînement prime sur les choix architecturaux. Pour les intégrateurs et les décideurs industriels, ce résultat ouvre la voie à des politiques de manipulation longue séquence plus accessibles en calcul.
PRISM s'inscrit dans un débat actif entre approches récurrentes (LSTM, Mamba) et architectures transformer pour les politiques de manipulation robotique. Les benchmarks RoboCasa et LIBERO font référence en simulation pour ce type de tâches, et des modèles comme GR00T-N1 de NVIDIA (3B paramètres) ou OpenVLA ont misé sur un pré-entraînement multimodal massif pour y performer. PRISM se positionne comme une alternative architecturale plus légère et sans pré-entraînement. Il faut toutefois souligner que tous les résultats sont obtenus en simulation : aucun transfert sim-to-real ni déploiement physique n'est annoncé, laissant ouverte la question de la robustesse sur robot réel.
Dans nos dossiers




