
Récupération mémorielle dans les politiques visuomotrices pour le contrôle robotique à long horizon
Des chercheurs du Robin Lab de l'Université du Texas à Austin ont publié fin juin 2026 un preprint (arXiv:2606.25136) présentant HALO, une politique visuomotrice dotée d'un mécanisme de récupération mémorielle par attention pour le contrôle robotique à long horizon. L'architecture cible les robots polyvalents opérant dans des environnements partiellement observables, typiquement le domicile : le robot doit retrouver où un objet a été posé, se souvenir qu'un utilisateur a déjà accompli une sous-tâche, ou mémoriser l'état d'un appareil activé plusieurs minutes auparavant. HALO répond à deux défis identifiés lors de l'apprentissage par imitation sur données hors-ligne : la corrélation spurieuse entre contexte passé et actions prédites, et l'accumulation d'erreurs en boucle fermée qui entraîne une dérive progressive du modèle. Pour y remédier, la méthode distille des priors issus d'un modèle vision-langage (VLM) via un objectif de question-réponse vidéo généré depuis les trajectoires de démonstration, et combine cela à une attention sparse limitée aux segments d'historique les plus pertinents. Au total, HALO peut récupérer des informations pertinentes sur jusqu'à huit minutes d'expérience passée.
Ce résultat est notable car il attaque frontalement le goulot d'étranglement des tâches longues-durées, là où la majorité des politiques visuomotrices actuelles, y compris les approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, supposent implicitement un horizon court ou une observabilité quasi-complète. La distillation de priors VLM pour orienter la récupération vers l'information pertinente à la tâche est une voie prometteuse pour réduire le gap démo-réalité, car elle ancre l'attention dans une compréhension sémantique plutôt que dans des heuristiques codées à la main. L'attention sparse contribue à contenir la propagation d'erreurs qui, dans les architectures transformer standard sur contexte long, peut faire diverger la politique après quelques dizaines de secondes d'exécution autonome.
HALO s'inscrit dans une dynamique de recherche qui voit Transformers et modèles de langage coloniser la couche mémoire des systèmes robotiques, après avoir dominé la planification symbolique et la génération d'instructions. Le Robin Lab publie régulièrement sur l'apprentissage robot en environnements non structurés ; ce travail est encore au stade preprint et aucun déploiement physique à l'échelle n'est annoncé. Les concurrents directs incluent les approches à mémoire épisodique de travaux comme RT-X, mais aussi les architectures récurrentes à état latent explorées par des labos comme CMU ou Stanford. Les prochaines étapes attendues sont une validation sur robot physique dans des scénarios domestiques réels et une comparaison quantitative avec des baselines mémorielle existantes.
Dans nos dossiers




