Extension de la mémoire à court terme des…

Récupération mémorielle dans les politiques visuomotrices pour le contrôle robotique à long horizon

42

1arXiv cs.RO

Récupération mémorielle dans les politiques visuomotrices pour le contrôle robotique à long horizon

Des chercheurs du Robin Lab de l'Université du Texas à Austin ont publié fin juin 2026 un preprint (arXiv:2606.25136) présentant HALO, une politique visuomotrice dotée d'un mécanisme de récupération mémorielle par attention pour le contrôle robotique à long horizon. L'architecture cible les robots polyvalents opérant dans des environnements partiellement observables, typiquement le domicile : le robot doit retrouver où un objet a été posé, se souvenir qu'un utilisateur a déjà accompli une sous-tâche, ou mémoriser l'état d'un appareil activé plusieurs minutes auparavant. HALO répond à deux défis identifiés lors de l'apprentissage par imitation sur données hors-ligne : la corrélation spurieuse entre contexte passé et actions prédites, et l'accumulation d'erreurs en boucle fermée qui entraîne une dérive progressive du modèle. Pour y remédier, la méthode distille des priors issus d'un modèle vision-langage (VLM) via un objectif de question-réponse vidéo généré depuis les trajectoires de démonstration, et combine cela à une attention sparse limitée aux segments d'historique les plus pertinents. Au total, HALO peut récupérer des informations pertinentes sur jusqu'à huit minutes d'expérience passée. Ce résultat est notable car il attaque frontalement le goulot d'étranglement des tâches longues-durées, là où la majorité des politiques visuomotrices actuelles, y compris les approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, supposent implicitement un horizon court ou une observabilité quasi-complète. La distillation de priors VLM pour orienter la récupération vers l'information pertinente à la tâche est une voie prometteuse pour réduire le gap démo-réalité, car elle ancre l'attention dans une compréhension sémantique plutôt que dans des heuristiques codées à la main. L'attention sparse contribue à contenir la propagation d'erreurs qui, dans les architectures transformer standard sur contexte long, peut faire diverger la politique après quelques dizaines de secondes d'exécution autonome. HALO s'inscrit dans une dynamique de recherche qui voit Transformers et modèles de langage coloniser la couche mémoire des systèmes robotiques, après avoir dominé la planification symbolique et la génération d'instructions. Le Robin Lab publie régulièrement sur l'apprentissage robot en environnements non structurés ; ce travail est encore au stade preprint et aucun déploiement physique à l'échelle n'est annoncé. Les concurrents directs incluent les approches à mémoire épisodique de travaux comme RT-X, mais aussi les architectures récurrentes à état latent explorées par des labos comme CMU ou Stanford. Les prochaines étapes attendues sont une validation sur robot physique dans des scénarios domestiques réels et une comparaison quantitative avec des baselines mémorielle existantes.

RechercheOpinion

1 source

RoboHarness : orchestration mémoire de politiques robotiques hétérogènes pour la planification à long terme

48

2arXiv cs.RO

RoboHarness : orchestration mémoire de politiques robotiques hétérogènes pour la planification à long terme

Le laboratoire à l'origine de RoboHarness propose un framework unifié qui encapsule des systèmes de contrôle robotique développés indépendamment, qu'il s'agisse de modèles VLA (vision-langage-action), de politiques d'apprentissage par renforcement (RL) ou de planificateurs tâche-et-mouvement (TAMP), sous forme de compétences agentiques réutilisables. L'idée centrale est d'orchestrer ces politiques hétérogènes sans les ré-entraîner conjointement, via une mémoire d'exécution multimodale et des preuves collectées en ligne qui cartographient les limites de capacité de chaque politique. Un composant appelé Memory Bridge récupère les trajectoires d'exécution associées à la politique suivante, estime sa région de distribution "in-distribution", puis guide le robot vers cette zone pour stabiliser les transitions entre politiques. Le système a été testé sur trois benchmarks publics, 500 tâches personnalisées et 135 expériences sur robot réel, avec des gains significatifs en planification zero-shot sur des horizons longs et en robustesse hors distribution. Le problème que RoboHarness cherche à résoudre est structurel pour l'industrie robotique: aucune politique unique, aussi performante soit-elle sur son benchmark d'origine, ne couvre l'ensemble des capacités nécessaires à une tâche longue et complexe. Les méthodes de planification existantes reposent sur des compétences homogènes et prédéfinies, avec une applicabilité fixe, ce qui limite leur capacité à combiner des modèles VLA génériques avec des politiques RL spécialisées ou des planificateurs TAMP plus rigoureux. En proposant un routage conscient des capacités et une décomposition dynamique des tâches, ce travail répond directement à une hypothèse contestée du secteur: qu'un seul modèle généraliste suffirait à couvrir la diversité des tâches robotiques. Pour les intégrateurs et les équipes R&D, cela ouvre la voie à des architectures modulaires où plusieurs politiques spécialisées, potentiellement issues de fournisseurs différents, cohabitent sans réentraînement coûteux. Ce travail s'inscrit dans un contexte de recherche académique, publié sur arXiv fin juillet 2026, plutôt que dans une annonce produit commerciale. Il rejoint un courant de recherche actif sur l'orchestration de politiques robotiques multiples, alors que le secteur voit se multiplier des modèles VLA à vocation généraliste censés unifier perception et action en un seul réseau. RoboHarness prend le contre-pied de cette tendance en misant sur la composition de systèmes hétérogènes plutôt que sur un modèle monolithique unique, un pari qui reste à valider au-delà des benchmarks académiques et des essais en laboratoire, notamment sur la robustesse en conditions industrielles réelles et à plus grande échelle.

RecherchePaper

1 source

Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert

42

3arXiv cs.RO

Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert

Une équipe de chercheurs a publié le 22 avril 2026 sur arXiv (ref. 2504.15671) les résultats de ChemBot, un système robotique conçu pour automatiser des protocoles d'expérimentation chimique complexes en laboratoire. ChemBot repose sur une architecture à deux couches couplant un agent IA planificateur à un modèle Vision-Language-Action (VLA) baptisé Skill-VLA, capable de décomposer hiérarchiquement des tâches longues, typiquement des protocoles multi-étapes, puis de les exécuter sur des robots collaboratifs. Le système intègre une mémoire persistante à double niveau qui archive les trajectoires réussies sous forme d'assets réutilisables, et s'appuie sur un serveur Model Context Protocol (MCP) pour orchestrer les sous-agents et les outils. Un mécanisme d'inférence asynchrone basé sur la prédiction d'états futurs est également implémenté pour réduire les discontinuités de trajectoire, un défaut récurrent des VLA standards. Les expériences rapportées montrent des taux de succès et une précision opérationnelle supérieurs aux baselines VLA existantes sur des scénarios longs et multi-étapes. Ce travail adresse une limite structurelle bien documentée des modèles VLA : leur incapacité à capitaliser sur les expériences passées, ce qui force le système à recommencer par tâtonnements à chaque nouvelle session. En intégrant une mémoire persistante récupérable, ChemBot réduit concrètement le "trial-and-error gap" dans des environnements à longue horizon de planification, un problème critique pour l'automatisation de laboratoire où une erreur en milieu de protocole peut invalider toute une expérience. C'est également une démonstration applicative du sim-to-real dans un domaine non industriel, le laboratoire chimique, traditionnellement peu couvert par les benchmarks robotiques. Pour les intégrateurs B2B dans le pharma ou la recherche chimique, cela constitue un signal concret vers des robots de laboratoire autonomes capables de gérer des workflows non déterministes. Les modèles VLA ont connu une montée en puissance rapide depuis 2023 avec des travaux comme RT-2 (Google DeepMind), OpenVLA et Pi-0 (Physical Intelligence), mais la majorité des déploiements restent limités à des tâches courtes et répétitives. ChemBot se positionne dans le segment émergent des "long-horizon VLA", aux côtés de travaux comme SayCan ou des architectures hiérarchiques de Carnegie Mellon. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'une publication académique avec validation sur robots collaboratifs en environnement contrôlé. Les prochaines étapes logiques incluent des tests sur des plateformes comme les robots Universal Robots ou Franka, et une intégration potentielle avec des systèmes LIMS existants dans les laboratoires pharmaceutiques.

RechercheOpinion

1 source

LongBench : évaluation des politiques de manipulation robotique sur des tâches réelles à horizon long

44

4arXiv cs.RO

LongBench : évaluation des politiques de manipulation robotique sur des tâches réelles à horizon long

Une équipe de chercheurs a publié en avril 2026 LongBench, un benchmark conçu pour évaluer les politiques de manipulation robotique sur des tâches longues et enchaînées dans le monde réel. Contrairement à la majorité des benchmarks existants, LongBench repose sur plus de 1 000 épisodes exécutés en conditions réelles, et non en simulation. Il se structure autour de deux régimes complémentaires : les tâches Context-Independent, où l'état du monde est entièrement observable, et les tâches Context-Dependent, où le robot doit gérer une ambiguïté sur l'état ou l'intention. Les tâches sont organisées en sous-ensembles ciblant des capacités spécifiques (robustesse d'exécution, cohérence temporelle, raisonnement contextuel), permettant un diagnostic fin des sources d'échec. Six politiques de l'état de l'art ont été évaluées sur ce protocole, sans qu'un seul facteur dominant n'explique les dégradations de performance sur les horizons longs. Ces résultats remettent en question une hypothèse courante dans le domaine : celle selon laquelle améliorer la mémoire ou le contexte historique suffirait à résoudre les échecs en manipulation longue durée. LongBench montre que dans les environnements pleinement observables, c'est la robustesse d'exécution, c'est-à-dire la capacité du robot à répéter fidèlement une séquence motrice sur des dizaines de pas, qui domine les performances, et non la gestion du contexte. À l'inverse, dans les scénarios ambigus, les méthodes à mémoire n'apportent pas d'amélioration systématique : la difficulté contextuelle varie fortement selon les tâches, ce qui suggère qu'il n'existe pas de solution générique. Pour les intégrateurs et les équipes R&D qui évaluent des politiques VLA (Vision-Language-Action) ou des architectures de contrôle diffusion, ce benchmark offre un protocole de diagnostic plus fin que les métriques de succès agrégé habituelles. Le benchmark s'inscrit dans un effort plus large de la communauté robotique pour dépasser les évaluations en simulation, dont le sim-to-real gap reste un problème structurel non résolu. Plusieurs benchmarks récents, comme DROID ou Open X-Embodiment, ont posé des bases de données multi-robots, mais peu proposent une décomposition mécaniste des sources d'échec sur des horizons longs. LongBench se positionne comme un outil de diagnostic complémentaire, agnostique à l'architecture, applicable aussi bien aux politiques de type ACT, Diffusion Policy qu'aux approches VLA. Les auteurs n'annoncent pas de déploiement industriel associé : il s'agit d'un outil de recherche, pas d'un produit. Les prochaines étapes attendues incluent l'extension à d'autres morphologies robotiques et l'intégration de tâches bi-manuelles, qui représentent le prochain mur de complexité pour la manipulation longue durée.

RecherchePaper

1 source

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

À lire aussi

Récupération mémorielle dans les politiques visuomotrices pour le contrôle robotique à long horizon

RoboHarness : orchestration mémoire de politiques robotiques hétérogènes pour la planification à long terme

Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert

LongBench : évaluation des politiques de manipulation robotique sur des tâches réelles à horizon long