Aller au contenu principal
De la correction locale à la généralisation : améliorer les politiques neuro-symboliques avec MEMO
RecherchearXiv cs.RO2h

De la correction locale à la généralisation : améliorer les politiques neuro-symboliques avec MEMO

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de Virginia Tech ont publié MEMO (Memory Enhanced Manipulation), un système visant à lever le verrou fondamental des politiques neuro-symboliques en manipulation robotique. Ces architectures utilisent des modèles de vision et de langage (VLM) pour décomposer des tâches complexes en sous-tâches sémantiques, exécutées via des "skills" : primitives de mouvement, fonctions codées ou fragments de trajectoire. La contrainte est structurelle : si la bibliothèque de skills ne couvre pas la situation courante, la politique échoue quelle que soit la qualité du raisonnement de haut niveau. MEMO contourne cette limite en exploitant les corrections en langage naturel des opérateurs humains ("non, va plus haut") : le système collecte, regroupe et reformule ces retours à travers plusieurs utilisateurs et tâches pour synthétiser des templates de skills généralisables, stockés dans un skillbook à récupération augmentée (RAG) consulté à l'exécution pour générer de nouveaux skills à la volée.

L'intérêt opérationnel est concret : MEMO déplace le coût d'amélioration depuis les ingénieurs (codage manuel de nouveaux skills) vers les opérateurs terrain, dont les retours naturels deviennent données structurées réutilisables. Les expériences rapportées dans la publication démontrent une généralisation à des tâches inédites là où les baselines existantes échouent, ce qui valide l'hypothèse centrale : l'abstraction des corrections locales produit une guidance plus robuste que le simple rappel du texte exact. Avantage pratique pour les équipes de déploiement : le système n'exige pas de réentraînement du modèle de base, ce qui réduit significativement le coût d'adaptation.

Ce travail s'inscrit dans la compétition entre approches neuro-symboliques et approches VLA end-to-end (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui apprennent des politiques denses sans décomposition symbolique explicite. Les architectures symboliques conservent des avantages en interprétabilité et modularité, mais pâtissaient précisément de cette rigidité du skill-set post-déploiement ; MEMO tente de combler cet écart sans sacrifier la lisibilité du raisonnement. La publication arXiv (2603.04560) ne mentionne aucun partenaire industriel ni calendrier de commercialisation, positionnant clairement ce travail à un stade TRL expérimental, avec la démonstration consultable sur le site du laboratoire Collab de Virginia Tech.

À lire aussi

D'une seule démonstration à une politique générale pour la manipulation avec contact
1arXiv cs.RO 

D'une seule démonstration à une politique générale pour la manipulation avec contact

Une équipe de recherche publie sur arXiv (réf. 2605.17601, mai 2026) un framework d'apprentissage par démonstration capable de généraliser à partir d'un seul exemple sur des tâches de manipulation impliquant des contacts répétés avec l'environnement. Le système repose sur un pipeline en quatre étapes : abstraction de la démonstration en primitives de contraintes environnementales, exploration autonome pour lever les ambiguïtés, correction ciblée par un opérateur humain pour couvrir les variantes hors-distribution, et enfin récupération en ligne des détails géométriques via interaction compliante. Validé sur sept tâches réelles multi-étapes à contact riche, le framework atteint un taux de succès supérieur à 90 %. Aucune entreprise spécifique ni plateforme robotique n'est mentionnée dans le préprint, qui reste une contribution académique sans déploiement industriel annoncé. Le point central de l'approche est de représenter une tâche non pas comme une trajectoire à imiter, mais comme une séquence de contraintes environnementales à exploiter. Ce changement de paradigme permet au robot de distinguer la structure générale d'une tâche (types de contraintes, transitions entre elles) des détails spécifiques à une instance donnée (poses exactes, géométrie locale). Pour un intégrateur ou un décideur industriel, cela signifie qu'une seule démonstration suffit potentiellement là où les méthodes de behavior cloning classiques en réclament des centaines. Le résultat de 90 %+ sur des tâches à contact riche est notable car ce domaine concentre la majorité des échecs en manipulation robotique réelle, notamment à cause de la sensibilité aux variations de pose et aux dynamiques de contact non modélisées. L'apprentissage par démonstration est un champ très actif depuis une décennie, concurrencé récemment par les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence), les architectures VLA (RT-2, GR00T N2 de NVIDIA) et les méthodes ACT (Action Chunking with Transformers). L'originalité revendiquée ici est de traiter les contraintes environnementales comme biais inductif plutôt que d'augmenter massivement les données d'entraînement ou la puissance du modèle. La limite principale reste l'absence d'évaluation sur des plateformes humanoïdes ou collaboratives standard, ce qui rend difficile la comparaison directe avec les benchmarks du secteur. Les suites naturelles seraient un passage à des environnements ouverts et une validation sur des robots commerciaux comme le Franka Research 3 ou les bras UR.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
2arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
3arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
FlowMPC : amélioration des politiques de correspondance de flux avec des modèles du monde
4arXiv cs.RO 

FlowMPC : amélioration des politiques de correspondance de flux avec des modèles du monde

Un préprint publié sur arXiv en juin 2026 (arXiv:2606.16286) présente FlowMPC, un cadre expérimental qui combine une politique d'imitation par Flow Matching (FM) avec un modèle de monde appris, pour améliorer les performances à l'inférence sans modifier l'entraînement initial. Le framework s'appuie sur TD-MPC2 (Hansen et al., 2024) et recourt à la planification Model Predictive Path Integral (MPPI) pour évaluer des séquences d'actions candidates générées par la politique FM à chaque pas de décision. Les expériences sont conduites sur le benchmark de manipulation ManiSkill (Tao et al., 2025), sur deux tâches : PickCube et PickSingleYCB. Dans les deux cas, l'ajout du modèle de monde améliore les performances par rapport à la politique FM seule, avec des gains particulièrement nets sur le taux de succès en fin d'épisode, l'indicateur le plus exigeant de ces benchmarks. Ce résultat illustre une tendance croissante en robotique apprise : augmenter les politiques d'imitation par du raisonnement prospectif au moment de l'inférence, sans retraining coûteux. Flow Matching est une approche récente pour les espaces d'action multimodaux, typiques des tâches de manipulation, mais elle n'est pas conçue pour maximiser directement un retour cumulatif. FlowMPC comble ce déficit en couplant le FM à un modèle de monde : la politique génère des actions candidates, le planificateur MPPI les filtre selon leur valeur estimée. Ce découplage entraînement/test ouvre une voie pragmatique pour les intégrateurs robotiques, car il permet d'améliorer des politiques déployées sans relancer des pipelines d'entraînement lourds. Ce travail s'inscrit dans un paysage de recherche dense où plusieurs approches cherchent à marier imitation et planification. TD-MPC2, sur lequel FlowMPC s'appuie directement, est une référence établie pour l'apprentissage par renforcement basé sur des modèles. Signé d'un seul auteur et non encore soumis à revue par les pairs, ce preprint reste à un stade préliminaire : les tests se limitent à deux tâches simulées, sans évaluation sur robot physique ni comparaison avec des politiques concurrentes majeures telles que Pi-0 (Physical Intelligence) ou les diffusion policies (Chi et al., 2023). La prochaine étape naturelle serait de valider le transfert sim-to-real et de tester sur des benchmarks de manipulation plus complexes, comme l'assemblage de pièces ou la manipulation d'objets déformables.

RecherchePaper
1 source