GHOST : politiques hiérarchiques à sous-objectifs…

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

38

1arXiv cs.RO

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

Une équipe de recherche a déposé sur arXiv (2606.10363v1) HiMem-WAM, un nouveau modèle d'action hiérarchique pour la manipulation robotique. L'architecture s'attaque à une limitation persistante des World Action Models (WAM) existants : leur incapacité à maintenir une mémoire de tâche cohérente sur des séquences longues, typiques des manipulations multi-étapes. HiMem-WAM combine trois mécanismes : des actions latentes centrées sur le mouvement (niveau bas), des latents de compétences de haut niveau, et une porte mémoire déclenchée aux transitions de compétences prédites. Ce verrou mémoire écrit des états compacts à des moments-clés, permettant l'inférence causale sans génération vidéo ni estimation de flux optique au moment du test. Le modèle a été évalué sur les benchmarks LIBERO, LIBERO-PLUS et RMBench, ainsi que sur des tâches en conditions réelles. La contribution principale est d'ordre systémique : la structuration hiérarchique améliore la robustesse sous perturbations lors du déploiement, là où la plupart des architectures VLA actuelles échouent dès qu'un événement imprévu survient en milieu de séquence. Pour un décideur industriel, c'est un signal pertinent : le module mémoire apporte, selon les auteurs, un gain substantiel sur les tâches longues dépendantes de l'historique d'action. Éviter la génération vidéo en temps d'inférence réduit également la latence et la charge computationnelle, deux freins réels au déploiement embarqué. Ces résultats restent toutefois issus d'un preprint non peer-reviewed, et les performances sur benchmarks standardisés ne garantissent pas les mêmes gains en environnement de production non contrôlé. Les World Action Models constituent un paradigme récent qui apprend les dynamiques visuelles pertinentes pour l'action, distinct des architectures VLA classiques comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, lesquelles s'appuient sur des transformers multimodaux de grande taille. La manipulation longue-horizon reste un défi ouvert pour l'ensemble du secteur : ni les diffusion-policies ni les modèles language-conditioned n'ont résolu le maintien du contexte sur des séquences dépassant une dizaine de sous-tâches. HiMem-WAM propose une piste architecturale concrète, mais sans intégration hardware annoncée ni timeline de déploiement, ce qui en fait pour l'instant une contribution de recherche fondamentale.

RechercheOpinion

1 source

GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés

42

2arXiv cs.RO

GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés

Des chercheurs ont publié sur arXiv (référence 2605.30740) GSAM, un framework conçu pour la manipulation d'objets articulés (tiroirs, portes, robinets) par des robots de service. Le système combine quatre modules : un percepteur visuel qui extrait les paramètres cinématiques (axe de rotation, amplitude de mouvement), un raffineur basé sur un VLM fine-tuné utilisant le raisonnement par chaîne-de-pensée (CoT) pour corriger les estimations brutes, un générateur de contraintes d'interaction qui encode la géométrie de l'objet et l'évitement d'obstacles, et un planificateur cinématique qui vérifie l'atteignabilité avant exécution. Sur 50 tâches de type charnière réparties en 5 catégories d'objets et 50 configurations initiales aléatoires de l'effecteur, GSAM améliore le taux de succès de 36,0 % par rapport à la meilleure baseline existante, avec une réduction de l'écart-type de 3,1 % indiquant une meilleure consistance comportementale. Ce résultat s'attaque directement au fossé démo-réalité sur une sous-tâche souvent ignorée : les interactions avec des objets mécaniquement contraints impliquent des trajectoires curvilignes et une compréhension de la géométrie interne que ni les politiques end-to-end entraînées en simulation ni les planificateurs purement visuels ne gèrent correctement. L'usage du raisonnement CoT pour corriger des estimations cinématiques erronées plutôt que pour générer un plan de haut niveau constitue un usage pragmatique et inhabituel des VLM en robotique. Pour les intégrateurs sur des robots de service industriels ou hospitaliers, la réduction des collisions destructrices a une valeur opérationnelle directe : forcer mécaniquement un joint en production est un incident matériel, pas une métrique abstraite. Le problème de manipulation articulée est étudié depuis plusieurs années dans des équipes comme Stanford (projet Where2Act, 2021), ETH Zurich et CMU. Les approches concurrentes comprennent les frameworks VLA tels que pi0 (Physical Intelligence) ou OpenVLA, ainsi que les méthodes de perception articulée comme PARIS ou CatGrasp. GSAM se distingue en combinant explicitement un LLM pour la génération de contraintes et un VLM pour la perception raffinée, plutôt qu'une politique implicite entraînée bout-en-bout. Le travail reste un preprint arXiv non soumis à une conférence majeure (ICRA, IROS, CoRL) : les gains annoncés sont encourageants mais nécessitent une validation sur robot physique en conditions non contrôlées.

RecherchePaper

1 source

43

3arXiv cs.RO

HCPG-Flow : guidage hiérarchique de progression de contact pour la manipulation robotique par politique de flux

Les chercheurs à l'origine de HCPG-Flow présentent une nouvelle méthode de sélection d'actions pour les politiques de manipulation robotique de type "flow", publiée sur arXiv (2607.17651). Le problème visé est concret : ces politiques génèrent plusieurs propositions d'actions multimodales à chaque étape de contrôle, mais le robot ne peut en exécuter qu'une seule, et le classement habituel par un critique (critic-based ranking) fausse la collecte de données lorsque les candidates sont mal représentées dans le buffer de replay. HCPG-Flow ajoute à SAC-Flow un mécanisme de guidage hiérarchique centré sur l'objet, actif au moment du rollout, sans modifier les objectifs d'acteur et de critique existants. Le système bascule d'abord sur l'approche de l'effecteur terminal, puis, une fois le contact établi, sur la progression de la tâche, en notant chaque proposition selon la réduction de premier ordre d'une distance pertinente pour la tâche, standardisée au sein de l'ensemble de candidats, avant d'exécuter une combinaison d'actions contrôlée par température. Sur dix tâches simulées, la méthode améliore le taux de succès moyen par rapport à SAC-Flow sur les deux bancs d'essai testés, avec un gain de 9,5 points de pourcentage sur Maniskill. En conditions réelles, sur quatre tâches physiques, HCPG-Flow atteint un haut taux de succès tout en réduisant de 17,4 % le nombre d'étapes nécessaires pour compléter une tâche avec succès. Pour le secteur de la robotique manipulative, ce travail s'attaque à un goulot d'étranglement bien identifié des politiques par apprentissage par renforcement à base de flow matching : la fiabilité de la sélection d'action au moment de l'exécution, distincte de la qualité de l'apprentissage lui-même. En s'appuyant sur une heuristique physique simple, le progrès de contact plutôt qu'une pure estimation de valeur, la méthode réduit la dépendance à des estimations de critique potentiellement biaisées, un point sensible pour les intégrateurs qui cherchent des politiques robustes et transférables du simulateur au réel (sim-to-real), notamment sur des tâches de manipulation fine où le contact physique conditionne la réussite. HCPG-Flow s'inscrit dans la lignée des travaux récents combinant flow policies et SAC (Soft Actor-Critic), une famille de méthodes qui a gagné en popularité pour représenter des distributions d'actions multimodales en robotique, en concurrence directe avec les approches par diffusion. Les auteurs mettent à disposition une page de projet (hitxraz.github.io/HCPG-Flow) présentant probablement code et démonstrations, sans toutefois préciser à ce stade de calendrier de déploiement industriel ni de partenariat avec des acteurs commerciaux du secteur.

RecherchePaper

1 source

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

35

4arXiv cs.RO

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion

1 source

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

À lire aussi

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés

HCPG-Flow : guidage hiérarchique de progression de contact pour la manipulation robotique par politique de flux

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable