Aller au contenu principal
LAGO Policy : diffusion asynchrone sensible à la latence et planification sans collision pour une manipulation fluide
RecherchearXiv cs.RO3h

LAGO Policy : diffusion asynchrone sensible à la latence et planification sans collision pour une manipulation fluide

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2606.17982, juin 2026) un cadre algorithmique baptisé LAGO Policy, acronyme de Latency-Aware asynchronous Goal-directed Optimization, destiné à résoudre deux limitations structurelles des politiques visuomotrices à diffusion en manipulation robotique : les discontinuités entre blocs d'actions lors de l'inférence asynchrone, et l'absence de mécanisme natif d'évitement d'obstacles. Le système repose sur trois composantes intégrées : un guidage sans classifieur (classifier-free guidance, CFG) conditionné sur les actions futures pour assurer la cohérence entre segments d'exécution consécutifs ; une prédiction automatique de point d'interaction cible extraite des démonstrations pour orienter la planification ; et une optimisation spatio-temporelle des trajectoires garantissant des mouvements à faible à-coup (low-jerk) et physiquement réalisables. Les auteurs rapportent des expériences en conditions réelles sur des tâches de manipulation présentées comme complexes, avec un taux de succès élevé, bien que l'abstract ne détaille ni les objets testés ni les métriques quantitatives précises.

Ce travail s'attaque à un problème concret qui freine le déploiement industriel des politiques à diffusion : ces modèles génèrent des actions de haute qualité, mais leur temps de calcul est incompatible avec une boucle de contrôle synchrone. Les approches asynchrones existantes contournent la latence en découplant inférence et exécution, mais introduisent précisément les à-coups et ruptures de trajectoire que LAGO cherche à corriger. L'intégration de la planification d'évitement d'obstacles directement dans le pipeline de la politique, sans module externe de type MPC ou RRT, représente un changement d'architecture notable pour les intégrateurs qui empilent aujourd'hui ces briques séparément.

Les politiques à diffusion pour la manipulation ont été popularisées notamment par les travaux de Shuran Song (Columbia/Stanford) puis par Physical Intelligence avec Pi-0, architecture qui sert de référence dans le domaine. LAGO s'inscrit dans une tendance plus large où la frontière entre apprentissage par imitation et planification classique se réduit, visible aussi dans GR00T N2 de NVIDIA ou les variantes d'ACT développées dans plusieurs laboratoires académiques. Il s'agit pour l'instant d'un preprint sans déploiement commercial annoncé ni partenaire industriel identifié ; la page projet associée (lago-policy.github.io) laisse entendre que des vidéos et du code seront publiés, mais aucune timeline n'est précisée.

À lire aussi

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence
1arXiv cs.RO 

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.00475) MSACT, une architecture de contrôle pour la manipulation fine bimanuale à faible latence. Construit sur ACT (Action Chunking with Transformers), le système ajoute un module d'attention spatiale multistage qui extrait des points d'attention 2D stables depuis un encodeur visuel ResNet pré-entraîné, utilisés comme modalité spatiale locale pour la prédiction d'actions. Un objectif d'alignement temporel auto-supervisé compare les séquences d'attention prédites aux caractéristiques visuelles des images futures, réduisant la dérive de localisation sans annotations de points clés. Les expériences ont été conduites sur la plateforme bimanuale ALOHA, en conditions simulées et réelles, en évaluant le taux de succès, la dérive d'attention, la latence d'inférence et la robustesse aux perturbations visuelles. MSACT s'attaque à un trilemme récurrent en robotique d'apprentissage : latence d'inférence basse, stabilité de localisation et efficacité en données sont rarement optimisées simultanément. Les politiques à diffusion (Diffusion Policy) gagnent en expressivité mais pâtissent d'une latence élevée due à l'échantillonnage itératif, incompatible avec le contrôle fin en temps réel. Les approches vision-langage-action (VLA) ou voxel offrent une meilleure généralisation géométrique mais exigent une puissance de calcul et une complexité système nettement supérieures. En greffant une supervision spatiale légère sur ACT, MSACT vise à rester déployable sur systèmes embarqués à ressources limitées. Les résultats annoncés montrent des améliorations en stabilité de localisation et en performance de tâche "dans les conditions testées", formulation prudente signalant que la généralisation reste à démontrer sur une gamme plus large de scénarios. ALOHA, banc de test bimanual développé initialement à Stanford et popularisé par les travaux ACT de Zhao et al. (2023), est devenu une référence académique pour la manipulation fine apprise par imitation. La dérive de localisation sous données limitées reste un obstacle concret au déploiement industriel de bras robotiques appris par démonstration, notamment en assemblage ou conditionnement de précision. Côté compétitif, Physical Intelligence (pi0), Figure AI et 1X Technologies misent sur des architectures VLA plus lourdes visant une généralisabilité plus large ; MSACT propose une voie complémentaire, plus légère, pour les contextes où la latence est critique. Ce preprint n'a pas encore été soumis à revue par les pairs, et aucun déploiement ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion
2arXiv cs.RO 

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Une équipe de chercheurs propose dans un preprint arXiv publié en juin 2026 (réf. 2606.08657) une architecture baptisée Latent Diffusion Policy (LDP), conçue pour améliorer les politiques visuomotrices basées sur la diffusion appliquées à la manipulation robotique. LDP fonctionne en deux étapes : un encodeur CVAE (variational autoencoder conditionnel) conditionné par l'observation absorbe d'abord la compréhension de la scène, puis un modèle de flow matching génère les trajectoires dans cet espace latent pré-structuré. Pour gérer les dépendances temporelles entre tokens, les auteurs introduisent un entraînement par diffusion forcing par token et un schéma d'inférence en escalier (staircase inference sampling) pour corriger le décalage de distribution qui en résulte. Ils proposent également la rFID (reconstruction FID) comme métrique proxy légère permettant de prédire le succès d'une tâche à partir des seules statistiques de l'espace latent, sans nécessiter d'évaluation complète en simulation. Sur le benchmark RoboTwin 2.0, LDP surpasse DP3 par une marge qualifiée de "substantielle", et les auteurs rapportent un transfert effectif vers des déploiements réels en manipulation bimanuelle. L'enjeu technique central que LDP cherche à résoudre est réel : les politiques de diffusion opérant directement dans l'espace d'action brut imposent à un seul processus de débruitage de gérer simultanément l'interprétation de la scène et la planification précise de trajectoires, ce qui augmente la complexité d'apprentissage et pénalise notamment les tâches exigeant une coordination temporelle fine entre plusieurs bras. Séparer ces deux responsabilités dans un cadre à deux étages est une approche structurellement cohérente. La rFID, si elle se confirme empiriquement, pourrait réduire significativement le coût d'évaluation des politiques en simulation. Cela dit, l'abstract ne fournit pas de chiffres de performance quantitatifs précis, ce qui rend difficile l'évaluation indépendante de la "marge substantielle" revendiquée face à DP3. Ce travail s'inscrit dans un champ très actif depuis la publication de Diffusion Policy (Chi et al., 2023) et de DP3, qui ont établi la diffusion comme paradigme dominant pour l'imitation de comportements robotiques complexes. Le flow matching, plus efficace que la diffusion classique en nombre d'étapes d'inférence, s'y impose progressivement. Les approches concurrentes incluent ACT, RDT-1B et pi-zero (Physical Intelligence), qui explorent d'autres voies pour combiner compréhension visuelle et contrôle moteur à grande échelle. LDP reste pour l'instant un résultat académique sans annonce de déploiement industriel ou de partenariat commercial, et RoboTwin 2.0 est un benchmark de simulation dont le gap sim-to-réel méritera une validation plus large.

RechercheOpinion
1 source
Diffusion hybride pour la planification symbolique et continue simultanée
3arXiv cs.RO 

Diffusion hybride pour la planification symbolique et continue simultanée

Des chercheurs ont publié sur arXiv (identifiant 2509.21983, version 2) une méthode baptisée "Hybrid Diffusion" qui combine génération de trajectoires continues et planification symbolique de haut niveau pour les robots accomplissant des tâches complexes et longues. Le constat de départ est empirique : les modèles de diffusion purement continus, pourtant plébiscités pour générer des trajectoires robotiques, échouent sur les tâches à long horizon. En pratique, ils confondent différents modes de comportement, enchaînant des séquences d'actions incompatibles qui provoquent des échecs en cascade. La solution proposée consiste à diffuser simultanément deux types de variables : des variables discrètes formant un plan symbolique de haut niveau, et des variables continues décrivant la trajectoire physique du robot. Ce double processus, mélange inédit de diffusion discrète et continue, surpasse significativement les baselines selon les auteurs, et permet également de conditionner la génération d'actions sur des conditions symboliques partielles ou complètes. Ce travail s'attaque au "long-horizon planning gap", un verrou fondamental de la robotique cognitive : l'incapacité des systèmes actuels à enchaîner de nombreuses étapes cohérentes. Les approches purement continues, notamment les Visual Language Action models (VLA), souffrent d'une absence de structure symbolique explicite, les rendant fragiles face aux tâches multi-étapes structurées. En générant conjointement un plan symbolique, le modèle maintient une représentation explicite de ce qu'il doit faire et dans quel ordre, réduisant les confusions de modes. Cela dit, le papier est un preprint arXiv non encore soumis à peer review ; les résultats sur robots physiques réels restent à valider de manière indépendante. Les modèles de diffusion pour la robotique ont émergé comme alternative à l'imitation learning classique, notamment via Diffusion Policy (Chi et al., 2023). Hybrid Diffusion s'inscrit dans une tendance combinant raisonnement symbolique (TAMP, planification PDDL) et apprentissage par données, un terrain également exploré par Google avec SayCan et RT-2, ainsi que par les architectures utilisant des LLM comme planificateurs de haut niveau couplés à des policies continues. La prochaine étape naturelle sera la validation sur plateformes physiques, manipulateurs industriels ou robots mobiles, dans des environnements non contrôlés, ce que ce travail, centré sur des expériences en simulation, ne démontre pas encore.

RecherchePaper
1 source
Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile
4arXiv cs.RO 

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile

Mobile UMI, soumis sur arXiv (arXiv:2605.20894) en mai 2026, présente un framework de collecte de démonstrations sans robot dédié pour l'apprentissage par imitation sur manipulateur mobile. Le dispositif repose sur trois composants: un rig à deux caméras portées par l'opérateur humain (poitrine pour la navigation globale, poignet pour l'interaction locale), une ancre spatiale ChArUco en prise unique qui recale les deux repères visuels-inertiels et découple la trajectoire de manipulation en SE(3) de celle de navigation en SE(2), et un exécuteur asynchrone à horizon glissant (receding-horizon) qui réaligne en temps réel chaque chunk d'actions généré sur la pose physique courante du robot. Sur quatre tâches domestiques longue-séquence évaluées à 100 essais chacune, le système atteint un taux de réussite moyen de 83,8%, devançant les baselines ACT et Diffusion Policy testées dans les mêmes conditions. Ce résultat s'attaque à deux goulots structurels du mobile manipulation: les labels d'action contaminés par la locomotion humaine lors de la collecte, et la latence d'inférence des politiques de diffusion (plusieurs centaines de millisecondes), pendant laquelle la base avance et rend les waypoints planifiés caducs. En découplant cinématiquement la main du torse, les trajectoires d'entraînement deviennent cohérentes indépendamment de la démarche de l'opérateur. L'approche est architecturalement agnostique, ce qui est un point fort concret pour les intégrateurs: aucune modification de la politique sous-jacente n'est requise, et les ablations confirment que le référentiel thoracique seul comble l'essentiel de l'écart de performance, la synchronisation d'état fermant le reste. Mobile UMI étend l'Universal Manipulation Interface (UMI) de Chi et al. (Stanford/Columbia, 2023), interface poignet à bas coût qui a popularisé la collecte téléopérée pour la manipulation sur table. L'extension à la base mobile était un verrou reconnu: les approches dominantes comme RT-2, OpenVLA ou Pi-0 de Physical Intelligence ciblent essentiellement des bras fixes ou des déplacements très contraints. Des acteurs comme Boston Dynamics avec Spot et son bras, ou des projets académiques comme MoMa (Mobile Manipulation), opèrent dans ce même espace concurrentiel. Le travail reste un preprint non évalué, sans déploiement industriel annoncé ni partenaire matériel cité; les conditions précises des essais (charge utile, vitesse de base, surface de test) ne sont pas détaillées dans l'abstract, ce qui limite la comparabilité directe avec d'autres benchmarks publiés.

RechercheOpinion
1 source