LAGO Policy : diffusion asynchrone sensible à la…

Diffusion de politique multimodale asynchrone via fusion de guidage sensible à la latence

37

1arXiv cs.RO

Diffusion de politique multimodale asynchrone via fusion de guidage sensible à la latence

Des chercheurs ont publié le 24 juillet un article arXiv (2607.17257v1) présentant LAG-Fusion, un framework de fusion multimodale pour les politiques de diffusion utilisées en apprentissage par imitation robotique. Le problème visé : les architectures multimodales actuelles combinent vision, force et autres capteurs via une fusion synchrone ou des architectures multi-fréquences conçues manuellement, ce qui ralentit le retour haute fréquence ou limite l'ajout de nouvelles modalités. LAG-Fusion permet à chaque politique spécifique à une modalité de tourner à sa propre cadence d'inférence et d'injecter sa guidance de débruitage dès qu'elle est disponible, sans attendre les autres flux. L'innovation technique centrale est une règle de recalage du référentiel pour les variables de diffusion exprimées en représentations d'action relatives, ce qui permet d'aligner une guidance arrivée en retard avant de la fusionner avec le reste. Les chercheurs ont testé l'approche sur une tâche de manipulation à contact riche, en combinant une politique vision basse fréquence avec une politique force haute fréquence. Sous des latences hétérogènes entre modalités, LAG-Fusion améliore la réactivité de la politique et la performance de la tâche par rapport à une fusion synchrone classique et à des bases de référence spécifiquement conçues pour intégrer la force. Pour l'industrie robotique, ce travail touche un point de friction bien réel dans le déploiement de politiques génératives type diffusion ou VLA sur des bras manipulateurs : dès qu'on ajoute un capteur de force ou tactile pour des tâches d'assemblage ou d'insertion, la cadence de la caméra (souvent 10 à 30 Hz) et celle du capteur de force (potentiellement 100 Hz et plus) imposent des compromis douloureux, soit en bridant le capteur rapide au rythme du plus lent, soit en construisant une architecture ad hoc peu réutilisable. Une méthode générique qui laisse chaque modalité tourner à sa vitesse native, sans repenser l'architecture à chaque nouvelle combinaison de capteurs, s'attaque directement à un frein à l'extensibilité que rencontrent les intégrateurs travaillant sur la manipulation fine (assemblage électronique, insertion de connecteurs, tri fragile). Cela reste toutefois un résultat validé sur une seule paire de modalités et une tâche contrôlée en laboratoire, loin d'une brique prête à industrialiser. Les politiques de diffusion se sont imposées ces deux dernières années comme l'une des approches dominantes de l'apprentissage par imitation en robotique, aux côtés de modèles vision-langage-action comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui fusionnent eux aussi plusieurs signaux capteurs mais généralement à une cadence unique et synchronisée. La fusion asynchrone multi-fréquence reste peu explorée dans la littérature, la plupart des travaux traitant chaque capteur additionnel comme un module séparé nécessitant un réglage manuel. Le résumé ne précise ni publication de code ou de poids, ni application industrielle prévue à court terme ; l'article, encore non révisé par les pairs, ouvre surtout une piste pour de futurs travaux combinant tactile, force et vision sur des tâches à contact riche, un axe stratégique pour les humanoïdes et bras collaboratifs visant l'assemblage fin.

RecherchePaper

1 source

FA-RDP : une politique de diffusion réactive adaptative en fréquence pour la manipulation à contact riche

46

2arXiv cs.RO

FA-RDP : une politique de diffusion réactive adaptative en fréquence pour la manipulation à contact riche

FA-RDP, une politique de diffusion réactive à fréquence adaptative pour la manipulation robotique riche en contacts, a été présentée dans un article arXiv (2607.28596v1). Le problème identifié par les auteurs est le suivant: avant le contact entre un effecteur et un objet, plusieurs trajectoires sont valables et il faut préserver cette diversité de modes d'action; après le contact, les contraintes géométriques et les limites de force réduisent l'espace des solutions et exigent une réaction rapide au retour de force. Les politiques de diffusion classiques utilisent une fréquence d'inférence et un nombre d'étapes fixes tout au long de l'épisode, ce qui impose un compromis: un échantillonnage basse fréquence à plusieurs étapes préserve mieux la multimodalité pré-contact mais réagit lentement à la force, tandis qu'un échantillonnage haute fréquence améliore la réactivité mais tend à effondrer les modes distincts. FA-RDP répond à ce compromis via un Transformer visuel-force multi-fréquence partagé qui prédit des blocs d'action à basse et haute fréquence, couplé à un indicateur de multimodalité appris qui bascule dynamiquement entre échantillonnage multi-étapes basse fréquence avant contact et échantillonnage à une étape haute fréquence quand l'ambiguïté diminue. Les auteurs ajoutent une distillation de cohérence de variété (Manifold Consistency Distillation, MCD), qui reparamètre le réseau de diffusion pour prédire les actions directement sur la variété d'action du robot tout en conservant la supervision résiduelle de type DDPM. Pour l'industrie robotique, cette approche s'attaque à un goulot d'étranglement concret des politiques par diffusion en manipulation fine: le compromis entre diversité des trajectoires et vitesse de réaction en temps réel, un frein connu pour les tâches d'assemblage, d'insertion ou de manipulation avec contact physique. Si les résultats se confirment à plus grande échelle, cela renforcerait la viabilité des politiques de diffusion pour des applications industrielles où la précision au contact (force, couple) est critique, un axe suivi de près par les intégrateurs travaillant sur l'automatisation fine et la robotique collaborative. Les expériences ont porté sur trois tâches de manipulation riche en contacts, où FA-RDP obtient le taux de réussite le plus élevé tout en conservant des trajectoires pré-contact diversifiées, comparé aux approches à fréquence fixe. Le travail s'inscrit dans la lignée des politiques de diffusion pour le contrôle robotique (dans la continuité de Diffusion Policy et d'approches VLA comme Pi-0 ou GR00T), un champ de recherche actif où la question de la fréquence d'inférence et de la réactivité reste ouverte. Le code et des vidéos de démonstration sont disponibles sur fa-rdp.github.io, mais aucune information sur un déploiement matériel réel ou une intégration industrielle n'est mentionnée à ce stade: il s'agit d'un résultat de recherche en simulation/laboratoire, pas d'un produit commercialisé.

RecherchePaper

1 source

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

38

3arXiv cs.RO

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.00475) MSACT, une architecture de contrôle pour la manipulation fine bimanuale à faible latence. Construit sur ACT (Action Chunking with Transformers), le système ajoute un module d'attention spatiale multistage qui extrait des points d'attention 2D stables depuis un encodeur visuel ResNet pré-entraîné, utilisés comme modalité spatiale locale pour la prédiction d'actions. Un objectif d'alignement temporel auto-supervisé compare les séquences d'attention prédites aux caractéristiques visuelles des images futures, réduisant la dérive de localisation sans annotations de points clés. Les expériences ont été conduites sur la plateforme bimanuale ALOHA, en conditions simulées et réelles, en évaluant le taux de succès, la dérive d'attention, la latence d'inférence et la robustesse aux perturbations visuelles. MSACT s'attaque à un trilemme récurrent en robotique d'apprentissage : latence d'inférence basse, stabilité de localisation et efficacité en données sont rarement optimisées simultanément. Les politiques à diffusion (Diffusion Policy) gagnent en expressivité mais pâtissent d'une latence élevée due à l'échantillonnage itératif, incompatible avec le contrôle fin en temps réel. Les approches vision-langage-action (VLA) ou voxel offrent une meilleure généralisation géométrique mais exigent une puissance de calcul et une complexité système nettement supérieures. En greffant une supervision spatiale légère sur ACT, MSACT vise à rester déployable sur systèmes embarqués à ressources limitées. Les résultats annoncés montrent des améliorations en stabilité de localisation et en performance de tâche "dans les conditions testées", formulation prudente signalant que la généralisation reste à démontrer sur une gamme plus large de scénarios. ALOHA, banc de test bimanual développé initialement à Stanford et popularisé par les travaux ACT de Zhao et al. (2023), est devenu une référence académique pour la manipulation fine apprise par imitation. La dérive de localisation sous données limitées reste un obstacle concret au déploiement industriel de bras robotiques appris par démonstration, notamment en assemblage ou conditionnement de précision. Côté compétitif, Physical Intelligence (pi0), Figure AI et 1X Technologies misent sur des architectures VLA plus lourdes visant une généralisabilité plus large ; MSACT propose une voie complémentaire, plus légère, pour les contextes où la latence est critique. Ce preprint n'a pas encore été soumis à revue par les pairs, et aucun déploiement ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper

1 source

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

35

4arXiv cs.RO

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Une équipe de chercheurs propose dans un preprint arXiv publié en juin 2026 (réf. 2606.08657) une architecture baptisée Latent Diffusion Policy (LDP), conçue pour améliorer les politiques visuomotrices basées sur la diffusion appliquées à la manipulation robotique. LDP fonctionne en deux étapes : un encodeur CVAE (variational autoencoder conditionnel) conditionné par l'observation absorbe d'abord la compréhension de la scène, puis un modèle de flow matching génère les trajectoires dans cet espace latent pré-structuré. Pour gérer les dépendances temporelles entre tokens, les auteurs introduisent un entraînement par diffusion forcing par token et un schéma d'inférence en escalier (staircase inference sampling) pour corriger le décalage de distribution qui en résulte. Ils proposent également la rFID (reconstruction FID) comme métrique proxy légère permettant de prédire le succès d'une tâche à partir des seules statistiques de l'espace latent, sans nécessiter d'évaluation complète en simulation. Sur le benchmark RoboTwin 2.0, LDP surpasse DP3 par une marge qualifiée de "substantielle", et les auteurs rapportent un transfert effectif vers des déploiements réels en manipulation bimanuelle. L'enjeu technique central que LDP cherche à résoudre est réel : les politiques de diffusion opérant directement dans l'espace d'action brut imposent à un seul processus de débruitage de gérer simultanément l'interprétation de la scène et la planification précise de trajectoires, ce qui augmente la complexité d'apprentissage et pénalise notamment les tâches exigeant une coordination temporelle fine entre plusieurs bras. Séparer ces deux responsabilités dans un cadre à deux étages est une approche structurellement cohérente. La rFID, si elle se confirme empiriquement, pourrait réduire significativement le coût d'évaluation des politiques en simulation. Cela dit, l'abstract ne fournit pas de chiffres de performance quantitatifs précis, ce qui rend difficile l'évaluation indépendante de la "marge substantielle" revendiquée face à DP3. Ce travail s'inscrit dans un champ très actif depuis la publication de Diffusion Policy (Chi et al., 2023) et de DP3, qui ont établi la diffusion comme paradigme dominant pour l'imitation de comportements robotiques complexes. Le flow matching, plus efficace que la diffusion classique en nombre d'étapes d'inférence, s'y impose progressivement. Les approches concurrentes incluent ACT, RDT-1B et pi-zero (Physical Intelligence), qui explorent d'autres voies pour combiner compréhension visuelle et contrôle moteur à grande échelle. LDP reste pour l'instant un résultat académique sans annonce de déploiement industriel ou de partenariat commercial, et RoboTwin 2.0 est un benchmark de simulation dont le gap sim-to-réel méritera une validation plus large.

RechercheOpinion

1 source

LAGO Policy : diffusion asynchrone sensible à la latence et planification sans collision pour une manipulation fluide

À lire aussi

Diffusion de politique multimodale asynchrone via fusion de guidage sensible à la latence

FA-RDP : une politique de diffusion réactive adaptative en fréquence pour la manipulation à contact riche

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion