Aller au contenu principal
DSSP : une politique d'état de diffusion avec encodage de l'historique complet
RecherchearXiv cs.RO6sem

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles.

Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs.

Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.

Impact France/UE

Impact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.

À lire aussi

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
1arXiv cs.RO 

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
Entraînement et évaluation des politiques de diffusion avec de longs contextes
2arXiv cs.RO 

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

RecherchePaper
1 source
DADP : politique de diffusion adaptative au domaine
3arXiv cs.RO 

DADP : politique de diffusion adaptative au domaine

Des chercheurs ont publié le 19 juin 2026 la troisième version de DADP (Domain Adaptive Diffusion Policy), un framework de contrôle robotique conçu pour généraliser à des dynamiques physiques inconnues sans nécessiter de réentraînement. Le problème central adressé est la capacité d'une politique apprise en simulation ou dans un environnement donné à fonctionner dans un autre contexte aux propriétés mécaniques différentes, friction, masse, compliance des articulations, ce que l'on appelle l'adaptation zéro-shot. Les auteurs identifient un défaut structurel dans les approches existantes de domain representation learning : lorsqu'un modèle extrait sa représentation du domaine à partir d'un contexte temporel adjacent à l'étape courante, il mélange involontairement des informations statiques (les constantes du domaine physique) avec des propriétés dynamiques transitoires (la vitesse ou la posture instantanée). DADP répond par deux contributions techniques : d'abord le Lagged Context Dynamical Prediction, qui conditionne l'estimation d'état futur sur un contexte historique décalé dans le temps, augmenter ce délai force le modèle à filtrer les propriétés transitoires et à extraire uniquement les invariants du domaine, sans supervision explicite. Ensuite, les représentations de domaine ainsi disentangled sont injectées directement dans le processus génératif du diffusion model, en biaisant la distribution a priori et en reformulant la cible de diffusion. Les résultats sur des benchmarks de locomotion et de manipulation dépassent les méthodes antérieures sur ces axes combinés. L'intérêt pour les intégrateurs robotiques et les équipes R&D est double. Premièrement, DADP aborde directement le sim-to-real gap en proposant une séparation non supervisée entre ce qui appartient à la physique du robot (masse, friction) et ce qui relève de la trajectoire en cours, une distinction que les approches précédentes laissaient au réseau à résoudre implicitement, avec des résultats fragiles. Deuxièmement, l'injection de la représentation domaine dans le processus de diffusion plutôt qu'en simple conditionnement de politique représente un changement architectural notable : cela signifie que la politique génère des actions dont la distribution est intrinsèquement calibrée sur le domaine courant, et non pas simplement corrigée a posteriori. Pour les équipes travaillant sur des déploiements multi-sites ou sur des flottes hétérogènes de manipulateurs industriels, cela ouvre une voie pour réduire le coût de calibration par site. Il convient de nuancer : les benchmarks présentés restent des environnements simulés standardisés (MuJoCo-type), et aucune validation hardware sur un robot physique n'est revendiquée dans l'abstract, un gap classique entre publication académique et déploiement terrain. DADP s'inscrit dans un courant de recherche actif qui cherche à combiner les diffusion policies, popularisées par les travaux de Chi et al. (2023) sur le Diffusion Policy et désormais intégrées dans des systèmes comme pi-zéro de Physical Intelligence ou les pipelines GR00T de NVIDIA, avec des mécanismes d'adaptation contextuelle au domaine physique. Les approches concurrentes incluent les méthodes de domain randomization (entraînement sur une large distribution de dynamiques) et les architectures méta-RL comme PEARL ou MAML, qui supposent un accès à quelques épisodes d'adaptation. DADP se positionne en zéro-shot sans rollouts d'adaptation, ce qui est une contrainte opérationnelle réaliste pour des déploiements industriels où le temps de mise en service est limité. La présence d'un site de visualisation dédié (outsider86.github.io/DomainAdaptiveDiffusionPolicy) et l'itération en version 3 suggèrent une réponse active à la communauté ; une validation expérimentale sur hardware physique constituerait la prochaine étape logique pour ancrer ces résultats dans la réalité industrielle.

RecherchePaper
1 source
OMP : politique Meanflow en une étape avec alignement directionnel
4arXiv cs.RO 

OMP : politique Meanflow en une étape avec alignement directionnel

Une équipe de chercheurs publie OMP (One-step MeanFlow Policy), un framework de contrôle de manipulation robotique capable de générer des trajectoires d'action en une seule passe d'inférence, contre plusieurs dizaines pour les approches par diffusion actuellement dominantes. Présenté sur arXiv (2512.19347, version 3), OMP adapte le paradigme MeanFlow, conçu à l'origine pour la génération d'images, au domaine du contrôle robotique. L'architecture introduit deux contributions techniques principales : un mécanisme d'alignement directionnel (directional alignment) qui synchronise explicitement les vitesses prédites avec les vitesses moyennes réelles, et une Équation de Dérivation Différentielle (DDE) qui approxime l'opérateur Jacobien-Vecteur (JVP) pour découpler les passes avant et arrière, réduisant significativement la complexité mémoire. Évalué sur les benchmarks Adroit et Meta-World, OMP surpasse les méthodes état de l'art en taux de succès et précision de trajectoire, notamment sur les tâches haute précision. L'enjeu est direct pour les intégrateurs et équipes R&D : la latence d'inférence est aujourd'hui le principal goulot d'étranglement des politiques génératives en manipulation temps-réel. Les Diffusion Policies nécessitent typiquement 10 à 100 passes de débruitage par décision, rendant leur déploiement sur hardware embarqué ou dans des boucles de contrôle à haute fréquence difficile. Une politique single-step qui conserve ou dépasse la précision des diffusion models représenterait un saut d'utilisabilité industrielle significatif. La réduction de la complexité mémoire via DDE est également pertinente pour des cibles de déploiement à ressources contraintes. Les résultats sur Adroit et Meta-World sont encourageants, bien que ces benchmarks simulés restent éloignés des conditions de déploiement réel et que la generalisation sim-to-real demeure non démontrée. Le contexte académique dans lequel s'inscrit OMP est dense : les politiques par diffusion (Diffusion Policy, ACT) ont dominé le benchmark de manipulation ces deux dernières années, et l'émergence des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a encore densifié le champ. Les approches par flow matching (dont MeanFlow est une variante) cherchent à concurrencer la diffusion en offrant une trajectoire d'inférence plus directe, inspirées des succès en génération d'images avec des modèles comme Stable Diffusion 3. OMP se positionne dans cette lignée avec une correction théorique spécifique aux pathologies robotiques (biais spectral, starvation de gradient en régime basse vitesse) absentes en vision. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; il s'agit d'une contribution de recherche fondamentale avec résultats sur simulateurs.

RecherchePaper
1 source