
DSSP : une politique d'état de diffusion avec encodage de l'historique complet
Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles.
Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs.
Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.
Impact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.
Dans nos dossiers




