Encodage de la prévisibilité et de la lisibilité pour u…

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

43

1arXiv cs.RO

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles. Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs. Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.

UEImpact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.

RechercheOpinion

1 source

Politique de diffusion sensible aux phases et contrainte par la rugosité pour le polissage robotique multiphasé

51

2arXiv cs.RO

Politique de diffusion sensible aux phases et contrainte par la rugosité pour le polissage robotique multiphasé

Des chercheurs ont publié sur arXiv (2606.25754) une politique de diffusion baptisée SRDP (Stage-Aware and Roughness-Constrained Diffusion Policy) conçue pour le polissage robotique multi-étapes en environnement industriel. Le système cible en priorité l'aérospatiale, secteur où la qualité de surface conditionne directement la tenue mécanique et la fiabilité des pièces. SRDP infère en continu la phase de polissage en cours (ébauche, semi-finition, finition) à partir d'un historique d'observations multimodales, sans nécessiter d'étiquettes de phase fournies manuellement lors de l'exécution. Le générateur d'actions contraint ensuite la vitesse d'avance et la force de contact normale selon les vitesses de broche préréglées par étape, via un échantillonnage de diffusion orienté rugosité. Les expériences ont été menées sur deux scénarios représentatifs : polissage d'un revêtement de cabine de vaisseau spatial et finition de surfaces structurelles en cavité interne, avec validation sur robot réel. L'enjeu industriel est direct : le polissage reste l'une des tâches les plus difficiles à automatiser par apprentissage par imitation, en raison des dépendances temporelles longues, des transitions de phase incertaines et du couplage fort entre paramètres process (force, vitesse, rugosité cible). Les approches existantes échouent précisément parce qu'elles ignorent la nature séquentielle des étapes ou ne peuvent pas réguler les paramètres physiques de manière cohérente. SRDP rompt avec cette limite en conditionnant le processus de débruitage inverse sur la phase inférée, ce qui produit des actions cohérentes avec l'étape courante sans supervision externe. Les résultats montrent une meilleure stabilité lors des transitions de phase, une plus grande consistance des paramètres process et une qualité de surface finale améliorée par rapport aux baselines comparées. Ce travail s'inscrit dans une vague de politiques de diffusion pour la manipulation industrielle fine, portée depuis 2023 par les travaux de Chi et al. sur Diffusion Policy et accélérée par des architectures comme pi0 (Physical Intelligence) ou les politiques de contact de Lerobot. Le polissage était jusqu'ici dominé par des approches de contrôle en force classique ou d'asservissement d'impédance, moins flexibles face à la variété géométrique des pièces. Aucun partenaire industriel ni calendrier de transfert n'est mentionné dans la publication ; il s'agit donc d'un résultat de recherche académique, pas d'un produit commercialisé.

UEImpact indirect pour le secteur aérospatial européen (Airbus, Safran) dont la qualité de surface des pièces conditionne la certification, mais aucun partenaire industriel ni institution européenne n'est impliqué dans ce résultat académique.

RecherchePaper

1 source

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

48

3arXiv cs.RO

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Des chercheurs ont publié MoDex, une politique de diffusion conçue pour saisir séquentiellement plusieurs objets avec une seule main robotique dextère, sans relâcher ceux déjà tenus. Le système, présenté dans un preprint arXiv (2606.05407), a été évalué sur un bras Franka Emika Panda équipé d'une main Allegro à 16 degrés de liberté, en simulation MuJoCo et sur plateforme physique réelle. MoDex prédit la prochaine pose du préhenseur directement depuis les observations, conditionnée sur un nuage de points 3D et un espace dit "d'opposition" qui détermine quels doigts participent à la saisie courante. Ce mécanisme permet de n'utiliser qu'un sous-ensemble des DOF disponibles pour l'objet en cours, en réservant le reste pour les saisies suivantes. L'entraînement se déroule en deux phases : d'abord par imitation learning sur des démonstrations expertes, puis par fine-tuning par renforcement (RL), qui améliore systématiquement les taux de succès. En simulation, MoDex surpasse les baselines d'apprentissage évalués de 2,92 à 17,92 % ; en conditions réelles, le gain s'établit entre 6,67 et 17,78 %. L'enjeu technique est significatif : la quasi-totalité des méthodes de saisie dextère existantes mobilisent l'intégralité des DOF de la main pour chaque objet, la rendant inutilisable pour une prise successive sans reposer les objets intermédiaires. MoDex démontre qu'une politique de diffusion conditionnée sur l'espace d'opposition permet de résoudre ce problème de coordination des doigts avec des gains mesurables, y compris en transfert sim-to-réel. Le fait que le fine-tuning RL améliore systématiquement la politique pré-entraînée confirme l'intérêt de l'approche hybride imitation plus renforcement pour des tâches de manipulation complexe. Pour les intégrateurs industriels et les équipes de robotique, ce résultat suggère que des préhenseurs dextères multi-doigts peuvent être exploités de manière nettement plus efficace qu'aujourd'hui, notamment pour des tâches d'assemblage ou de tri où l'agent doit accumuler plusieurs pièces sans cycle de dépôt intermédiaire. Ce travail s'inscrit dans un champ de recherche actif autour de la manipulation dextère, où la main Allegro, commercialisée par Wonik Robotics, sert de plateforme de référence dans de nombreux laboratoires. Les approches concurrentes incluent des méthodes d'imitation pure comme DexGraspNet ou des politiques RL entraînées sur des saisies à un seul objet. Il s'agit d'un preprint académique sans partenaire industriel annoncé ni calendrier de déploiement. La page projet (modex2026.github.io) et le code sont disponibles, ce qui facilite la reproductibilité. La suite logique serait d'étendre l'évaluation à un plus grand nombre d'objets simultanés et à des géométries plus complexes, et de tester sur des plates-formes alternatives comme la Shadow Hand de Shadow Robot Company.

UELa plateforme Franka Emika Panda, d'origine allemande, est utilisée comme banc de test de référence, ce qui donne aux laboratoires européens un accès direct pour reproduire ces résultats, mais le travail reste académique sans partenariat industriel ou déploiement EU annoncé.

RecherchePaper

1 source

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes

35

4arXiv cs.RO

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes

Un groupe de chercheurs a publié sur arXiv (preprint 2605.15352) une politique de contrôle fondée sur la diffusion, capable de faire ouvrir et franchir une porte à loquet auto-fermant par un robot mobile équipé de deux bras. La tâche ciblée, une porte lourde nécessitant une traction, est décomposée en plusieurs phases enchaînées sans intervention manuelle : rotation de la poignée, traction progressive, maintien de l'ouverture, transfert d'appui entre les deux membres, déplacement de la base, puis passage complet. Le robot repose sur une base non-holonome (incapable de se déplacer latéralement sans rotation préalable), ce qui contraint fortement la coordination simultanée entre châssis et manipulateurs. Les auteurs ne communiquent ni le nom du robot utilisé ni de taux de succès chiffré dans l'abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt technique réside dans l'abandon des automates à états finis classiques, où chaque transition (tirer une fois la poignée tournée, passer une fois l'ouverture suffisante) est programmée manuellement et échoue dès que les conditions réelles dévient du scénario prévu. L'approche par imitation learning, via une diffusion policy (modèle génératif entraîné à reproduire des démonstrations humaines en capturant une distribution de trajectoires plutôt qu'une unique solution), produit une politique unique de bout en bout qui gère l'intégralité de la séquence longue sans découpage explicite. Les auteurs signalent également une robustesse aux perturbations extérieures, comme des poussées appliquées au robot en cours de tâche, résultat difficile à atteindre avec des méthodes classiques. Pour les intégrateurs industriels, les variables clés à valider restent le sim-to-real et la généralisation à la diversité physique des portes réelles. La diffusion policy s'est imposée comme paradigme dominant en manipulation robotique depuis les travaux de Chi et al. (Columbia, 2023) et irrigue aujourd'hui des laboratoires académiques et des start-ups comme Physical Intelligence (Pi-0), 1X Technologies ou Covariant. Ce preprint s'inscrit dans un effort plus large vers la manipulation mobile bimanuelle, segment encore peu couvert commercialement : Boston Dynamics (Spot + bras ARM), Hello Robot (Stretch) ou Kinova opèrent principalement en manipulation unimanuelle ou sur base fixe. Aucune collaboration industrielle ni timeline de déploiement n'est mentionnée, ce qui situe ce travail résolument côté recherche fondamentale, malgré des résultats préliminaires prometteurs sur les longues séquences gestuelles.

RecherchePaper

1 source

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

À lire aussi

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Politique de diffusion sensible aux phases et contrainte par la rugosité pour le polissage robotique multiphasé

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes