Aller au contenu principal
MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet
RecherchearXiv cs.RO2h

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié MoDex, une politique de diffusion conçue pour saisir séquentiellement plusieurs objets avec une seule main robotique dextère, sans relâcher ceux déjà tenus. Le système, présenté dans un preprint arXiv (2606.05407), a été évalué sur un bras Franka Emika Panda équipé d'une main Allegro à 16 degrés de liberté, en simulation MuJoCo et sur plateforme physique réelle. MoDex prédit la prochaine pose du préhenseur directement depuis les observations, conditionnée sur un nuage de points 3D et un espace dit "d'opposition" qui détermine quels doigts participent à la saisie courante. Ce mécanisme permet de n'utiliser qu'un sous-ensemble des DOF disponibles pour l'objet en cours, en réservant le reste pour les saisies suivantes. L'entraînement se déroule en deux phases : d'abord par imitation learning sur des démonstrations expertes, puis par fine-tuning par renforcement (RL), qui améliore systématiquement les taux de succès. En simulation, MoDex surpasse les baselines d'apprentissage évalués de 2,92 à 17,92 % ; en conditions réelles, le gain s'établit entre 6,67 et 17,78 %.

L'enjeu technique est significatif : la quasi-totalité des méthodes de saisie dextère existantes mobilisent l'intégralité des DOF de la main pour chaque objet, la rendant inutilisable pour une prise successive sans reposer les objets intermédiaires. MoDex démontre qu'une politique de diffusion conditionnée sur l'espace d'opposition permet de résoudre ce problème de coordination des doigts avec des gains mesurables, y compris en transfert sim-to-réel. Le fait que le fine-tuning RL améliore systématiquement la politique pré-entraînée confirme l'intérêt de l'approche hybride imitation plus renforcement pour des tâches de manipulation complexe. Pour les intégrateurs industriels et les équipes de robotique, ce résultat suggère que des préhenseurs dextères multi-doigts peuvent être exploités de manière nettement plus efficace qu'aujourd'hui, notamment pour des tâches d'assemblage ou de tri où l'agent doit accumuler plusieurs pièces sans cycle de dépôt intermédiaire.

Ce travail s'inscrit dans un champ de recherche actif autour de la manipulation dextère, où la main Allegro, commercialisée par Wonik Robotics, sert de plateforme de référence dans de nombreux laboratoires. Les approches concurrentes incluent des méthodes d'imitation pure comme DexGraspNet ou des politiques RL entraînées sur des saisies à un seul objet. Il s'agit d'un preprint académique sans partenaire industriel annoncé ni calendrier de déploiement. La page projet (modex2026.github.io) et le code sont disponibles, ce qui facilite la reproductibilité. La suite logique serait d'étendre l'évaluation à un plus grand nombre d'objets simultanés et à des géométries plus complexes, et de tester sur des plates-formes alternatives comme la Shadow Hand de Shadow Robot Company.

Impact France/UE

La plateforme Franka Emika Panda, d'origine allemande, est utilisée comme banc de test de référence, ce qui donne aux laboratoires européens un accès direct pour reproduire ces résultats, mais le travail reste académique sans partenariat industriel ou déploiement EU annoncé.

Dans nos dossiers

À lire aussi

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile
1arXiv cs.RO 

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile

Mobile UMI, soumis sur arXiv (arXiv:2605.20894) en mai 2026, présente un framework de collecte de démonstrations sans robot dédié pour l'apprentissage par imitation sur manipulateur mobile. Le dispositif repose sur trois composants: un rig à deux caméras portées par l'opérateur humain (poitrine pour la navigation globale, poignet pour l'interaction locale), une ancre spatiale ChArUco en prise unique qui recale les deux repères visuels-inertiels et découple la trajectoire de manipulation en SE(3) de celle de navigation en SE(2), et un exécuteur asynchrone à horizon glissant (receding-horizon) qui réaligne en temps réel chaque chunk d'actions généré sur la pose physique courante du robot. Sur quatre tâches domestiques longue-séquence évaluées à 100 essais chacune, le système atteint un taux de réussite moyen de 83,8%, devançant les baselines ACT et Diffusion Policy testées dans les mêmes conditions. Ce résultat s'attaque à deux goulots structurels du mobile manipulation: les labels d'action contaminés par la locomotion humaine lors de la collecte, et la latence d'inférence des politiques de diffusion (plusieurs centaines de millisecondes), pendant laquelle la base avance et rend les waypoints planifiés caducs. En découplant cinématiquement la main du torse, les trajectoires d'entraînement deviennent cohérentes indépendamment de la démarche de l'opérateur. L'approche est architecturalement agnostique, ce qui est un point fort concret pour les intégrateurs: aucune modification de la politique sous-jacente n'est requise, et les ablations confirment que le référentiel thoracique seul comble l'essentiel de l'écart de performance, la synchronisation d'état fermant le reste. Mobile UMI étend l'Universal Manipulation Interface (UMI) de Chi et al. (Stanford/Columbia, 2023), interface poignet à bas coût qui a popularisé la collecte téléopérée pour la manipulation sur table. L'extension à la base mobile était un verrou reconnu: les approches dominantes comme RT-2, OpenVLA ou Pi-0 de Physical Intelligence ciblent essentiellement des bras fixes ou des déplacements très contraints. Des acteurs comme Boston Dynamics avec Spot et son bras, ou des projets académiques comme MoMa (Mobile Manipulation), opèrent dans ce même espace concurrentiel. Le travail reste un preprint non évalué, sans déploiement industriel annoncé ni partenaire matériel cité; les conditions précises des essais (charge utile, vitesse de base, surface de test) ne sont pas détaillées dans l'abstract, ce qui limite la comparabilité directe avec d'autres benchmarks publiés.

RechercheOpinion
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
2arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source
Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
3arXiv cs.RO 

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
4arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source