Aller au contenu principal
RecherchearXiv cs.RO1h

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.06049) un framework baptisé L-SDPPO, conçu pour la manipulation robotique à bord des engins spatiaux. L'objectif : permettre à des bras robotiques opérant à l'intérieur de vaisseaux habités de réaliser des tâches précises, comme l'ouverture de trappes ou le bouchage de contenants, dans des conditions de micropesanteur. Le système combine une politique de diffusion à spics neuronaux (Spiking Diffusion Policy, SDP) avec un algorithme d'apprentissage par renforcement de type PPO. À cela s'ajoute un mécanisme original, le SDLI (state-dependent latency injection), qui module dynamiquement le timing des signaux d'entrée en imitant les délais biologiques des neurones. Les auteurs rapportent des taux de succès supérieurs à l'état de l'art sur cinq tâches représentatives, avec une consommation énergétique réduite par rapport aux architectures classiques.

Le défi adressé est réel : dans un environnement sans gravité, les objets dérivent librement et de manière imprévisible, rendant les distributions d'actions multimodales difficiles à modéliser. Les politiques de diffusion classiques (Diffusion Policy, DP) gèrent bien cette complexité, mais leur processus d'échantillonnage itératif est coûteux en énergie, ce qui pose problème dans des systèmes embarqués aux budgets énergétiques serrés. Le recours aux réseaux de neurones à impulsions (spiking neural networks), naturellement plus frugaux, combiné à l'optimisation par RL, constitue une réponse architecturale cohérente. Si les résultats présentés sont prometteurs, les benchmarks utilisés restent des simulations de tâches intravéhiculaires, et aucune validation en conditions orbitales réelles n'est rapportée à ce stade.

Ce travail s'inscrit dans un effort plus large pour doter les stations spatiales et vaisseaux habités de robots capables d'assister ou de remplacer les astronautes lors de tâches répétitives ou risquées, une priorité affichée par la NASA et l'ESA. Côté concurrence académique, des travaux antérieurs ont exploré les politiques de diffusion en robotique terrestre (Pi-0 de Physical Intelligence, par exemple), mais leur adaptation aux contraintes orbitales reste largement ouverte. La prochaine étape naturelle serait une validation sur hardware embarqué, voire un test en environnement parabolique ou en orbite basse, un saut qui conditionne l'adoption réelle de ce type de système.

Impact France/UE

L'ESA figure parmi les organisations dont la feuille de route en robotique spatiale est directement concernée par ce type de travaux, mais l'absence de validation hors simulation limite l'impact concret à court terme.

À lire aussi

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique
1arXiv cs.RO 

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique

Une équipe de chercheurs publie SeedPolicy, une nouvelle méthode d'apprentissage par imitation (IL) pour la manipulation robotique, dans un preprint arXiv (2503.05117). L'innovation centrale est SEGA (Self-Evolving Gated Attention), un module temporel qui maintient un état latent évolutif via de l'attention à porte (gated attention), permettant des mises à jour récurrentes qui accumulent le contexte à long terme tout en filtrant les informations temporelles non pertinentes. Intégré à la Diffusion Policy (DP), le modèle résultant, SeedPolicy, est évalué sur le benchmark RoboTwin 2.0 avec 50 tâches de manipulation distinctes. Les résultats, moyennés sur des backbones CNN et Transformer : +36,8 % d'amélioration relative par rapport à la DP standard en conditions propres, et +169 % en conditions aléatoires et perturbées. Face à RDT, un modèle vision-langage-action (VLA) de 1,2 milliard de paramètres, SeedPolicy obtient de meilleures performances en conditions propres avec un à deux ordres de grandeur de moins en taille de modèle. Le problème de la manipulation à long horizon, enchaîner des séquences d'actions sur des périodes étendues, constitue un goulot d'étranglement persistant en IL. La Diffusion Policy standard se dégrade lorsqu'on empile davantage d'horizons d'observation, perdant la capacité à maintenir le contexte temporel. SEGA règle ce problème sans le coût computationnel des grands VLAs. Le +169 % en conditions perturbées (contre +36,8 % en conditions propres) est le chiffre le plus significatif : il indique une meilleure généralisation sous perturbation, critique pour tout déploiement réel. L'argument d'efficacité paramétrique conteste directement l'hypothèse selon laquelle la mise à l'échelle serait nécessaire pour la manipulation complexe. La Diffusion Policy est issue des travaux de Columbia University (Chi et al., 2023) et constitue aujourd'hui une baseline de référence en robot learning. Le domaine s'est depuis bifurqué : un camp mise sur les modèles de fondation et les VLAs (RDT, Pi-0 de Physical Intelligence, OpenVLA, Octo), l'autre sur la modélisation temporelle efficiente à moindre coût. SeedPolicy s'inscrit résolument dans le second. À noter : l'ensemble des résultats est obtenu en simulation sur RoboTwin 2.0, sans démonstration de transfert sim-to-réel, ce qui reste l'épreuve déterminante pour les intégrateurs industriels. Le code est disponible sous dépôt anonyme, ce qui suggère un article en cours de révision par les pairs. Aucun déploiement industriel ni calendrier commercial n'est annoncé.

RechercheOpinion
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
2arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source
Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile
3arXiv cs.RO 

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile

Mobile UMI, soumis sur arXiv (arXiv:2605.20894) en mai 2026, présente un framework de collecte de démonstrations sans robot dédié pour l'apprentissage par imitation sur manipulateur mobile. Le dispositif repose sur trois composants: un rig à deux caméras portées par l'opérateur humain (poitrine pour la navigation globale, poignet pour l'interaction locale), une ancre spatiale ChArUco en prise unique qui recale les deux repères visuels-inertiels et découple la trajectoire de manipulation en SE(3) de celle de navigation en SE(2), et un exécuteur asynchrone à horizon glissant (receding-horizon) qui réaligne en temps réel chaque chunk d'actions généré sur la pose physique courante du robot. Sur quatre tâches domestiques longue-séquence évaluées à 100 essais chacune, le système atteint un taux de réussite moyen de 83,8%, devançant les baselines ACT et Diffusion Policy testées dans les mêmes conditions. Ce résultat s'attaque à deux goulots structurels du mobile manipulation: les labels d'action contaminés par la locomotion humaine lors de la collecte, et la latence d'inférence des politiques de diffusion (plusieurs centaines de millisecondes), pendant laquelle la base avance et rend les waypoints planifiés caducs. En découplant cinématiquement la main du torse, les trajectoires d'entraînement deviennent cohérentes indépendamment de la démarche de l'opérateur. L'approche est architecturalement agnostique, ce qui est un point fort concret pour les intégrateurs: aucune modification de la politique sous-jacente n'est requise, et les ablations confirment que le référentiel thoracique seul comble l'essentiel de l'écart de performance, la synchronisation d'état fermant le reste. Mobile UMI étend l'Universal Manipulation Interface (UMI) de Chi et al. (Stanford/Columbia, 2023), interface poignet à bas coût qui a popularisé la collecte téléopérée pour la manipulation sur table. L'extension à la base mobile était un verrou reconnu: les approches dominantes comme RT-2, OpenVLA ou Pi-0 de Physical Intelligence ciblent essentiellement des bras fixes ou des déplacements très contraints. Des acteurs comme Boston Dynamics avec Spot et son bras, ou des projets académiques comme MoMa (Mobile Manipulation), opèrent dans ce même espace concurrentiel. Le travail reste un preprint non évalué, sans déploiement industriel annoncé ni partenaire matériel cité; les conditions précises des essais (charge utile, vitesse de base, surface de test) ne sont pas détaillées dans l'abstract, ce qui limite la comparabilité directe avec d'autres benchmarks publiés.

RechercheOpinion
1 source
Suivi de main par vision pour la manipulation robotique via cinématique inverse
4arXiv cs.RO 

Suivi de main par vision pour la manipulation robotique via cinématique inverse

Des chercheurs ont publié sur arXiv (réf. 2603.11383) une pipeline de télé-opération bas coût pour bras manipulateurs, baptisée hand-shadowing : une caméra RGB-D égocentrique montée sur des lunettes imprimées en 3D capte les mains de l'opérateur, MediaPipe Hands en extrait 21 points de repère par main, la profondeur les projette dans l'espace 3D, et un algorithme de cinématique inverse à moindres carrés atténués (damped least-squares IK) génère les commandes articulaires du robot SO-ARM101 (5 degrés de liberté + 1 préhenseur). Les actions sont d'abord validées dans un simulateur physique avant d'être rejouées sur le robot réel. Sur un benchmark structuré pick-and-place (grille 5 cases, 10 saisies par case, 3 runs indépendants), la pipeline atteint un taux de succès de 86,7 % ± 4,2 %, avec une erreur IK moyenne de 36,4 mm et une réduction du jerk de 57 à 68 % grâce à un lissage par moyenne mobile exponentielle (EMA). En environnements non structurés réels (supermarché, pharmacie), ce taux chute à 9,3 %, principalement à cause de l'occultation des mains par les objets environnants. Ce résultat illustre avec brutalité le reality gap qui sépare les conditions de laboratoire du déploiement industriel : une marge de 77 points entre les deux contextes n'est pas un détail d'intégration, c'est un défi de fond pour toute approche marker-free analytique. La comparaison directe avec quatre politiques VLA entraînées sur données leader-follower (ACT, SmolVLA, pi_0.5 de Physical Intelligence et GR00T N1.5 de NVIDIA) est méthodologiquement utile : elle positionne cette approche de retargeting pur face aux modèles appris, et quantifie l'écart sans se limiter à la démonstration sélective. Pour un COO ou un intégrateur, le message est clair : le bas coût matériel (lunettes imprimées, caméra grand public) ne compense pas encore l'insuffisance de robustesse à l'occlusion. La télé-opération reste un goulot d'étranglement majeur pour la collecte de données d'entraînement robotique, et les systèmes leader-follower filaires ou magnétiques restent chers et contraignants. Ce travail s'inscrit dans une vague de recherche qui cherche à démocratiser la capture de démonstrations avec du matériel grand public, aux côtés d'approches comme UMI (Columbia) ou AnyTeleop. Pour contourner la faiblesse de MediaPipe face à l'occlusion, les auteurs intègrent WiLoR comme détecteur alternatif et obtiennent 8 % de gain en taux de détection, une amélioration modeste qui confirme que le problème reste ouvert. La prochaine étape logique serait d'ajouter une gestion multi-vues ou un suivi temporel robuste pour traiter les environnements encombrés, conditions précisément où la télé-opération sans marqueur aurait le plus de valeur.

RecherchePaper
1 source