Optimisation par diffusion pour accélérer la convergenc…

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

45

1arXiv cs.RO

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (2506.13456) BAC, pour Block-wise Adaptive Caching, une méthode d'accélération de l'inférence pour Diffusion Policy. Le principe : mettre en cache les features d'action intermédiaires générées lors des étapes répétitives de débruitage (denoising), puis les réutiliser sélectivement selon un schéma adaptatif au niveau de chaque bloc du transformeur. Résultat annoncé : jusqu'à 3x de speedup à l'inférence, sans dégradation des performances en génération d'action. BAC est training-free et compatible avec les architectures Diffusion Policy à base de transformeur ainsi qu'avec les modèles vision-language-action (VLA). Les expériences couvrent plusieurs benchmarks robotiques standards, sans déploiement matériel réel annoncé dans ce papier. L'enjeu est direct pour le déploiement industriel : Diffusion Policy est l'une des approches les plus solides pour le contrôle visuomoteur de robots manipulateurs, mais son coût computationnel élevé la rend impraticable en contrôle temps-réel embarqué. Un facteur 3x sans re-training représente un gain opérationnel concret, il suffit d'intégrer BAC sur un modèle existant déjà entraîné. Deux mécanismes y contribuent : un Adaptive Caching Scheduler qui identifie les pas de temps optimaux pour rafraîchir le cache en maximisant la similarité globale des features, et un Bubbling Union Algorithm qui corrige la propagation d'erreurs entre blocs FFN (Feed-Forward Network), principale limite des approches naïves de caching. Diffusion Policy, introduite par Chi et al. en 2023, s'est imposée comme référence pour la manipulation précise, mais son inférence multi-step la pénalise face aux politiques autorégressives ou MLP sur les contraintes de latence. Les techniques d'accélération des modèles de diffusion conçues pour la génération d'images (DDIM, DeepCache) ne se transfèrent pas directement à la robotique en raison de divergences architecturales et de la nature séquentielle des données d'action, c'est précisément le gap que BAC prétend combler. La méthode est compatible avec les VLA récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui lui confère un périmètre d'application large sur l'écosystème actuel. La validation reste cependant limitée aux benchmarks simulés ; une confirmation sur hardware réel en conditions d'inférence embarquée sera nécessaire pour évaluer l'impact opérationnel réel.

RecherchePaper

1 source

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

45

2arXiv cs.RO

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.06049) un framework baptisé L-SDPPO, conçu pour la manipulation robotique à bord des engins spatiaux. L'objectif : permettre à des bras robotiques opérant à l'intérieur de vaisseaux habités de réaliser des tâches précises, comme l'ouverture de trappes ou le bouchage de contenants, dans des conditions de micropesanteur. Le système combine une politique de diffusion à spics neuronaux (Spiking Diffusion Policy, SDP) avec un algorithme d'apprentissage par renforcement de type PPO. À cela s'ajoute un mécanisme original, le SDLI (state-dependent latency injection), qui module dynamiquement le timing des signaux d'entrée en imitant les délais biologiques des neurones. Les auteurs rapportent des taux de succès supérieurs à l'état de l'art sur cinq tâches représentatives, avec une consommation énergétique réduite par rapport aux architectures classiques. Le défi adressé est réel : dans un environnement sans gravité, les objets dérivent librement et de manière imprévisible, rendant les distributions d'actions multimodales difficiles à modéliser. Les politiques de diffusion classiques (Diffusion Policy, DP) gèrent bien cette complexité, mais leur processus d'échantillonnage itératif est coûteux en énergie, ce qui pose problème dans des systèmes embarqués aux budgets énergétiques serrés. Le recours aux réseaux de neurones à impulsions (spiking neural networks), naturellement plus frugaux, combiné à l'optimisation par RL, constitue une réponse architecturale cohérente. Si les résultats présentés sont prometteurs, les benchmarks utilisés restent des simulations de tâches intravéhiculaires, et aucune validation en conditions orbitales réelles n'est rapportée à ce stade. Ce travail s'inscrit dans un effort plus large pour doter les stations spatiales et vaisseaux habités de robots capables d'assister ou de remplacer les astronautes lors de tâches répétitives ou risquées, une priorité affichée par la NASA et l'ESA. Côté concurrence académique, des travaux antérieurs ont exploré les politiques de diffusion en robotique terrestre (Pi-0 de Physical Intelligence, par exemple), mais leur adaptation aux contraintes orbitales reste largement ouverte. La prochaine étape naturelle serait une validation sur hardware embarqué, voire un test en environnement parabolique ou en orbite basse, un saut qui conditionne l'adoption réelle de ce type de système.

UEL'ESA figure parmi les organisations dont la feuille de route en robotique spatiale est directement concernée par ce type de travaux, mais l'absence de validation hors simulation limite l'impact concret à court terme.

RecherchePaper

1 source

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde

35

3arXiv cs.RO

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde

Des chercheurs ont publié sur arXiv (2604.26910) un framework de planification pour robots à pattes assistés par câble, capables de grimper des surfaces verticales. Le système repose sur une optimisation bi-niveau qui résout un problème mixte entier-continu : au niveau supérieur, la méthode Cross-Entropy sélectionne les régions de terrain viables pour l'appui des membres ; au niveau inférieur, une optimisation non linéaire à gradient calcule les mouvements dynamiquement réalisables, en optimisant simultanément les tensions du câble, les forces exercées par les pattes, et la localisation précise des points de contact. L'approche est validée sur une plateforme expérimentale inédite baptisée ALPINE, testée sur plusieurs configurations de terrain difficiles. L'intérêt principal réside dans la décomposition du problème de planification de contact sur surfaces verticales, longtemps considéré comme computationnellement intractable pour les robots à pattes. Le schéma bi-niveau sépare la sélection discrète des zones d'appui de l'optimisation continue des forces et trajectoires, rendant le problème soluble en temps raisonnable. Pour les concepteurs de robots d'inspection d'infrastructure, de maintenance en hauteur ou de recherche en milieu confiné vertical, cette architecture offre un cadre de planification là où les AMR à roues sont inopérants. La robotique grimpante reste un domaine de niche en progression. Les approches antérieures reposaient principalement sur des ventouses, des griffes ou des systèmes d'escalade fortement contraints géométriquement. L'hybridation câble-pattes ouvre une voie potentiellement plus adaptable aux surfaces irrégulières. ETH Zurich via ANYbotics, le MIT et Boston Dynamics ont exploré la locomotion en terrain difficile, mais sans assistance câble active intégrée dans la boucle de planification. ALPINE constitue donc une contribution expérimentale distincte, même si le papier reste un preprint sans validation industrielle ni déploiement annoncé.

RecherchePaper

1 source

Relier la planification discrète à l'exécution continue pour les robots redondants

43

4arXiv cs.RO

Relier la planification discrète à l'exécution continue pour les robots redondants

Des chercheurs publient sur arXiv (identifiant 2604.02021) un cadre de transition entre planification discrète et exécution continue pour bras manipulateurs redondants à 7 degrés de liberté. Le constat de départ est pratique : les trajectoires générées par apprentissage par renforcement sur grille voxel, exécutées directement via cinématique inverse numérique point par point, produisent du jitter de pas, des transitions articulaires brusques et des instabilités au voisinage de configurations singulières. La méthode proposée agit sur deux niveaux sans modifier le planificateur existant. Côté planification : des actions cartésiennes à 26 voisins normalisées en pas et un mécanisme de tie-breaking géométrique qui supprime les virages inutiles et les oscillations. Côté exécution : une couche TP-DLS (task-priority damped least-squares IK) où la position de l'effecteur terminal est traitée comme tâche primaire, le centrage articulaire et le contrôle de posture étant projetés dans l'espace nul comme tâches subordonnées, combinés à un clipping par région de confiance et des contraintes de vitesse articulaire. Sur un 7-DOF testé en environnements sparse, medium et dense générés aléatoirement : taux de succès en scène dense de 0,58 à 1,00, longueur de chemin de 1,53 m à 1,10 m, erreur d'effecteur inférieure à 1 mm, accélérations articulaires de pointe réduites de plus d'un ordre de grandeur. L'intérêt opérationnel est la modularité : la couche TP-DLS s'insère comme un module plug-in sans retoucher le planificateur sous-jacent, abaissant le coût d'adoption pour les équipes qui disposent déjà d'un planificateur RL voxel-grid. La réduction des accélérations de pointe d'un facteur supérieur à 10 se traduit directement par moins d'usure mécanique, une moindre sollicitation des servomoteurs et une meilleure compatibilité avec les normes cobotiques (ISO/TS 15066). Le passage de 58 % à 100 % de succès en scènes denses est surtout un signal de diagnostic : il indique que le goulot d'étranglement n'était pas le planificateur RL mais bien la couche de conversion discret-continu, une hypothèse rarement testée explicitement dans la littérature. Limite à noter : tous les résultats restent en simulation sur environnements générés aléatoirement, sans validation sur hardware réel ni benchmark standardisé de la communauté. La cinématique inverse DLS et la gestion par priorité de tâche sont des techniques classiques issues des travaux de Nakamura et Hanafusa (1986) et de Siciliano et Slotine (1991) ; la contribution ici est leur intégration calibrée dans un pipeline RL voxel-grid avec des heuristiques spécifiques à la discontinuité des actions discrètes. Les premiers concernés sont les intégrateurs et équipementiers utilisant des bras 7-DOF redondants tels que Franka Robotics (FR3), KUKA (LBR iiwa) ou Kinova (Gen3). Aucun partenariat industriel ni timeline de transfert technologique n'est annoncé dans le preprint. La suite logique serait une validation sur robot physique et une comparaison directe avec des planificateurs continus comme CHOMP ou TrajOpt, qui résolvent le problème de manière différente mais avec un coût computationnel nettement plus élevé.

UEKUKA (LBR iiwa) et Franka Robotics (FR3), deux fabricants européens de bras redondants 7-DOF explicitement ciblés, pourraient réduire leur coût d'intégration de planificateurs RL et améliorer leur conformité ISO/TS 15066 grâce à ce module plug-in, sous réserve de validation hardware.

RecherchePaper

1 source

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

À lire aussi

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde

Relier la planification discrète à l'exécution continue pour les robots redondants