L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule
Une équipe de chercheurs a publié sur arXiv (arXiv:2606.06049) un framework baptisé L-SDPPO, conçu pour la manipulation robotique à bord des engins spatiaux. L'objectif : permettre à des bras robotiques opérant à l'intérieur de vaisseaux habités de réaliser des tâches précises, comme l'ouverture de trappes ou le bouchage de contenants, dans des conditions de micropesanteur. Le système combine une politique de diffusion à spics neuronaux (Spiking Diffusion Policy, SDP) avec un algorithme d'apprentissage par renforcement de type PPO. À cela s'ajoute un mécanisme original, le SDLI (state-dependent latency injection), qui module dynamiquement le timing des signaux d'entrée en imitant les délais biologiques des neurones. Les auteurs rapportent des taux de succès supérieurs à l'état de l'art sur cinq tâches représentatives, avec une consommation énergétique réduite par rapport aux architectures classiques.
Le défi adressé est réel : dans un environnement sans gravité, les objets dérivent librement et de manière imprévisible, rendant les distributions d'actions multimodales difficiles à modéliser. Les politiques de diffusion classiques (Diffusion Policy, DP) gèrent bien cette complexité, mais leur processus d'échantillonnage itératif est coûteux en énergie, ce qui pose problème dans des systèmes embarqués aux budgets énergétiques serrés. Le recours aux réseaux de neurones à impulsions (spiking neural networks), naturellement plus frugaux, combiné à l'optimisation par RL, constitue une réponse architecturale cohérente. Si les résultats présentés sont prometteurs, les benchmarks utilisés restent des simulations de tâches intravéhiculaires, et aucune validation en conditions orbitales réelles n'est rapportée à ce stade.
Ce travail s'inscrit dans un effort plus large pour doter les stations spatiales et vaisseaux habités de robots capables d'assister ou de remplacer les astronautes lors de tâches répétitives ou risquées, une priorité affichée par la NASA et l'ESA. Côté concurrence académique, des travaux antérieurs ont exploré les politiques de diffusion en robotique terrestre (Pi-0 de Physical Intelligence, par exemple), mais leur adaptation aux contraintes orbitales reste largement ouverte. La prochaine étape naturelle serait une validation sur hardware embarqué, voire un test en environnement parabolique ou en orbite basse, un saut qui conditionne l'adoption réelle de ce type de système.
L'ESA figure parmi les organisations dont la feuille de route en robotique spatiale est directement concernée par ce type de travaux, mais l'absence de validation hors simulation limite l'impact concret à court terme.
Dans nos dossiers




