
STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle
Publiée sur arXiv en février 2026 (arXiv:2602.08245v2), STEP (Spatiotemporal Consistency Prediction) est une méthode conçue pour accélérer les diffusion policies en manipulation robotique sans dégrader la qualité d'exécution. Les diffusion policies modélisent des distributions de séquences d'actions avec une forte capacité à capturer la multimodalité des comportements, mais leur processus de débruitage itératif engendre une latence d'inférence élevée qui limite la fréquence de contrôle en boucle fermée temps réel. STEP génère des actions de démarrage à chaud (warm-start) distributivement proches de la cible et temporellement cohérentes, couplées à un mécanisme d'injection de perturbation sensible à la vélocité qui module dynamiquement l'excitation d'actuation pour éviter les blocages d'exécution en conditions réelles. Avec seulement 2 pas de débruitage, la méthode surpasse BRIDGER de 21,6% en taux de succès moyen sur le benchmark RoboMimic, et DDIM de 27,5% sur deux tâches physiques réelles, pour un total de neuf benchmarks simulés évalués. Le code est publié en open source sur GitHub (github.com/Kimho666/STEP).
L'enjeu pratique est la déployabilité en production: une fréquence de contrôle trop basse rend une politique visuomotrice fragile face aux perturbations dynamiques, ce qui freine l'adoption industrielle de ces approches pourtant performantes en simulation. STEP avance la frontière de Pareto entre latence d'inférence et taux de succès là où les méthodes précédentes, réduction du nombre de pas d'échantillonnage, prédiction directe ou réutilisation d'actions passées, sacrifiaient l'une ou l'autre. La validation sur des tâches physiques réelles, et non uniquement en simulation, renforce la crédibilité du sim-to-real transfer, souvent contesté dans la littérature robotique. Les auteurs fournissent également une analyse théorique montrant que le mécanisme de prédiction introduit un mapping localement contractant, garantissant la convergence des erreurs d'action pendant le raffinement par diffusion, un argument formel solide pour des équipes R&D cherchant à fiabiliser leur pipeline avant déploiement.
Les diffusion policies pour la manipulation ont émergé autour de 2023 avec les travaux de Chi et al. (Diffusion Policy), suivis rapidement de variantes d'accélération comme DDIM, emprunté à la génération d'images, et BRIDGER, que STEP dépasse désormais sur les deux métriques clés simultanément. Dans le paysage plus large des architectures visuomotrices, la méthode est complémentaire des VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou OpenVLA, où la latence d'inférence constitue un goulot d'étranglement comparable. Aucun acteur européen n'est directement impliqué dans cette publication, mais la disponibilité open source permettra à des équipes comme celles de l'INRIA ou de laboratoires spécialisés en manipulation flexible d'intégrer directement la méthode dans leurs pipelines existants. Les prochaines étapes naturelles incluront l'évaluation sur des robots mobiles manipulateurs et des environnements industriels non structurés, ainsi que l'intégration dans des architectures VLA de plus grande envergure.




