
FLASH : politique visuomotrice efficace par échantillonnage parcimonieux
Des chercheurs ont publié le 21 mai 2026 sur arXiv (2605.15492) une nouvelle architecture de politique visuomotrice baptisée FLASH, pour Fast Legendre-polynomial Action policy via Sparse History-anchored flow. L'idée centrale est de remplacer la génération d'actions par débruitage itératif, caractéristique des politiques par diffusion et par flow matching, par une représentation continue de trajectoires en polynômes de Legendre. En ajustant des démonstrations expertes sous échantillonnage temporel clairsemé, FLASH couvre un horizon d'action étendu en une seule inférence. Le processus de flow matching est initialisé non pas depuis un bruit gaussien non informatif, mais depuis les coefficients polynomiaux de l'historique récent, ce qui réduit la distance de transport et rend possible l'inférence en un seul pas. Sur cinq tâches de manipulation simulées et deux tâches réelles, FLASH atteint un taux de succès supérieur ou égal à 92 % sur l'ensemble des scénarios, un temps d'inférence de 31,40 ms par épisode, une convergence à l'entraînement jusqu'à quatre fois plus rapide qu'ACT, et une réduction de l'erreur de suivi du contrôleur de 5x à 7x par rapport aux baselines à actions discrètes.
Ces résultats s'attaquent directement au principal obstacle à la robotique temps réel avec des politiques génératives : la latence. Les politiques par diffusion (Diffusion Policy, Chi et al. 2023) pouvaient nécessiter des dizaines de passes de débruitage, rendant leur déploiement sur des robots à boucle de contrôle rapide difficile ou nécessitant des compromis matériels coûteux. Le gain annoncé, jusqu'à 175x plus rapide que les politiques par diffusion, 18x plus rapide que les implémentations précédentes de flow matching, est significatif si confirmé hors laboratoire. La dérivation analytique du polynôme fournit directement les signaux de feed-forward en vitesse au contrôleur de couple, sans approximation numérique : c'est un point concret pour les intégrateurs, car la qualité du suivi de trajectoire conditionne directement la reproductibilité industrielle. Il faudra toutefois nuancer : les benchmarks présentés portent sur des tâches de manipulation relativement standardisées, et les vidéos de démonstration n'ont pas encore été soumises à une évaluation indépendante.
L'article s'inscrit dans une dynamique de recherche intense autour des politiques génératives pour la manipulation, initiée par Diffusion Policy (2023) et accélérée par des architectures comme ACT (Action Chunking with Transformers), $\pi0$ de Physical Intelligence, et les variantes de flow matching embarquées dans des systèmes comme GR00T N2 de NVIDIA ou Helix de Figure. FLASH est un travail académique publié sur preprint, pas un produit commercialisé ni un déploiement annoncé, et son positionnement face à $\pi0$ fast (qui visait déjà la réduction de latence via distillation) méritera comparaison directe. La prochaine étape naturelle sera une validation sur des manipulateurs industriels avec des charges utiles et des cycles répétitifs, conditions où les 31 ms d'inférence et la robustesse du suivi de trajectoire feront réellement la différence.
Dans nos dossiers




