
ElasticFlow : une politique à horizon temporel élastique pour la manipulation guidée par le langage
ElasticFlow est un cadre de politique robotique pour la manipulation guidée par le langage, présenté dans un preprint arXiv (2605.08799) publié en mai 2026. L'approche vise à résoudre le principal défaut des politiques de diffusion, dominantes en robotique incarnée depuis 2023: leur processus itératif de débruitage génère une latence incompatible avec le contrôle temps réel. ElasticFlow atteint une inférence en une seule évaluation réseau (1-NFE, Neural Function Evaluation) à environ 71 Hz, sans recourir à la distillation. La méthode est validée sur trois benchmarks standard: LIBERO, CALVIN et RoboTwin, où elle surpasse OpenVLA et Pi-0 (Physical Intelligence) sur des tâches à long horizon temporel.
Le coeur de la contribution est double. D'une part, les auteurs reconstruisent la Mean Field Theory pour modéliser directement le champ de vitesse moyen, ce qui permet un mapping direct bruit-vers-action en une seule passe, sans sacrifier la cohérence physique des trajectoires. D'autre part, le mécanisme "Elastic Time Horizons" encode explicitement la granularité de contrôle afin d'aligner les instructions sémantiques en langage naturel avec les horizons d'exécution physique, adressant le Spectral Bias inherent aux réseaux neuronaux profonds. Si ces gains se confirment sur matériel réel, l'impact pour les intégrateurs est concret: des politiques VLA (Vision-Language-Action) déployables en temps réel sur des contrôleurs embarqués à ressources limitées, sans pipeline de distillation complexe à maintenir.
Ce travail s'inscrit dans une compétition dense autour des architectures VLA: Pi-0 de Physical Intelligence, OpenVLA de Berkeley, RT-2 de Google DeepMind, ou encore les récents modèles de manipulation de Figure AI et 1X Technologies ont tous posé des jalons dans cette catégorie. Le backbone diffusion en robotique a été popularisé par Diffusion Policy (Chi et al., 2023), devenu une référence de facto. ElasticFlow cible précisément son goulot d'étranglement computationnel. Le papier reste un preprint non évalué par les pairs, et les expériences présentées reposent exclusivement sur des benchmarks simulés. Aucune validation sur plateforme matérielle réelle n'est annoncée, ce qui laisse entière la question du sim-to-real gap et nuance les affirmations de "cohérence physique" avancées par les auteurs.
Dans nos dossiers




