
OMP : politique Meanflow en une étape avec alignement directionnel
Une équipe de chercheurs publie OMP (One-step MeanFlow Policy), un framework de contrôle de manipulation robotique capable de générer des trajectoires d'action en une seule passe d'inférence, contre plusieurs dizaines pour les approches par diffusion actuellement dominantes. Présenté sur arXiv (2512.19347, version 3), OMP adapte le paradigme MeanFlow, conçu à l'origine pour la génération d'images, au domaine du contrôle robotique. L'architecture introduit deux contributions techniques principales : un mécanisme d'alignement directionnel (directional alignment) qui synchronise explicitement les vitesses prédites avec les vitesses moyennes réelles, et une Équation de Dérivation Différentielle (DDE) qui approxime l'opérateur Jacobien-Vecteur (JVP) pour découpler les passes avant et arrière, réduisant significativement la complexité mémoire. Évalué sur les benchmarks Adroit et Meta-World, OMP surpasse les méthodes état de l'art en taux de succès et précision de trajectoire, notamment sur les tâches haute précision.
L'enjeu est direct pour les intégrateurs et équipes R&D : la latence d'inférence est aujourd'hui le principal goulot d'étranglement des politiques génératives en manipulation temps-réel. Les Diffusion Policies nécessitent typiquement 10 à 100 passes de débruitage par décision, rendant leur déploiement sur hardware embarqué ou dans des boucles de contrôle à haute fréquence difficile. Une politique single-step qui conserve ou dépasse la précision des diffusion models représenterait un saut d'utilisabilité industrielle significatif. La réduction de la complexité mémoire via DDE est également pertinente pour des cibles de déploiement à ressources contraintes. Les résultats sur Adroit et Meta-World sont encourageants, bien que ces benchmarks simulés restent éloignés des conditions de déploiement réel et que la generalisation sim-to-real demeure non démontrée.
Le contexte académique dans lequel s'inscrit OMP est dense : les politiques par diffusion (Diffusion Policy, ACT) ont dominé le benchmark de manipulation ces deux dernières années, et l'émergence des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a encore densifié le champ. Les approches par flow matching (dont MeanFlow est une variante) cherchent à concurrencer la diffusion en offrant une trajectoire d'inférence plus directe, inspirées des succès en génération d'images avec des modèles comme Stable Diffusion 3. OMP se positionne dans cette lignée avec une correction théorique spécifique aux pathologies robotiques (biais spectral, starvation de gradient en régime basse vitesse) absentes en vision. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; il s'agit d'une contribution de recherche fondamentale avec résultats sur simulateurs.




