Aller au contenu principal
OMP : politique Meanflow en une étape avec alignement directionnel
RecherchearXiv cs.RO2h

OMP : politique Meanflow en une étape avec alignement directionnel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie OMP (One-step MeanFlow Policy), un framework de contrôle de manipulation robotique capable de générer des trajectoires d'action en une seule passe d'inférence, contre plusieurs dizaines pour les approches par diffusion actuellement dominantes. Présenté sur arXiv (2512.19347, version 3), OMP adapte le paradigme MeanFlow, conçu à l'origine pour la génération d'images, au domaine du contrôle robotique. L'architecture introduit deux contributions techniques principales : un mécanisme d'alignement directionnel (directional alignment) qui synchronise explicitement les vitesses prédites avec les vitesses moyennes réelles, et une Équation de Dérivation Différentielle (DDE) qui approxime l'opérateur Jacobien-Vecteur (JVP) pour découpler les passes avant et arrière, réduisant significativement la complexité mémoire. Évalué sur les benchmarks Adroit et Meta-World, OMP surpasse les méthodes état de l'art en taux de succès et précision de trajectoire, notamment sur les tâches haute précision.

L'enjeu est direct pour les intégrateurs et équipes R&D : la latence d'inférence est aujourd'hui le principal goulot d'étranglement des politiques génératives en manipulation temps-réel. Les Diffusion Policies nécessitent typiquement 10 à 100 passes de débruitage par décision, rendant leur déploiement sur hardware embarqué ou dans des boucles de contrôle à haute fréquence difficile. Une politique single-step qui conserve ou dépasse la précision des diffusion models représenterait un saut d'utilisabilité industrielle significatif. La réduction de la complexité mémoire via DDE est également pertinente pour des cibles de déploiement à ressources contraintes. Les résultats sur Adroit et Meta-World sont encourageants, bien que ces benchmarks simulés restent éloignés des conditions de déploiement réel et que la generalisation sim-to-real demeure non démontrée.

Le contexte académique dans lequel s'inscrit OMP est dense : les politiques par diffusion (Diffusion Policy, ACT) ont dominé le benchmark de manipulation ces deux dernières années, et l'émergence des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a encore densifié le champ. Les approches par flow matching (dont MeanFlow est une variante) cherchent à concurrencer la diffusion en offrant une trajectoire d'inférence plus directe, inspirées des succès en génération d'images avec des modèles comme Stable Diffusion 3. OMP se positionne dans cette lignée avec une correction théorique spécifique aux pathologies robotiques (biais spectral, starvation de gradient en régime basse vitesse) absentes en vision. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; il s'agit d'une contribution de recherche fondamentale avec résultats sur simulateurs.

À lire aussi

DSSP : une politique d'état de diffusion avec encodage de l'historique complet
1arXiv cs.RO 

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles. Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs. Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.

UEImpact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.

RechercheOpinion
1 source
Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel
2arXiv cs.RO 

Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel

Un article de recherche déposé sur arXiv le 2 juin 2026 (identifiant 2606.01098) introduit l'Implicit Drifting Policy (IDP), une méthode d'apprentissage par imitation en une seule étape pour le contrôle robotique à haute fréquence. Les politiques génératives basées sur la diffusion ou le flow matching excellent en clonage de comportement, mais leur échantillonnage itératif génère une latence incompatible avec un contrôle à 50 Hz ou plus. Les approches one-step existantes réduisent cette latence au prix de la correction dynamique de trajectoire. IDP contourne ce compromis en extrayant une géométrie d'expert conditionnelle depuis les variations locales d'actions d'experts observationnellement proches, en la comparant à une géométrie de référence globale, et en pondérant un objectif de potentiel scalaire via cette structure, sans estimer explicitement un champ de vecteurs de dérive, approche directe mathématiquement mal posée en raison de la très faible densité des démonstrations conditionnelles. Les évaluations sur des tâches de manipulation en 2D, 3D et en conditions réelles montrent qu'IDP surpasse les méthodes de dérive explicite et reste compétitif face aux meilleures baselines one-step, tout en maintenant une meilleure adhérence aux variétés d'action valides (action manifolds). Pour un intégrateur ou un COO industriel, le bénéfice est concret : une seule passe d'inférence réduit les exigences en calcul embarqué, un verrou réel pour les déploiements à grande échelle de robots apprenants. Ce résultat valide aussi l'idée que la supervision géométrique implicite peut se substituer à des formulations itératives plus coûteuses sans sacrifier la robustesse. La recherche sur les politiques de diffusion en robotique s'est intensifiée depuis Diffusion Policy (Chi et al., Columbia, 2023) et ses dérivés, notamment π₀ de Physical Intelligence (2024) et les VLA de Google DeepMind. IDP s'inscrit dans la lignée des méthodes de distillation one-step (consistency models, DDIM) mais adopte une formulation géométrique implicite plutôt que la distillation directe d'un champ de dérive. Il s'agit d'un preprint non encore évalué par les pairs, testé uniquement en environnements de laboratoire ; sa transférabilité à des déploiements industriels à grande échelle reste à démontrer. Physical Intelligence, Figure AI, CMU et Google DeepMind poursuivent des travaux comparables sur la latence et la robustesse de leurs modèles VLA.

RechercheOpinion
1 source
Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein
3arXiv cs.RO 

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

Une équipe de chercheurs propose le Drifting Field Policy (DFP), une politique générative à inférence en une seule étape pour l'apprentissage de tâches robotiques, publiée sur arXiv (ref. 2605.07727) en mai 2025. Contrairement aux politiques basées sur des équations différentielles ordinaires (ODE) comme les politiques de diffusion ou de flow matching, DFP n'itère pas sur plusieurs pas de débruitage : une seule passe réseau suffit pour générer l'action. Techniquement, la mise à jour de la politique est formulée comme un flux de gradient de Wasserstein-2 en divergence KL inverse vers une politique cible souple, ce qui revient à effectuer un pas de gradient dans l'espace des probabilités. Ce gradient se décompose en deux termes : une montée vers les régions d'actions à haute valeur estimée par un critique, et un score matching avec la politique d'ancrage servant de région de confiance. Pour rendre l'optimisation tractable, les auteurs dérivent un surrogate simplifié, équivalent à du behavior cloning sur les actions top-K sélectionnées par le critique. Évalué sur les benchmarks Robomimic et OGBench, DFP atteint des performances état de l'art sur plusieurs tâches de manipulation, surpassant les politiques ODE-based à nombre de paramètres comparable. L'enjeu principal est la latence d'inférence : les politiques à base de diffusion ou de flow matching, comme Pi-0 de Physical Intelligence ou les variantes de Diffusion Policy de Chi et al. (2023), requièrent typiquement 10 à 100 pas de débruitage, ce qui est prohibitif pour un contrôle robotique en temps réel. DFP atteint des performances comparables ou supérieures avec une seule évaluation du réseau, sans recourir à la distillation (consistency models, DDIM), qui dégrade souvent la qualité des trajectoires générées. Un résultat notable est que le surrogate loss via top-K behavior cloning bénéficie spécifiquement au backbone non-ODE de DFP, les auteurs montrant expérimentalement que cette combinaison n'améliore pas les architectures ODE-based de la même façon, ce qui valide la cohérence architecturale de l'approche. Les politiques de diffusion pour la robotique ont été popularisées par Chi et al. en 2023, puis étendues via le flow matching, paradigme utilisé notamment par Pi-0 et GR00T N2 de NVIDIA. Plusieurs travaux ont cherché à en réduire le coût computationnel par distillation ou quantification, sans parvenir à éviter une dégradation des performances. DFP propose une rupture en changeant le paradigme de génération lui-même plutôt qu'en compressant un modèle existant. Il n'existe à ce stade aucune annonce de déploiement ou de partenariat industriel : il s'agit d'un résultat académique pur. Les suites naturelles seraient une validation sur robots réels en manipulation dextère, une comparaison directe avec les variantes distillées de Diffusion Policy, et une intégration potentielle dans des pipelines VLA (Vision-Language-Action) où la latence d'inférence est un goulot d'étranglement critique.

RechercheOpinion
1 source
CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache
4arXiv cs.RO 

CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache

Des chercheurs ont publié début mai 2026 un preprint sur arXiv (2605.07325) présentant CSR (Cached State Representation) et ASR (Asynchronous State Reconciliation), deux mécanismes visant à déployer des LLMs massifs comme contrôleurs temps réel pour des robots. Le verrou pratique est la latence TTFT (time-to-first-token) : sur un contexte de 120 000 tokens avec un modèle de 235 milliards de paramètres, la baseline standard exige 14,67 secondes avant la première sortie. CSR optimise la réutilisation du cache KV (key-value) pour ramener ce délai à 0,56 seconde, soit un facteur 26. ASR déleste en parallèle l'éviction de la mémoire d'état, éliminant les pics de latence sur 10 cycles d'opération continue. Testé sur un robot physique connecté sans fil à un serveur GPU on-premise, le système dépasse 2 Hz de fréquence de traitement et atteint un rappel de 0,836 sur un benchmark d'IA incarnée, contre 0,459 pour une approche RAG classique. L'enjeu est structurel pour la robotique incarnée : les approches existantes, RAG (retrieval-augmented generation) et fenêtres glissantes, font toutes deux un compromis, soit sur la cohérence contextuelle globale, soit sur la vitesse de re-calcul. CSR démontre qu'un modèle de 235 milliards de paramètres peut maintenir un horizon de contexte illimité tout en restant utilisable à fréquence robotique. C'est l'une des premières validations publiées de cette hypothèse sur un robot physique réel, et non en simulation. Pour les intégrateurs et les équipes ingénierie, cela signifie que les politiques robotiques fondées sur des LLMs ne seraient plus condamnées à tronquer l'historique ou à sacrifier le temps de cycle. Ces travaux s'inscrivent dans la tendance VLA (Vision-Language-Action), où des modèles fondation multimodaux remplacent progressivement les contrôleurs classiques. Les concurrents directs incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les architectures Helix de Figure AI, qui adoptent des approches comparables pour l'IA incarnée à grande échelle. Ce preprint reste cependant une contribution académique préliminaire : le protocole porte sur un seul robot, un unique serveur GPU on-premise, sans affiliation industrielle ni feuille de route de déploiement annoncée. La reproductibilité à l'échelle et en conditions industrielles reste entièrement à prouver.

RechercheOpinion
1 source