Aller au contenu principal
Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein
RecherchearXiv cs.RO6sem

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose le Drifting Field Policy (DFP), une politique générative à inférence en une seule étape pour l'apprentissage de tâches robotiques, publiée sur arXiv (ref. 2605.07727) en mai 2025. Contrairement aux politiques basées sur des équations différentielles ordinaires (ODE) comme les politiques de diffusion ou de flow matching, DFP n'itère pas sur plusieurs pas de débruitage : une seule passe réseau suffit pour générer l'action. Techniquement, la mise à jour de la politique est formulée comme un flux de gradient de Wasserstein-2 en divergence KL inverse vers une politique cible souple, ce qui revient à effectuer un pas de gradient dans l'espace des probabilités. Ce gradient se décompose en deux termes : une montée vers les régions d'actions à haute valeur estimée par un critique, et un score matching avec la politique d'ancrage servant de région de confiance. Pour rendre l'optimisation tractable, les auteurs dérivent un surrogate simplifié, équivalent à du behavior cloning sur les actions top-K sélectionnées par le critique. Évalué sur les benchmarks Robomimic et OGBench, DFP atteint des performances état de l'art sur plusieurs tâches de manipulation, surpassant les politiques ODE-based à nombre de paramètres comparable.

L'enjeu principal est la latence d'inférence : les politiques à base de diffusion ou de flow matching, comme Pi-0 de Physical Intelligence ou les variantes de Diffusion Policy de Chi et al. (2023), requièrent typiquement 10 à 100 pas de débruitage, ce qui est prohibitif pour un contrôle robotique en temps réel. DFP atteint des performances comparables ou supérieures avec une seule évaluation du réseau, sans recourir à la distillation (consistency models, DDIM), qui dégrade souvent la qualité des trajectoires générées. Un résultat notable est que le surrogate loss via top-K behavior cloning bénéficie spécifiquement au backbone non-ODE de DFP, les auteurs montrant expérimentalement que cette combinaison n'améliore pas les architectures ODE-based de la même façon, ce qui valide la cohérence architecturale de l'approche.

Les politiques de diffusion pour la robotique ont été popularisées par Chi et al. en 2023, puis étendues via le flow matching, paradigme utilisé notamment par Pi-0 et GR00T N2 de NVIDIA. Plusieurs travaux ont cherché à en réduire le coût computationnel par distillation ou quantification, sans parvenir à éviter une dégradation des performances. DFP propose une rupture en changeant le paradigme de génération lui-même plutôt qu'en compressant un modèle existant. Il n'existe à ce stade aucune annonce de déploiement ou de partenariat industriel : il s'agit d'un résultat académique pur. Les suites naturelles seraient une validation sur robots réels en manipulation dextère, une comparaison directe avec les variantes distillées de Diffusion Policy, et une intégration potentielle dans des pipelines VLA (Vision-Language-Action) où la latence d'inférence est un goulot d'étranglement critique.

À lire aussi

Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel
1arXiv cs.RO 

Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel

Un article de recherche déposé sur arXiv le 2 juin 2026 (identifiant 2606.01098) introduit l'Implicit Drifting Policy (IDP), une méthode d'apprentissage par imitation en une seule étape pour le contrôle robotique à haute fréquence. Les politiques génératives basées sur la diffusion ou le flow matching excellent en clonage de comportement, mais leur échantillonnage itératif génère une latence incompatible avec un contrôle à 50 Hz ou plus. Les approches one-step existantes réduisent cette latence au prix de la correction dynamique de trajectoire. IDP contourne ce compromis en extrayant une géométrie d'expert conditionnelle depuis les variations locales d'actions d'experts observationnellement proches, en la comparant à une géométrie de référence globale, et en pondérant un objectif de potentiel scalaire via cette structure, sans estimer explicitement un champ de vecteurs de dérive, approche directe mathématiquement mal posée en raison de la très faible densité des démonstrations conditionnelles. Les évaluations sur des tâches de manipulation en 2D, 3D et en conditions réelles montrent qu'IDP surpasse les méthodes de dérive explicite et reste compétitif face aux meilleures baselines one-step, tout en maintenant une meilleure adhérence aux variétés d'action valides (action manifolds). Pour un intégrateur ou un COO industriel, le bénéfice est concret : une seule passe d'inférence réduit les exigences en calcul embarqué, un verrou réel pour les déploiements à grande échelle de robots apprenants. Ce résultat valide aussi l'idée que la supervision géométrique implicite peut se substituer à des formulations itératives plus coûteuses sans sacrifier la robustesse. La recherche sur les politiques de diffusion en robotique s'est intensifiée depuis Diffusion Policy (Chi et al., Columbia, 2023) et ses dérivés, notamment π₀ de Physical Intelligence (2024) et les VLA de Google DeepMind. IDP s'inscrit dans la lignée des méthodes de distillation one-step (consistency models, DDIM) mais adopte une formulation géométrique implicite plutôt que la distillation directe d'un champ de dérive. Il s'agit d'un preprint non encore évalué par les pairs, testé uniquement en environnements de laboratoire ; sa transférabilité à des déploiements industriels à grande échelle reste à démontrer. Physical Intelligence, Figure AI, CMU et Google DeepMind poursuivent des travaux comparables sur la latence et la robustesse de leurs modèles VLA.

RechercheOpinion
1 source
OMP : politique Meanflow en une étape avec alignement directionnel
2arXiv cs.RO 

OMP : politique Meanflow en une étape avec alignement directionnel

Une équipe de chercheurs publie OMP (One-step MeanFlow Policy), un framework de contrôle de manipulation robotique capable de générer des trajectoires d'action en une seule passe d'inférence, contre plusieurs dizaines pour les approches par diffusion actuellement dominantes. Présenté sur arXiv (2512.19347, version 3), OMP adapte le paradigme MeanFlow, conçu à l'origine pour la génération d'images, au domaine du contrôle robotique. L'architecture introduit deux contributions techniques principales : un mécanisme d'alignement directionnel (directional alignment) qui synchronise explicitement les vitesses prédites avec les vitesses moyennes réelles, et une Équation de Dérivation Différentielle (DDE) qui approxime l'opérateur Jacobien-Vecteur (JVP) pour découpler les passes avant et arrière, réduisant significativement la complexité mémoire. Évalué sur les benchmarks Adroit et Meta-World, OMP surpasse les méthodes état de l'art en taux de succès et précision de trajectoire, notamment sur les tâches haute précision. L'enjeu est direct pour les intégrateurs et équipes R&D : la latence d'inférence est aujourd'hui le principal goulot d'étranglement des politiques génératives en manipulation temps-réel. Les Diffusion Policies nécessitent typiquement 10 à 100 passes de débruitage par décision, rendant leur déploiement sur hardware embarqué ou dans des boucles de contrôle à haute fréquence difficile. Une politique single-step qui conserve ou dépasse la précision des diffusion models représenterait un saut d'utilisabilité industrielle significatif. La réduction de la complexité mémoire via DDE est également pertinente pour des cibles de déploiement à ressources contraintes. Les résultats sur Adroit et Meta-World sont encourageants, bien que ces benchmarks simulés restent éloignés des conditions de déploiement réel et que la generalisation sim-to-real demeure non démontrée. Le contexte académique dans lequel s'inscrit OMP est dense : les politiques par diffusion (Diffusion Policy, ACT) ont dominé le benchmark de manipulation ces deux dernières années, et l'émergence des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a encore densifié le champ. Les approches par flow matching (dont MeanFlow est une variante) cherchent à concurrencer la diffusion en offrant une trajectoire d'inférence plus directe, inspirées des succès en génération d'images avec des modèles comme Stable Diffusion 3. OMP se positionne dans cette lignée avec une correction théorique spécifique aux pathologies robotiques (biais spectral, starvation de gradient en régime basse vitesse) absentes en vision. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; il s'agit d'une contribution de recherche fondamentale avec résultats sur simulateurs.

RecherchePaper
1 source
Pré-entraînement universel sur les poses pour des politiques VLA généralisables
3arXiv cs.RO 

Pré-entraînement universel sur les poses pour des politiques VLA généralisables

Des chercheurs ont publié Pose-VLA (arXiv:2602.19710, 2026), un nouveau paradigme d'entraînement pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'approche sépare l'entraînement en deux phases distinctes: une phase de pré-entraînement qui extrait des prior spatiaux 3D universels dans un espace centré sur la caméra, puis une phase de post-entraînement pour l'alignement propre à l'embodiment du robot cible. Le mécanisme central repose sur l'introduction de "discrete pose tokens", une représentation intermédiaire universelle qui combine des données de grounding spatial issues de datasets 3D hétérogènes avec des trajectoires géométriques issues de démonstrations robotiques. Sur le benchmark RoboTwin 2.0, Pose-VLA revendique l'état de l'art avec 79,5% de taux de succès moyen, et atteint 96,0% sur LIBERO. En conditions réelles, le modèle généralise à des objets variés avec seulement 100 démonstrations par tâche. Le problème structurel que Pose-VLA cherche à résoudre est bien documenté dans la littérature: les backbones VLM classiques, optimisés pour le Visual Question Answering, excellent à identifier sémantiquement des objets mais restent relativement insensibles aux variations 3D fines qui dictent des stratégies de préhension différentes. Ce phénomène, qualifié de "feature collapse" par les auteurs, dégrade l'efficacité d'entraînement et limite la généralisation inter-tâches. En découplant explicitement la perception spatiale 3D de la supervision d'action, l'approche vise à réduire significativement le nombre de démonstrations nécessaires pour adapter une politique à un nouveau contexte, ce qui représente aujourd'hui l'un des principaux freins à l'industrialisation des VLA. À noter que les tâches réelles testées ne sont pas détaillées dans l'article, et les performances sur benchmarks simulés ne préjugent pas du comportement en environnement industriel non contrôlé. Les VLA sont au coeur d'une compétition de recherche intense depuis RT-2 de Google DeepMind en 2023, et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA ont chacun tenté d'adresser le sim-to-real gap et la dépendance aux larges corpus de démonstrations. RoboTwin 2.0 et LIBERO sont devenus des références de facto pour comparer ces politiques en manipulation. Pose-VLA s'inscrit dans une tendance plus large de découplage des phases d'entraînement, parallèlement à des approches comme UniSim ou RoboVLMs. Cette publication reste au stade académique: aucun déploiement industriel, partenariat commercial ni timeline de mise en production ne sont mentionnés, et les expériences réelles se limitent à un contexte laboratoire avec des objets courants.

RechercheOpinion
1 source
DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion
4arXiv cs.RO 

DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion

DiffusionVS, déposé sur arXiv (2506.19397) en juin 2026, propose un cadre génératif pour le visual servoing robotique fondé sur la Diffusion Policy. Le système prend en entrée les coordonnées normalisées des coins de marqueurs visuels observés par la caméra embarquée, et génère des commandes de vitesse caméra via un processus de débruitage conditionnel. Pour contourner les limitations de généralisation propres aux modèles entraînés sur jeux de données statiques, les auteurs adoptent un paradigme d'entraînement en ligne : le modèle collecte continuellement de nouvelles expériences interactives pour diversifier sa distribution d'apprentissage. Les résultats rapportés atteignent un taux de succès de quasi 100% en simulation et 93% en expériences physiques réelles. Le visual servoing par régression classique souffre de deux problèmes structurels : le jitter de trajectoire causé par des mappings mono-étape sensibles au bruit, et l'accumulation d'erreurs lors de distribution shifts en cours de trajectoire. La Diffusion Policy adresse ces deux points simultanément. En prédisant des séquences d'actions plutôt que des commandes isolées, elle maintient la cohérence temporelle. L'augmentation implicite de données inhérente au processus de débruitage renforce par ailleurs la robustesse aux perturbations. Ce qui est notable, au-delà des performances brutes, c'est la généricité démontrée du module : intégré à des architectures de visual servoing existantes, il améliore systématiquement leurs résultats, sans modification de leur pipeline de base. Cela valide le mécanisme diffusion comme composant réutilisable, pas seulement comme architecture ad hoc. La Diffusion Policy, popularisée par Chi et al. en 2023 (Columbia/MIT), s'est imposée en apprentissage par imitation pour la manipulation, puis adoptée par Physical Intelligence dans pi-0 et d'autres systèmes VLA. Son application au visual servoing, problème classique de robotique de précision, était moins explorée. Les approches concurrentes restent dominées par la régression directe ou les contrôleurs IBVS/PBVS à base de features géométriques. La contribution principale ici est l'entraînement en ligne, qui contourne le problème de covariate shift sans nécessiter un dataset exhaustif pré-collecté, contrainte majeure en déploiement industriel. Les limites actuelles sont notables : le système repose sur des marqueurs visuels structurés (AprilTags), et les expériences physiques ne précisent pas le type de robot ni les conditions d'environnement, ce qui rend difficile l'évaluation de la maturité pour un déploiement réel.

RecherchePaper
1 source