
Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné
Des chercheurs publient sur arXiv (référence 2606.14084) une méthode baptisée SDN (Selected Diffusion Noise), conçue pour améliorer à l'inférence les politiques VLA (Vision-Language-Action) basées sur la diffusion, sans nécessiter de réentraînement. SDN opère dans l'espace du bruit de diffusion en sélectionnant dynamiquement des vecteurs de bruit maximalement séparés d'un ensemble de référence, ce qui réduit la dépendance aux corrélations visuelles parasites, tout en filtrant les candidats produisant des trajectoires d'action plus cohérentes. La méthode a été évaluée sur deux benchmarks de simulation (Google Robot, Widow-X) et deux jeux de données réels, sur plusieurs politiques VLA majeures dont pi_0 (Physical Intelligence), Groot-N1.5 et Groot-N1.6 (NVIDIA). Les gains annoncés sont de +8 points de taux de succès en simulation et +10 points en conditions réelles, avec une réduction mesurable du "action jitter", c'est-à-dire l'instabilité des trajectoires articulaires. Ces résultats sont issus d'un preprint non encore évalué par les pairs.
L'intérêt pratique tient à l'approche "training-free" : SDN s'applique à l'inférence sans modifier les paramètres du modèle, ce qui permet d'améliorer un système déjà déployé sans refondre le pipeline ML ni supporter les coûts d'un réentraînement. Pour un intégrateur ou un décideur achetant une solution robotique basée sur une politique VLA, ce type de méthode représente un levier de fiabilité à faible coût opérationnel. La robustesse maintenue sous des observations avec occultation partielle (object-masked observations) est également pertinente pour les environnements industriels réels. SDN s'inscrit dans la tendance plus large des techniques d'optimisation test-time appliquées aux modèles génératifs, analogues au best-of-N sampling dans les LLMs.
Les politiques VLA basées sur la diffusion, popularisées par Physical Intelligence (pi_0, pi0.5) et NVIDIA Isaac (GR00T N1.5, N1.6), sont devenues en 2025-2026 la référence de facto en manipulation robotique généraliste. Elles héritent toutefois d'une sensibilité aux artefacts visuels hors distribution et d'une certaine instabilité d'action, deux problèmes que SDN cible directement. L'abstract ne mentionne ni affiliation institutionnelle ni dépôt de code public, ce qui limite pour l'instant la reproductibilité et les comparaisons indépendantes. Les prochaines étapes naturelles seraient une validation sur plateformes humanoïdes complètes (Figure, 1X, Unitree H1) et des benchmarks de manipulation plus diversifiés que Widow-X ou Google Robot.
Les intégrateurs européens déployant des solutions robotiques basées sur des politiques VLA (pi_0, GR00T) pourraient bénéficier de cette méthode d'optimisation sans réentraînement, mais aucun acteur FR/EU n'est directement impliqué dans ces travaux.
Dans nos dossiers




