
SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde
Des chercheurs proposent SANTS (State-Adaptive Noise Trajectory Scheduler), un scheduler léger pour les politiques de diffusion vidéo-vers-action dans les World Action Models (WAMs). Soumis sur arXiv (2605.27947) le 28 mai 2026, le travail part d'un constat empirique : dans les WAMs pixel-space, débruiter complètement la vidéo future n'optimise pas toujours la qualité de l'action produite. Au-delà d'un seuil dépendant de l'état du robot, le raffinement supplémentaire sature ou dégrade la performance. SANTS lit la représentation vidéo-état courante et le niveau de bruit, prédit un point d'arrêt adaptatif, et est entraîné par post-training avec une récompense sur la qualité finale de l'action (et non sur la fidélité de la vidéo intermédiaire). Résultats annoncés : 94,4 % de succès sur RoboTwin 2.0, 73,1 % sur sept tâches réelles, avec une réduction de latence de 81,7 % et 79,0 % respectivement par rapport au débruitage complet.
L'enjeu opérationnel est la fréquence de contrôle : les WAMs souffrent d'une latence d'inférence élevée qui limite leur déploiement dans des boucles de contrôle rapides. Diviser par cinq ce coût d'inférence sans perte majeure de performance valide l'idée que la représentation future n'a pas besoin d'être parfaitement rendue pour conditionner efficacement l'action, une hypothèse implicite des architectures WAM qui n'était pas encore démontrée à cette échelle. Cela dit, le papier reste un preprint non relu par les pairs, et sept tâches réelles constituent un set de validation étroit pour prétendre à une généralisation industrielle.
Les WAMs ont émergé comme alternative aux politiques VLA classiques en intégrant une prédiction vidéo du futur pour guider la génération d'actions. SANTS se positionne comme une surcouche d'optimisation compatible avec les designs existants, sans modifier la branche action du modèle de base. Dans l'écosystème actuel, Physical Intelligence (pi0), NVIDIA (GR00T N2) et Figure (Figure 03) développent des politiques de diffusion pour la manipulation, où la réduction de la latence d'inférence devient un facteur de compétitivité commerciale. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges comme DROID ou Open X-Embodiment, et la mise à disposition publique des poids et du code.
Dans nos dossiers




