
NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action
Une équipe de chercheurs publie sur arXiv (2605.07794) NoiseGate, une méthode pour améliorer les World Action Models (WAM), catégorie émergente de politiques robotiques qui couplent génération d'actions et modélisation prédictive d'observations futures. Dans ce paradigme, actions et frames anticipées sont co-générées le long d'une trajectoire de débruitage partagée via une architecture Mixture-of-Transformers (MoT), où tokens vidéo et tokens action interagissent par attention partagée. Le défaut identifié est structurel : les WAM actuels appliquent un unique scalaire de bruit à toutes les frames latentes prédites, supposant implicitement que chaque observation future est également fiable pour décider de l'action. NoiseGate remplace ce scalaire unifié par un schedule appris individuellement pour chaque latent : un réseau léger, le Gating Policy Network, émet des incréments de timestep par frame à chaque étape de débruitage, entraîné par optimisation de récompense de tâche sans prior codé manuellement. Les auteurs rapportent des gains consistants sur les benchmarks de manipulation RoboTwin en scènes aléatoires.
L'apport de NoiseGate dépasse le gain de performance : il remet en question une hypothèse implicite centrale aux politiques robotiques à base de diffusion. Sous l'angle du Diffusion Forcing, le niveau de bruit joue le rôle d'un masque d'information ; assigner le même niveau à toutes les frames prédites revient à accorder une confiance uniforme à des observations qui diffèrent en certitude selon l'horizon temporel ou la variabilité de scène. Rendre ce schedule apprenable et par-latent permet au modèle de down-pondérer dynamiquement les frames incertaines lors de la génération d'action, ce qui est particulièrement pertinent pour des manipulations impliquant des séquences longues ou des environnements stochastiques. Pour les équipes travaillant sur des architectures VLA, cela valide le couplage fin entre qualité de prédiction vidéo et décision motrice.
Les WAM s'inscrivent dans la tendance à unifier modélisation du monde et politique de contrôle dans un seul modèle génératif, approche que poursuivent aussi Physical Intelligence avec π0 et NVIDIA avec GR00T N2. Le concept de Diffusion Forcing, sur lequel NoiseGate s'appuie conceptuellement, permet l'inférence causale et le débruitage séquentiel dans des architectures multi-modales ; l'architecture MoT utilisée comme backbone est au coeur de plusieurs projets de robotique généraliste. L'étape suivante serait de valider l'approche sur des plateformes physiques réelles : les résultats présentés, obtenus en simulation RoboTwin, restent à confirmer en conditions réelles.
Dans nos dossiers




