
Politique de flux stochastique guidé par interpolation
Une équipe de chercheurs publie le 13 mai 2026 sur arXiv (réf. 2605.10051) une méthode de guidage en temps réel pour les politiques robotiques génératives : SSIP, ou Streaming Stochastic Interpolant Policy. L'objectif est d'orienter une politique à l'inférence, sans réentraîner le modèle, vers de nouveaux objectifs dynamiques tels que l'évitement d'obstacles imprévus ou l'alignement sur des préférences opérateur modifiées en cours d'exécution. Les auteurs formalisent le terme de guidage optimal via l'équation de Kolmogorov rétrograde, ce qui établit mathématiquement un "drift" modifié garantissant l'échantillonnage depuis une distribution cible. Deux mécanismes complémentaires sont proposés : STEG (Stochastic Trajectory Ensemble Guidance), sans entraînement, pour une adaptation zéro-shot par calcul de gradients à la volée ; et CCG (Conditional Critic Guidance), entraîné, pour une inférence amortie.
L'enjeu industriel est direct : les architectures "chunk-based", qui génèrent des séquences d'actions par blocs discrets, dominent les politiques génératives en robotique mais souffrent d'une latence structurelle qui les rend peu adaptées aux environnements non structurés ou aux changements de contraintes en cours d'exécution. SSIP généralise la Streaming Flow Policy (SFP) déterministe en y intégrant un cadre stochastique guidé, permettant un contrôle réactif en temps réel. Les évaluations empiriques montrent que l'approche surpasse significativement les politiques chunk-based en réactivité et produit un guidage physiquement valide, c'est-à-dire des trajectoires mécaniquement cohérentes et pas seulement mathématiquement plausibles. Pour un intégrateur industriel, cela réduit le besoin de réentraînement coûteux dès qu'une contrainte opérationnelle évolue.
Ce travail s'inscrit dans la vague des politiques génératives pour la manipulation robotique, un espace où Physical Intelligence (pi0, pi0.5), Figure (Helix) et NVIDIA (GR00T N2) ont récemment imposé des architectures fondées sur le flow matching ou la diffusion. La plupart de ces systèmes fonctionnent en mode chunk, ce qui limite leur réactivité face aux perturbations imprévues. SSIP se positionne comme une couche de guidage universelle, applicable aussi bien à des politiques généralistes qu'à des tâches industrielles exigeant une adaptation dynamique. L'approche STEG est particulièrement notable : sans réentraînement, elle abaisse le seuil d'adoption pour des déploiements en conditions réelles. Ce travail reste pour l'instant une contribution académique, sans déploiement annoncé ni partenariat industriel déclaré.




