
Débruitage par priorité d'action pour un découpage fluide en temps réel
Une équipe de chercheurs a publié le 26 mai 2026 sur arXiv (réf. 2605.25537) une méthode baptisée Soft RTC (Soft Real-Time Chunking), visant à rendre les politiques d'action par blocs plus fluides lorsqu'elles opèrent sous délai d'inférence. Le problème de départ est concret : les politiques de type diffusion génèrent les commandes motrices en « chunks » (séquences d'actions), mais l'inférence prend du temps. Le RTC standard résout cela en conditionnant chaque nouveau chunk sur les actions déjà engagées par le précédent, grâce à un masque binaire de préfixe. Soft RTC remplace ce masque binaire par un mécanisme de dénaturation partielle (action-prior denoising) : les tokens de chevauchement entre deux chunks ne partent plus d'un bruit pur, mais d'états partiellement dénaturés, alignés sur le chunk précédent via une règle de mélange par token. Sur les 12 niveaux Kinetix publiés (environnements de simulation de manipulation complexe), un fenêtrage "soft" court atteint un taux de résolution de 0,809 contre 0,815 pour le hard RTC, soit un écart marginal. Un fenêtrage medium réduit quant à lui le delta d'action et le jerk (à-coup) en régime de fort délai de respectivement 9,1 % et 9,6 % par rapport au hard RTC classique. Une étude préliminaire sur robot réel en tri d'objets confirme l'amélioration de la complétion et donne à Soft RTC les meilleures métriques de douceur de commande parmi les politiques testées.
L'enjeu pour la robotique industrielle est précis : le jerk élevé, c'est l'usure mécanique, les alarmes de sécurité, et l'impossibilité de travailler en cobotique. Les politiques de diffusion pour la manipulation (pi-0 de Physical Intelligence, ACT, Diffusion Policy) ont démontré des capacités de généralisation impressionnantes, mais leur déploiement en temps réel reste contraint par la latence d'inférence, typiquement plusieurs centaines de millisecondes sur GPU embarqué. Hard RTC avait déjà attaqué ce problème ; Soft RTC prouve qu'on peut gagner significativement en douceur de mouvement sans sacrifier ni le taux de succès ni le coût computationnel, les deux variantes conservent un overhead « quasi-naïf » à l'inférence, sans guidance coûteuse au déploiement. Ce résultat contredit l'idée que fluidité et performance sont nécessairement en tension dans les politiques diffusion pour la manipulation.
La problématique du délai d'inférence dans les politiques d'action par diffusion est active depuis que ces architectures ont montré leur supériorité en manipulation dextère, notamment avec les travaux de Stanford (Diffusion Policy, 2023) et de Physical Intelligence (pi-0, 2024). Le hard RTC de référence avait établi une baseline robuste mais au prix de transitions sèches entre chunks. Côté acteurs, Physical Intelligence, Unitree, Figure AI et les équipes de Google DeepMind (GR00T, RT-2) travaillent tous sur des politiques à base de diffusion pour leurs humanoïdes et bras manipulateurs. Soft RTC s'inscrit dans la couche d'inférence basse latence de ces systèmes, indépendamment de l'architecture VLA sous-jacente. Aucun partenaire industriel ni timeline de déploiement n'est mentionné, il s'agit d'une contribution de recherche, avec code et niveaux Kinetix publiés, mais sans implémentation industrielle annoncée à ce stade.
Dans nos dossiers




