
Exécution en temps réel avec des politiques autorégressives
Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance.
Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données.
Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.
Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.
Dans nos dossiers




