
Élagage spatio-temporel de tokens visuels conditionné par l'historique pour une navigation vision-langage efficace
Une équipe de chercheurs propose, dans un preprint arXiv (référence 2603.06480, version 2, 2026), un framework de pruning spatio-temporel des tokens visuels conçu pour réduire la latence d'inférence des modèles Vision-Language-Action (VLA) appliqués à la navigation robotique guidée par langage naturel (Vision-Language Navigation, VLN). L'approche est sans réentraînement : elle ne modifie pas les poids des modèles sources et s'intègre en plug-and-play dans tout pipeline VLA existant. Deux mécanismes la composent : une sélection spatiale des tokens sur la vue courante, pilotée par les scores d'attention interne du modèle, et une compression spatio-temporelle des mémoires visuelles historiques accumulées au fil du déplacement. Les expériences sur les benchmarks VLN standards montrent une supériorité sur les stratégies de pruning existantes, y compris sous compression extrême où la majorité des tokens sont éliminés. Un déploiement en conditions réelles sur un robot quadrupède commercial Unitree Go2 valide la fiabilité et la faible latence du suivi d'instructions.
Le verrou industriel que cette méthode adresse est bien identifié : les grands modèles VLA, dont les performances sur benchmark sont désormais reconnues (Pi-0 de Physical Intelligence, GR00T N2 de Nvidia), génèrent des délais d'inférence souvent incompatibles avec un déploiement embarqué en temps réel. Ni la quantification post-training ni la distillation de modèles ne permettent d'éviter un réentraînement coûteux, ce qui freine l'industrialisation. La compatibilité plug-and-play de cette approche constitue un levier concret pour les intégrateurs souhaitant réduire le délai entre prototype de recherche et déploiement terrain, sans dépendance à l'équipe ayant entraîné le modèle source.
La VLN est l'une des capacités les plus exigeantes de la robotique embodied, car elle suppose qu'un robot navigue dans un espace non balisé en interprétant des consignes verbales ambiguës et changeantes, sans cartographie prédéfinie. Le Unitree Go2, quadrupède commercialisé à moins de 20 000 dollars par Unitree Robotics (Shenzhen, Chine), s'est imposé comme un banc de test de référence dans la recherche académique grâce à son coût d'accès. Les approches concurrentes pour atténuer la latence des VLA, dont l'attention sparse et la distillation, restent plus intrusives sur les architectures sources. Les prochaines étapes logiques incluront l'extension du framework à des modèles VLA plus larges et à des scénarios de navigation longue distance en environnement extérieur non contrôlé.
Les grands modèles VLA (Pi-0, GR00T...) cartonnent sur benchmark, mais tu sais ce que ça donne en temps réel sur du matériel embarqué : latence incompatible, déploiement impossible. Ce framework de pruning corrige ça sans retoucher les poids, plug-and-play, et j'aime qu'ils aient validé sur un Go2 à 20k€ plutôt que dans un labo sous vide. Pour les intégrateurs, c'est enfin une brique qui permet de passer d'un proto de recherche au terrain sans dépendre de l'équipe qui a entraîné le modèle source.
Dans nos dossiers




