Premover : contrôle VLA rapide en agissant avant la fin des instructions
Une équipe de chercheurs publie sur arXiv (référence 2605.12160) un module baptisé Premover, conçu pour réduire la latence des politiques Vision-Language-Action (VLA) en exploitant le temps d'inactivité pendant lequel l'utilisateur formule sa commande. Sur le benchmark LIBERO, Premover ramène le temps d'exécution moyen de 34,0 à 29,4 secondes, soit une réduction de 13,6%, tout en maintenant un taux de réussite de 95,1% contre 95,0% pour la baseline avec instruction complète. Techniquement, le module gèle le backbone VLA existant et y greffe deux têtes de projection légères, l'une pour les patches d'image, l'autre pour les tokens de langage, qui projettent une couche intermédiaire du réseau dans un espace commun. La carte d'attention résultante (focus map), supervisée par des masques de segmentation de l'objet cible générés en simulateur, sert à réépondérer les tokens d'image de l'étape suivante. Un seuil scalaire de prédisposition, entraîné sur des préfixes d'instruction en streaming, décide du moment où la politique peut commencer à agir.
L'enjeu dépasse la simple optimisation de latence. Dans un déploiement réel, l'utilisateur met plusieurs secondes à formuler sa requête, vocalement ou par clavier, laissant la politique en veille pendant une fraction significative de l'interaction. Premover transforme cette fenêtre creuse en précomputation utile sans toucher au backbone, ce qui en fait une amélioration drop-in compatible avec les VLA existants. Le contraste avec le "naive premoving" est révélateur : agir prématurément sans le mécanisme de focus fait chuter le taux de réussite à 66,4%, ce qui démontre que l'anticipation non conditionnée est destructrice et que la focus map est bien le coeur de la contribution. Pour un intégrateur industriel, une réduction de 13,6% du temps de cycle sur des tâches de manipulation représente un gain opérationnel cumulable à l'échelle d'un déploiement.
Les VLA ont connu une accélération marquée depuis 2023, avec pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA de Stanford University comme jalons principaux. Le problème de latence qu'attaque Premover est structurel : plus les modèles sous-jacents grossissent, plus l'inférence est lente, rendant critiques les optimisations sans régression de performance. Ce travail reste pour l'instant un preprint, sans déploiement annoncé ni validation sur matériel réel mentionnée dans l'abstract, et sa robustesse hors du benchmark LIBERO, un environnement de simulation contrôlé à portée limitée, reste à établir. Les prochaines étapes naturelles incluront une validation sim-to-real sur des plateformes comme Franka ou UR5, et une extension aux instructions vocales continues où la fenêtre d'inactivité est structurellement plus longue.
Dans nos dossiers




