
Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action
Une équipe de chercheurs a publié Token Steering (TS), une méthode permettant de piloter dynamiquement les trajectoires générées par des modèles de fondation robotiques de type VLA (vision-language-action autorégressif). Le principe : injecter des entrées utilisateur de faible dimension directement dans l'espace de représentation des tokens d'action du modèle, sans modifier l'architecture du modèle de langage visuel (VLM) sous-jacent. TS opère entièrement à l'inférence, sans réentraînement ni fine-tuning. Évalué sur deux tâches de manipulation domestique, fermeture d'un tiroir après placement d'objet, et permutation d'objets en contexte dynamique, le taux de succès passe respectivement de 10,0 % à 72,5 % et de 16,7 % à 93,8 %. Ces résultats sont issus de la préprint arXiv:2606.15021 et n'ont pas encore fait l'objet d'une révision par les pairs.
L'intérêt opérationnel est direct : supprimer le besoin de réentraînement lève un verrou majeur pour le déploiement de robots de fondation en conditions réelles. Des intégrateurs peuvent adapter le comportement d'un VLA pré-entraîné à des variations de scénario sans coût de calcul additionnel significatif. Le mécanisme guide l'action sans l'écraser, ce qui préserve les priors de dextérité et de fluidité appris durant le pré-entraînement. C'est un avantage concret sur les approches classiques de surcharge par commande directe, qui dégradent souvent la qualité du mouvement. L'article évoque également des cas d'usage d'accessibilité pour des personnes à mobilité limitée, piste crédible vers une robotique d'assistance plus inclusive.
Les politiques VLA constituent l'un des axes les plus actifs de la robotique actuelle : Physical Intelligence a commercialisé Pi-0, NVIDIA a présenté GR00T N2, et plusieurs groupes académiques développent des variantes d'OpenVLA. Token Steering s'inscrit dans une tendance plus large qui cherche à rendre ces politiques modulables sans réentraînement, direction que poursuit également Enchanted Tools sur le plan applicatif. La contribution reste pour l'heure académique : aucun déploiement industriel ni partenariat n'est annoncé, et le site projet (jasontchan.github.io/token-steering) présente des vidéos de démonstration en environnement contrôlé. Les prochaines étapes attendues sont une validation sur hardware hors laboratoire et une extension aux VLA de génération récente comme Pi-0 ou GR00T N2.
Enchanted Tools (entreprise française) est citée comme poursuivant la même direction applicative ; la méthode de pilotage à l'inférence sans réentraînement pourrait directement accélérer les travaux européens sur la robotique d'assistance.
Passer de 10% à 72% de réussite sur une tâche de manipulation sans toucher au modèle, c'est le chiffre qui compte. Le vrai frein des VLA hors du labo, c'est exactement ça : chaque variation de scénario forçait un fine-tuning coûteux, et Token Steering court-circuite ça à l'inférence. Reste à valider sur du hardware moins coopératif, mais c'est précisément le bon problème à avoir résolu en premier.



