
Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence
Des chercheurs ont publié en juin 2026 (arXiv:2606.15631) une méthode permettant d'étendre un modèle VLA (Vision-Language-Action) à de nouvelles tâches sans réentraînement par tâche. Le principe : remplacer le fine-tuning par de la récupération d'exemples (retrieval) au moment du déploiement. La politique est entraînée une seule fois sur des démonstrations appariées entre deux embodiments, le robot cible et un embodiment moins coûteux, typiquement une vidéo de main humaine, puis gelée définitivement. Pour ajouter une nouvelle tâche, il suffit d'indexer des démonstrations supplémentaires dans un pool de récupération : aucune mise à jour de paramètres n'est nécessaire. À chaque pas de contrôle, la politique gelée conditionne ses actions sur des trajectoires récupérées dynamiquement. Un fine-tuning reste nécessaire uniquement lors du passage à un embodiment entièrement inconnu, pas pour chaque nouvelle tâche. La méthode a été validée sur les benchmarks PushT et RoboTwin 2.0, ainsi que sur un robot réel.
Ce résultat s'attaque directement au principal frein au déploiement industriel des politiques VLA : le coût d'adaptation par tâche. Aujourd'hui, intégrer une nouvelle tâche dans un système VLA exige des démonstrations téléopérées et un fine-tuning intensif en calcul, une barrière réelle pour les intégrateurs devant couvrir des dizaines de SKU ou de postes de travail. Remplacer ce cycle par une simple indexation de données change radicalement l'équation économique. L'effet est notable sur des backbones VLA standard, mais il est surtout prononcé avec Cosmos Policy, le world-action model (WAM) de NVIDIA basé sur la génération vidéo : le retrieval fournit la progression macroscopique de la tâche, tandis que l'objectif de prédiction d'images futures du WAM renforce la cohérence des actions conditionnées. Cela suggère que les modèles de robotique générative de prochaine génération sont particulièrement bien positionnés pour tirer parti de cette approche.
Le retrieval-augmented generation (RAG) est une technique établie en traitement du langage naturel ; son application aux politiques de contrôle robotique est plus récente. Les modèles VLA actuels, π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, offrent une bonne généralisation mais exigent toujours un fine-tuning par tâche pour être fiables en production. RoboTwin 2.0 est un benchmark récent pour la manipulation bimanuale. L'aspect cross-embodiment, qui utilise des vidéos de main humaine comme source bon marché, est également structurant : il ouvre la possibilité de collecter des données de déploiement sans robot. Les prochaines étapes naturelles incluent des expériences à plus grande échelle de pools de démonstrations et une intégration avec des systèmes de récupération dense type FAISS pour des catalogues de tâches industrielles larges.
Dans nos dossiers




