
Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs
Une équipe de chercheurs publie sur arXiv (référence 2605.10094, mai 2026) un cadre d'adaptation appelé "Retrieve-then-Steer" pour améliorer la fiabilité en boucle fermée des modèles VLA (Vision-Language-Action) génératifs. Pendant le déploiement, le robot enregistre dans une mémoire persistante les segments observation-action ayant conduit à des succès vérifiés par l'environnement. À chaque inférence, le système récupère les segments les plus pertinents à l'état courant, filtre les candidats incohérents par analyse de cohérence au niveau trajectoire, puis les agrège en un "prior d'action élite". Ce prior est injecté dans un état intermédiaire du générateur d'actions par flow-matching, avec une force modulée selon la confiance de la récupération, selon un mécanisme nommé "confidence-adaptive prior guidance". L'ensemble opère sur un VLA gelé (paramètres fixes), sans aucune mise à jour de poids. Des expériences en simulation et en environnement réel montrent des gains de taux de succès et de stabilité, en particulier sur des tâches longues et multi-étapes.
L'approche répond à un angle mort des évaluations actuelles : les VLA sont testés épisode par épisode en mode zero-shot, ignorant les réussites accumulées dans le même environnement. Or un robot industriel répète souvent les mêmes gestes dans le même atelier. En capitalisant sur ces expériences vérifiées sans fine-tuning, la méthode lève un obstacle majeur à l'intégration B2B des bras manipulateurs pilotés par VLA. L'adaptation non paramétrique adresse aussi indirectement le problème du sim-to-real gap : le signal provient directement de l'environnement réel effectif, pas d'une simulation.
Les VLA génératifs font l'objet d'une course intense depuis 2024, avec pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA comme références dominantes, mais leur fiabilité en déploiement prolongé reste un sujet peu traité dans la littérature. Ce travail s'inscrit dans un courant émergent de test-time adaptation (TTA) qui cherche à contourner le coût du fine-tuning post-déploiement. La méthode étant compatible avec tout VLA basé sur le flow-matching, son périmètre d'application potentiel est large. Aucun partenaire industriel ni calendrier commercial n'est mentionné, ce qui positionne cette contribution comme de la recherche fondamentale avec un potentiel d'intégration à moyen terme dans les pipelines de manipulation généraliste.
Dans nos dossiers




