
FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA
Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.08653) une méthode de fine-tuning baptisée FiberTune, visant à corriger un défaut structurel des politiques VLA (vision-language-action) lors de leur adaptation supervisée. Le constat de départ est précis : lorsqu'on fine-tune un modèle VLA sur des démonstrations d'actions, l'optimisation ne contraint que les directions de l'espace de features qui influencent directement les actions prédites. Les directions visuelles orthogonales à ces actions, dites "fibres d'action locales", restent libres de se dégrader silencieusement, phénomène formalisé ici comme "effondrement des résidus visuels". FiberTune y répond avec une approche en trois temps : une sonde d'action en ligne estime les directions features prédictives d'action, ces directions sont filtrées des représentations intermédiaires de tokens visuels, et les résidus ainsi filtrés sont alignés sur un teacher visuel gelé avec régularisation du rang effectif. Testé sur six configurations de simulation couvrant deux benchmarks (CALVIN ABC-to-D pour les tâches longue-horizon, et un second non nommé explicitement) et deux architectures, pi_0.5 de Physical Intelligence et OpenVLA-OFT, FiberTune affiche des gains systématiques, notamment +10,7 points de pourcentage en SR(5) sur CALVIN ABC-to-D. Sur robot physique (bras SO-101, tâche pick-and-place), le taux de succès passe de 72,7 % à 78,1 %.
Ces résultats intéressent particulièrement les intégrateurs qui cherchent à adapter des fondations VLA génériques à leurs process sans réentraîner depuis zéro. L'absence d'overhead à l'inférence est un argument concret pour le déploiement embarqué. Plus fondamentalement, FiberTune illustre que le fine-tuning action-supervisé seul peut dégrader la représentation perceptuelle du modèle sur des tâches complexes ou longue-horizon, un point qui contredit l'intuition simple "plus de données de démonstration = meilleure politique". La cohérence des gains sur six settings distincts renforce la crédibilité de l'hypothèse des fibres d'action, même si les améliorations restent modestes et que les conditions expérimentales (sélection des vidéos de démonstration, paramètres de simulation) ne sont pas entièrement détaillées dans le résumé disponible.
Le contexte est celui de la course au fine-tuning efficace des VLA grand public : pi0 (Physical Intelligence, plus de 400 millions de dollars levés) et OpenVLA (Stanford/Berkeley) sont les deux architectures de référence testées ici. CALVIN ABC-to-D est devenu le benchmark standard pour évaluer la généralisation séquentielle des politiques manipulatrices. FiberTune s'inscrit dans un spectre de méthodes concurrentes allant de LoRA adaptatif aux approches de distillation comportementale. Il s'agit pour l'instant d'un preprint non peer-reviewed ; aucun déploiement industriel ni partenariat n'est annoncé à ce stade.
Dans nos dossiers




