
La régularisation en sortie élimine la loterie des seeds dans le fine-tuning VLA sur GPU unique
Une équipe de chercheurs révèle dans un prépublication arXiv (2606.13856, juin 2026) un défaut structurel dans le fine-tuning des modèles vision-langage-action sur GPU unique : la "loterie de seed". En exécutant le même code d'entraînement sur VLA-JEPA treize fois avec des graines aléatoires différentes, mêmes données, même architecture, douze runs atteignent 91 à 94 % de taux de succès sur les benchmarks LIBERO, mais un run chute silencieusement à 65,2 %, soit un écart de 29 points de pourcentage, sans message d'erreur ni avertissement. La cause identifiée est un phénomène d'effondrement de sortie (output collapse) : le prédicteur d'action converge vers des sorties quasi-identiques quelle que soit l'observation visuelle. Les auteurs ont évalué 7 méthodes de régularisation sur jusqu'à 13 seeds et 3 benchmarks LIBERO, et montrent que trois régularisateurs au niveau des sorties, VICReg (n=12 seeds), Dropout (n=4), et un taux d'apprentissage divisé par deux (n=5), éliminent chaque run catastrophique : 0 effondrement sur 21 tentatives combinées, contre 1/13 pour la baseline (F(12,11)=28,7, p<0,001). Les méthodes classiques de régularisation au niveau des poids, L2 et EWC, laissent la loterie intacte.
Ce résultat remet en cause une hypothèse implicite du secteur : que le fine-tuning sur GPU unique des VLA est reproductible par défaut. Pour les intégrateurs industriels et les laboratoires qui déploient Pi-0, GR00T N2, Helix ou des modèles similaires sur des robots réels, un écart de 29 pp non détectable est un risque opérationnel concret. Les méthodes L2 et EWC pénalisent les changements de poids mais restent aveugles à l'effondrement qui se produit dans le null-space jacobien, là où les poids peuvent varier librement sans modifier les sorties observables. La correction la plus simple demande un seul changement dans la configuration de l'optimiseur, ce qui rend la solution immédiatement déployable sans refonte d'architecture.
Les VLA connaissent depuis 2024 une montée en puissance accélérée, avec des acteurs comme Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et 1X (Helix) qui misent sur des politiques généralisables entraînées sur données hétérogènes. Le fine-tuning sur matériel modeste est devenu un enjeu clé pour démocratiser l'accès à ces modèles au-delà des grandes entreprises disposant de clusters de calcul. VICReg, issu des travaux de Meta AI sur l'apprentissage auto-supervisé, se retrouve ici appliqué avec succès à la stabilisation de l'espace d'action robotique. Les prochaines étapes naturelles incluent la validation sur robots physiques hors simulation LIBERO, et l'extension à d'autres architectures VLA pour confirmer la généralité du diagnostic.
Les laboratoires et intégrateurs français/européens qui font du fine-tuning de VLA (Pi-0, GR00T N2, Helix) sur GPU unique sont directement exposés à ce risque opérationnel silencieux (-29 pp), mais peuvent l'éliminer immédiatement via VICReg ou un ajustement du taux d'apprentissage sans refonte d'architecture.
Un run sur treize qui s'effondre à 65 % sans le moindre message d'erreur, c'est le genre de bombe à retardement qu'on découvre sur robot réel, pas en benchmark. Ce qui est malin ici, c'est d'avoir localisé le problème dans l'espace des sorties, là où L2 et EWC sont complètement aveugles. La correction tient en un paramètre d'optimiseur, donc si tu fais du fine-tuning VLA aujourd'hui, t'as pas vraiment d'excuse.
Dans nos dossiers




