RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes
RouterVLA, présenté dans un preprint arXiv déposé en juin 2026 (identifiant 2606.27355), s'attaque à un problème concret souvent ignoré dans le déploiement robotique : comment choisir, parmi plusieurs politiques vision-language-action (VLA) candidates, celle que l'on installe réellement sur le robot. Les équipes robotiques effectuent systématiquement des "smoke tests" - des séries d'essais courts avant déploiement - pour comparer les candidats, puis retiennent un seul vainqueur global. RouterVLA propose de capitaliser sur ces essais déjà réalisés via une technique dite de "cross-fitting à résultats disjoints" : les essais enregistrés construisent un profil de performance pour chaque politique expert gelée, tandis qu'un essai distinct, non inclus dans ce profil, sert à noter l'expert retenu. Évalué sur 34 752 enregistrements de rollouts issus du benchmark LIBERO-Plus, une règle transparente basée sur le taux de succès des probes fait passer le taux de succès hors-échantillon de 0,4686 à 0,6149, soit un gain de 14,64 points de pourcentage.
Le résultat le plus saillant n'est pas le gain lui-même, mais ce qui le produit. Sous les profils scalaires étudiés, les scoreurs appris sont statistiquement indiscernables de la simple règle de succès-probe, ce qui implique que la valeur de routage vient du processus de commissionnement - les smoke tests eux-mêmes - et non d'une capacité ML supplémentaire. Ajouter des couches d'apprentissage pour scorer les politiques ne crée donc pas de valeur additionnelle si les profils restent scalaires. Tout aussi important pour l'intégrité des benchmarks : réutiliser le même essai pour sélectionner et évaluer l'expert gonfle artificiellement le gain mesuré par un facteur de 1,87. Ce résultat constitue un avertissement méthodologique direct pour la communauté, car de nombreux papiers comparatifs en robotique pourraient souffrir de ce biais de contamination si la séparation des outcomes n'est pas garantie.
LIBERO-Plus est un environnement de simulation pour la manipulation robotique de table, largement utilisé pour évaluer des politiques de généralisation. RouterVLA s'inscrit dans le champ croissant de la sélection hétérogène de politiques VLA, un problème qui devient critique à mesure que les fondations VLA se multiplient : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), ou les politiques maison des labs comme Google DeepMind. La question de savoir quel modèle router selon la tâche est un vrai enjeu d'industrialisation, distinct de celui d'entraîner de meilleurs modèles individuels. Ce preprint ne mentionne ni déploiement réel ni partenaire industriel : il s'agit d'une contribution méthodologique évaluée en simulation. Les suites naturelles seraient d'étendre l'analyse à des profils non-scalaires (embeddings, séquences temporelles) et de valider la séparation des outcomes en manipulation physique réelle.
Dans nos dossiers




