Aller au contenu principal
RecherchearXiv cs.RO2h

RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

RouterVLA, présenté dans un preprint arXiv déposé en juin 2026 (identifiant 2606.27355), s'attaque à un problème concret souvent ignoré dans le déploiement robotique : comment choisir, parmi plusieurs politiques vision-language-action (VLA) candidates, celle que l'on installe réellement sur le robot. Les équipes robotiques effectuent systématiquement des "smoke tests" - des séries d'essais courts avant déploiement - pour comparer les candidats, puis retiennent un seul vainqueur global. RouterVLA propose de capitaliser sur ces essais déjà réalisés via une technique dite de "cross-fitting à résultats disjoints" : les essais enregistrés construisent un profil de performance pour chaque politique expert gelée, tandis qu'un essai distinct, non inclus dans ce profil, sert à noter l'expert retenu. Évalué sur 34 752 enregistrements de rollouts issus du benchmark LIBERO-Plus, une règle transparente basée sur le taux de succès des probes fait passer le taux de succès hors-échantillon de 0,4686 à 0,6149, soit un gain de 14,64 points de pourcentage.

Le résultat le plus saillant n'est pas le gain lui-même, mais ce qui le produit. Sous les profils scalaires étudiés, les scoreurs appris sont statistiquement indiscernables de la simple règle de succès-probe, ce qui implique que la valeur de routage vient du processus de commissionnement - les smoke tests eux-mêmes - et non d'une capacité ML supplémentaire. Ajouter des couches d'apprentissage pour scorer les politiques ne crée donc pas de valeur additionnelle si les profils restent scalaires. Tout aussi important pour l'intégrité des benchmarks : réutiliser le même essai pour sélectionner et évaluer l'expert gonfle artificiellement le gain mesuré par un facteur de 1,87. Ce résultat constitue un avertissement méthodologique direct pour la communauté, car de nombreux papiers comparatifs en robotique pourraient souffrir de ce biais de contamination si la séparation des outcomes n'est pas garantie.

LIBERO-Plus est un environnement de simulation pour la manipulation robotique de table, largement utilisé pour évaluer des politiques de généralisation. RouterVLA s'inscrit dans le champ croissant de la sélection hétérogène de politiques VLA, un problème qui devient critique à mesure que les fondations VLA se multiplient : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), ou les politiques maison des labs comme Google DeepMind. La question de savoir quel modèle router selon la tâche est un vrai enjeu d'industrialisation, distinct de celui d'entraîner de meilleurs modèles individuels. Ce preprint ne mentionne ni déploiement réel ni partenaire industriel : il s'agit d'une contribution méthodologique évaluée en simulation. Les suites naturelles seraient d'étendre l'analyse à des profils non-scalaires (embeddings, séquences temporelles) et de valider la séparation des outcomes en manipulation physique réelle.

À lire aussi

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action
1arXiv cs.RO 

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Des chercheurs ont publié le 2 juin 2026 FATE-VLA (arXiv:2606.02307), une méthode active de génération de tests pour évaluer les modèles VLA (Vision-Language-Action), ces politiques robotiques généralisées qui combinent perception visuelle, compréhension linguistique et commande motrice. Plutôt que de tester ces modèles sur des benchmarks statiques à échantillonnage aléatoire, FATE-VLA reformule l'évaluation comme un problème de découverte active de défaillances : un algorithme couple exploration guidée par la diversité et modèles surrogate appris sur les exécutions observées, afin d'orienter les tests vers les régions de scène à haut risque. Appliqué à quatre modèles VLA de référence, dont GR00T-N1.6 de NVIDIA, le système identifie jusqu'à 29,7 % de défaillances supplémentaires par rapport aux baselines retenus et expose des modes d'échec plus variés. Sur GR00T-N1.6 spécifiquement, le taux de succès chute de 64,4 % à 34,7 % lorsque les scènes de test ciblent les zones problématiques de l'espace de configuration. Ce résultat soulève une question directe pour quiconque envisage de déployer des VLA en production industrielle : les performances communiquées par les fabricants sont mesurées sur des benchmarks à tirage aléatoire qui, par construction, sous-représentent les configurations critiques. Si les défaillances sont rares mais concentrées dans certaines régions de l'espace de tâche, ce que FATE-VLA confirme empiriquement, un benchmark classique peut afficher 64 % de succès là où un intégrateur confronté à ces configurations limites observera des performances nettement inférieures. Le paradigme proposé s'inspire du fuzzing et du test adversarial déjà standards en sécurité logicielle, deux pratiques absentes des protocoles de validation robotique actuels. Les modèles VLA ont connu une accélération marquée depuis 2023-2024, avec des architectures comme pi-zero (Physical Intelligence), GR00T N1/N1.6 (NVIDIA), OpenVLA et Octo. Leur évaluation s'appuie encore sur des benchmarks fixes comme LIBERO, Calvin ou MetaWorld, tous vulnérables au biais d'échantillonnage décrit ici. FATE-VLA s'inscrit dans une tendance plus large de stress-testing adaptatif des modèles de fondation robotiques, en parallèle des travaux sur la robustesse sim-to-real et le domain randomization. Il s'agit d'un preprint arXiv sans déploiement ni pilote industriel annoncé, mais ses recommandations ciblent directement les équipes de validation chez les fabricants de bras manipulateurs et les intégrateurs qui ne disposent pas encore de standards formels pour certifier des politiques neuronales généralisables avant mise en production.

UELes intégrateurs et fabricants européens évaluant ou déployant des modèles VLA en production industrielle sont directement concernés : les benchmarks standards sur lesquels reposent les performances annoncées (dont celles de GR00T-N1.6 de NVIDIA) sous-représentent par construction les configurations critiques, exposant ces équipes à des taux de défaillance réels nettement supérieurs aux chiffres publiés.

RechercheOpinion
1 source
VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié en mai 2026 VLA-Pro, un framework « plug-and-play » destiné à améliorer la généralisation inter-tâches des modèles Vision-Language-Action (VLA) en robotique manipulatoire. Le principe repose sur le stockage d'adaptateurs LoRA (Low-Rank Adaptation) comme mémoires procédurales paramétriques pendant la phase d'entraînement. À l'inférence, le système récupère dynamiquement les mémoires les plus pertinentes en fonction du contexte multimodal courant (image, langage, contexte scène), puis les fusionne pour générer le prochain action chunk. Les expériences ont été conduites sur trois benchmarks : RoboTwin, RLBench (simulation), et des tâches de manipulation en environnement réel. Le gain en simulation atteint jusqu'à 207 % d'amélioration relative selon les backbones testés. Sur les tâches réelles, le taux de succès passe de 5,8 % à 65,0 %, soit un facteur d'environ onze. Ce résultat pointe un problème structurel des VLA actuels : leur incapacité à transférer une expérience acquise vers une tâche inédite, même lorsque les objets ou les gestes impliqués sont similaires. Le bond de 5,8 % à 65,0 % en monde réel est notable, bien que l'absence de détails sur la sélection et la difficulté des tâches testées invite à interpréter ces chiffres avec prudence. L'atout principal de VLA-Pro pour les intégrateurs est sa modularité : compatible avec plusieurs backbones existants, il s'insère sans refonte du pipeline d'entraînement. Pour un décideur industriel, cela réduit concrètement le coût de requalification d'un robot lors d'un changement de tâche en production. Les modèles VLA constituent aujourd'hui le front principal de la recherche en manipulation généraliste, avec Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (Berkeley) et RT-2 (Google DeepMind) comme références majeures. Leur talon d'Achille commun reste la généralisation out-of-distribution, que VLA-Pro tente d'adresser via un mécanisme de mémoire inspiré des systèmes cognitifs. L'utilisation des LoRA comme vecteurs de mémoire est pragmatique, ces adaptateurs étant déjà présents dans la majorité des pipelines de fine-tuning actuels. Le papier ne mentionne ni partenariat industriel ni déploiement annoncé : il s'agit pour l'instant d'une contribution académique prometteuse dont la validation à l'échelle industrielle reste à démontrer.

RechercheOpinion
1 source
Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source