Aller au contenu principal
LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation
RecherchearXiv cs.RO3h

LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié LIBERO-PRO, une extension critique du benchmark LIBERO largement utilisé pour évaluer les modèles Vision-Language-Action (VLA). Disponible sur GitHub (Zxy-MLlab/LIBERO-PRO), le travail, présenté sous forme d'arXiv preprint (arXiv:2510.03827v2), soumet les VLA à des perturbations systématiques selon quatre axes : substitution des objets manipulés, variation des états initiaux, modification des instructions de tâche, et changement d'environnement. Résultat sans appel : les modèles actuels qui atteignent plus de 90 % de succès sur l'évaluation LIBERO standard s'effondrent à 0,0 % dans le cadre généralisé de LIBERO-PRO. Concrètement, un modèle continue d'exécuter une séquence de saisie même lorsque l'objet cible est remplacé par un objet sans rapport, et ses sorties restent inchangées face à des instructions corrompues ou composées de tokens aléatoires.

Ce résultat est un signal d'alarme direct pour les équipes qui fondent leurs décisions de recherche ou de déploiement sur les classements LIBERO. Il démontre que les modèles VLA n'ont pas acquis de compréhension générale des tâches ni de perception réelle de l'environnement : ils mémorisent des séquences d'actions et des configurations spatiales vues à l'entraînement. Autrement dit, le gap sim-to-real et le problème de généralisation restent entiers, quelle que soit la performance affichée sur le benchmark. Pour les intégrateurs industriels ou les équipes robotique qui envisagent de déployer des politiques basées sur des VLA, cela signifie que les scores publiés ne sont pas des indicateurs fiables de robustesse opérationnelle.

LIBERO, introduit pour standardiser l'évaluation des politiques manipulatrices en langage naturel, est devenu une référence de facto dans la communauté. Mais comme tout benchmark sur-exploité, il a progressivement favorisé l'overfitting plutôt que la généralisation. LIBERO-PRO s'inscrit dans une tendance plus large de remise en question des protocoles d'évaluation VLA, aux côtés d'initiatives comparables sur les benchmarks de navigation et de saisie. La prochaine étape logique serait l'adoption de LIBERO-PRO comme standard par les principaux groupes travaillant sur des modèles comme OpenVLA, Octo ou pi0 (Physical Intelligence), afin de permettre des comparaisons réellement équitables et de pousser le secteur vers des politiques robustes en conditions réelles.

À lire aussi

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv le 12 mai 2026 (référence 2605.09005) GuardVLA, premier cadre de vérification de propriété intellectuelle basé sur les backdoors pour les modèles Vision-Language-Action (VLA). Ces modèles permettent un contrôle robotique généraliste en convertissant des entrées multimodales (vision, langage, données proprioceptives) directement en séquences d'actions motrices. GuardVLA intègre un filigrane cryptographique lors de l'entraînement : un message secret est injecté dans les données visuelles du modèle sans altérer ses performances nominales sur les tâches cibles. La vérification post-déploiement s'effectue via un mécanisme baptisé "swap-and-detect" : un projecteur de déclenchement combiné à une tête de classification externe active et détecte le backdoor intégré à partir des probabilités de prédiction du modèle. Les expériences valident l'approche sur plusieurs architectures, jeux de données et scénarios d'adaptation. L'enjeu est direct pour les intégrateurs et éditeurs de modèles robotiques. Des VLA open-source comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) font déjà l'objet de fine-tuning intensif par des tiers. GuardVLA démontre que le filigrane résiste à ces adaptations post-release, ce qui contredit l'hypothèse courante selon laquelle le fine-tuning suffit à effacer toute traçabilité. Pour un éditeur cherchant à protéger un modèle robotique commercial ou à prouver sa propriété en cas de litige, c'est une voie technique crédible sans recours à des mécanismes de DRM contraignants. La capacité à certifier l'origine d'un modèle devient stratégique à l'heure où les VLA s'imposent comme actifs industriels à part entière. Le watermarking de modèles IA existe déjà pour les LLM et les modèles de diffusion d'images, mais les VLA posent une contrainte supplémentaire : leur sortie est une séquence d'actions motrices et non un texte ou une image, ce qui rend la détection de backdoor structurellement différente. Ce travail reste un preprint non évalué par les pairs, sans déploiement industriel annoncé à ce stade. Les approches concurrentes, hachage de poids ou licensing cryptographique, ne ciblent pas spécifiquement la modalité action des VLA. La soumission en conférence, probablement CoRL 2026 ou ICRA 2027, constituera la prochaine validation formelle. L'adoption à grande échelle dépendra aussi de l'intégration aux outils de distribution existants, notamment Hugging Face, où la majorité des VLA généralisés sont aujourd'hui hébergés et redistribués.

UELes éditeurs et chercheurs européens distribuant des modèles VLA via Hugging Face (entreprise française, principal hub de redistribution cité) pourraient adopter GuardVLA pour défendre leur propriété intellectuelle face aux fine-tunings non autorisés.

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
Évolution continue des compétences dans un modèle vision-langage-action (VLA)
3arXiv cs.RO 

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Des chercheurs ont publié Stellar VLA (arXiv:2511.18085v3), un cadre d'apprentissage continu par imitation (continual imitation learning, CIL) pour les modèles Vision-Langage-Action (VLA). La méthode propose deux variantes progressives : T-Stellar, fondée sur une modélisation plate centrée sur les tâches, et TS-Stellar, organisée en structure hiérarchique tâche-compétence. Les expériences menées sur le benchmark LIBERO, référence standard pour les tâches de manipulation robotique, montrent que les deux variantes surpassent les baselines VLA et CIL actuelles, avec seulement 1 % de rejeu de données. Une validation en conditions réelles sur une plateforme bi-bras, avec des configurations de scènes et d'embodiments distincts, confirme que le transfert de connaissances entre tâches reste effectif au-delà du simulateur. Le principal apport de Stellar VLA est d'adresser un frein structurel au déploiement des grands modèles VLA : les méthodes CIL existantes nécessitent des paramètres additionnels ou des modules externes, ce qui les rend difficilement scalables lorsque le modèle de base est déjà massif. En optimisant conjointement des représentations de tâches et un espace de connaissances partagé, Stellar VLA introduit un mécanisme de routage expert guidé par la sémantique, sélectionnant les K embeddings les plus proches pour orienter le modèle vers la compétence pertinente, sans alourdir l'architecture. Pour les équipes qui déploient des robots polyvalents en production, cela ouvre la voie à l'apprentissage incrémental de nouvelles tâches avec un coût de fine-tuning réduit. TS-Stellar se distingue notamment sur les manipulations hiérarchiques complexes, et les visualisations publiées illustrent une rétention robuste des compétences acquises ainsi qu'une capacité de découverte automatique de nouvelles tâches. Les VLA constituent un axe de recherche en accélération depuis 2023, portés par Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (UC Berkeley) ou encore RT-2 (Google DeepMind), qui cherchent à généraliser la manipulation robotique via un préentraînement multimodal massif. La question du catastrophic forgetting, c'est-à-dire la perte des compétences antérieures lors de l'apprentissage d'une nouvelle tâche, reste un verrou non résolu à l'échelle industrielle. Stellar VLA se positionne comme une surcouche légère applicable à des VLA existants, sans retraining complet. Le projet est documenté sur stellarvla.github.io ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un travail de recherche académique.

RechercheOpinion
1 source
Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)
4arXiv cs.RO 

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion
1 source