LIBERO-PRO : vers une évaluation robuste et équitable d…

CoRE-VLA : vers une modélisation vision-langage-action évolutive et robuste par routage conditionnel d'experts

42

1arXiv cs.RO

CoRE-VLA : vers une modélisation vision-langage-action évolutive et robuste par routage conditionnel d'experts

Des chercheurs présentent CoRE-VLA, une nouvelle architecture de modèle vision-langage-action (VLA) conçue pour résoudre un problème concret de déploiement robotique: la gestion de capteurs hétérogènes et potentiellement défaillants. Publié sur arXiv le 3 juillet 2026, le papier propose de traiter la génération d'actions comme un calcul épars conditionné par le contexte, plutôt que par un calcul dense partagé comme dans les VLA classiques. Concrètement, la disponibilité des capteurs active des experts spécialisés par modalité (le papier se concentre sur la profondeur, ou depth, comme capteur auxiliaire représentatif), tandis que l'intention de la tâche route les représentations vers des experts pertinents pour chaque sous-objectif. Les auteurs testent CoRE-VLA sur les benchmarks LIBERO et RoboCasa GR1 Tabletop, ainsi que sur des manipulations réelles à deux bras, et rapportent des performances supérieures à un modèle dense équivalent et à un VLA pré-entraîné de référence, y compris en généralisation zero-shot sur des scénarios non vus à l'entraînement. L'enjeu pratique est réel pour les intégrateurs: la plupart des VLA actuels couplent rigidement la génération d'action à un jeu de capteurs fixe, ce qui les rend fragiles dès qu'un capteur auxiliaire tombe en panne ou qu'un embodiment robotique en est simplement dépourvu par conception. CoRE-VLA promet une dégradation gracieuse sans réentraînement complet, un point clé pour des flottes hétérogènes déployées en usine ou en entrepôt où tous les robots n'ont pas la même instrumentation. C'est un signal de plus que la recherche VLA s'oriente vers la robustesse opérationnelle plutôt que la seule performance en benchmark contrôlé, un décalage régulièrement pointé du doigt entre démonstrations académiques et réalité industrielle. Ce travail s'inscrit dans la lignée des architectures VLA généralistes type Pi-0 ou GR00T N2, mais adresse un angle mort spécifique: l'hétérogénéité capteurs plutôt que la seule diversité des tâches. Il s'agit ici d'une contribution de recherche publiée sur arXiv, sans partenaire industriel ni déploiement annoncé; les prochaines étapes attendues seraient une validation sur davantage d'embodiments réels et une comparaison directe avec les VLA propriétaires déployés en production.

RechercheActu

1 source

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

42

2arXiv cs.RO

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

Une équipe de chercheurs publie fin juin 2026 ROAD-VLA (arXiv:2606.25800), un cadre d'adaptation en ligne des modèles VLA (Vision-Language-Action) par auto-distillation guidée par avantage. Les VLA, à l'image de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind), traduisent directement une entrée visuelle et une instruction en langage naturel en séquences d'actions robotiques. Le problème : affiner un tel modèle pré-entraîné sur de nouvelles tâches via apprentissage par renforcement (RL) génère des récompenses trop éparses pour superviser des politiques autoregressives de haute dimension. ROAD-VLA y répond en construisant un "enseignant proximal" dans l'espace des actions, perturbant les logits des tokens d'action avec des estimations d'avantage calibrées pour convertir des récompenses rares en supervision dense token par token. Évalué sur sept environnements de manipulation robotique, en distribution et hors distribution, le framework surpasse PPO (Proximal Policy Optimization, référence RL standard) dans la quasi-totalité des configurations. La découverte la plus saillante est l'existence d'un "modality gap" : les enseignants textuels conditionnés sur des démonstrations, des expériences récupérées ou des plans de haut niveau s'avèrent systématiquement inefficaces pour adapter les politiques d'action VLA. C'est une contradiction directe avec une hypothèse répandue selon laquelle le guidage symbolique ou langagier peut servir de supervision fiable lors du fine-tuning RL. ROAD-VLA démontre que la supervision doit opérer dans l'espace des actions, pas dans l'espace du langage. Pour un intégrateur déployant des bras manipulateurs basés sur VLA, cela ouvre une voie d'adaptation au domaine sans collecter de nouvelles démonstrations massives : le modèle se corrige via son propre comportement et les signaux de récompense de l'environnement réel. Le paradigme VLA a pris son essor avec RT-2 (Google DeepMind, 2023), puis s'est accéléré via Pi-0 (Physical Intelligence, 2024), GR00T N2 (NVIDIA, 2025) et Helix (Figure AI), accompagnés d'une vague de publications académiques. L'adaptation post-déploiement, soit ajuster un modèle généraliste à une géométrie de préhension spécifique ou à un flux industriel précis sans tout ré-entraîner, est désormais identifiée comme le verrou opérationnel suivant par les équipes terrain. Ce travail reste une annonce académique (arXiv, juin 2026), pas un produit livré ni un déploiement industriel réel, et la validation sur robots physiques en conditions industrielles reste à conduire. Aucun acteur français ou européen n'est impliqué dans cette recherche.

RechercheOpinion

1 source

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

47

3arXiv cs.RO

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Une étude publiée le 19 juin 2026 sur arXiv (réf. 2606.15714) présente la première évaluation systématique des capacités multilingues des modèles VLA (Vision-Language-Action), cette famille d'architectures qui combine vision, langage et contrôle moteur pour produire des politiques robotiques généralisées. Les chercheurs ont construit des benchmarks multilingues en traduisant les instructions de jeux d'évaluation existants, puis ont testé plusieurs modèles VLA représentatifs sur un ensemble de tâches en environnement simulé. Le constat est net : les modèles entraînés principalement sur des instructions en anglais accusent une dégradation significative de leurs performances lorsqu'on les interroge dans d'autres langues, même quand le backbone LLM sous-jacent est nativement multilingue. Ce résultat a des implications directes pour quiconque envisage de déployer des robots à instructions verbales en dehors d'un contexte anglophone. Il invalide l'hypothèse commode selon laquelle les capacités multilingues d'un grand modèle de langage se transfèrent automatiquement au modèle VLA lors du fine-tuning sur données robotiques. L'analyse cross-linguale révèle deux sources d'échec distinctes : la compréhension de l'instruction d'une part, l'exécution de l'action d'autre part. Les auteurs identifient également des décalages de représentation interne provoqués par les instructions non-anglaises comme facteur structurel du gap, ce qui suggère que le problème est ancré dans la dynamique d'entraînement et pas seulement dans le vocabulaire. Les VLA généralisés ont connu une accélération notable depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, OpenVLA (Berkeley), ou encore GR00T N2 de NVIDIA, tous entraînés quasi-exclusivement sur des corpus anglophones. Pour combler le gap mis en évidence, les auteurs proposent une méthode de fine-tuning appelée Multilingual Principal Component Alignment (MPCA), qui utilise une analyse en composantes principales (ACP) pour aligner les représentations multilingues dans un sous-espace commun. Les résultats sont obtenus en simulation et n'ont pas encore été validés sur robot réel, ce qui constitue la limite principale à relativiser avant tout déploiement industriel. L'étude ouvre néanmoins une piste de travail concrète pour les équipes qui ciblent des marchés européens ou asiatiques.

UELes équipes R&D européennes ciblant des déploiements en langues non-anglaises (français, allemand, etc.) doivent intégrer cette limitation structurelle dans leurs protocoles d'entraînement VLA et ne peuvent pas supposer que le multilinguisme du LLM backbone se transfère automatiquement.

RechercheOpinion

1 source

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

48

4arXiv cs.RO

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv le 12 mai 2026 (référence 2605.09005) GuardVLA, premier cadre de vérification de propriété intellectuelle basé sur les backdoors pour les modèles Vision-Language-Action (VLA). Ces modèles permettent un contrôle robotique généraliste en convertissant des entrées multimodales (vision, langage, données proprioceptives) directement en séquences d'actions motrices. GuardVLA intègre un filigrane cryptographique lors de l'entraînement : un message secret est injecté dans les données visuelles du modèle sans altérer ses performances nominales sur les tâches cibles. La vérification post-déploiement s'effectue via un mécanisme baptisé "swap-and-detect" : un projecteur de déclenchement combiné à une tête de classification externe active et détecte le backdoor intégré à partir des probabilités de prédiction du modèle. Les expériences valident l'approche sur plusieurs architectures, jeux de données et scénarios d'adaptation. L'enjeu est direct pour les intégrateurs et éditeurs de modèles robotiques. Des VLA open-source comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) font déjà l'objet de fine-tuning intensif par des tiers. GuardVLA démontre que le filigrane résiste à ces adaptations post-release, ce qui contredit l'hypothèse courante selon laquelle le fine-tuning suffit à effacer toute traçabilité. Pour un éditeur cherchant à protéger un modèle robotique commercial ou à prouver sa propriété en cas de litige, c'est une voie technique crédible sans recours à des mécanismes de DRM contraignants. La capacité à certifier l'origine d'un modèle devient stratégique à l'heure où les VLA s'imposent comme actifs industriels à part entière. Le watermarking de modèles IA existe déjà pour les LLM et les modèles de diffusion d'images, mais les VLA posent une contrainte supplémentaire : leur sortie est une séquence d'actions motrices et non un texte ou une image, ce qui rend la détection de backdoor structurellement différente. Ce travail reste un preprint non évalué par les pairs, sans déploiement industriel annoncé à ce stade. Les approches concurrentes, hachage de poids ou licensing cryptographique, ne ciblent pas spécifiquement la modalité action des VLA. La soumission en conférence, probablement CoRL 2026 ou ICRA 2027, constituera la prochaine validation formelle. L'adoption à grande échelle dépendra aussi de l'intégration aux outils de distribution existants, notamment Hugging Face, où la majorité des VLA généralisés sont aujourd'hui hébergés et redistribués.

UELes éditeurs et chercheurs européens distribuant des modèles VLA via Hugging Face (entreprise française, principal hub de redistribution cité) pourraient adopter GuardVLA pour défendre leur propriété intellectuelle face aux fine-tunings non autorisés.

RechercheOpinion

1 source

LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation

À lire aussi

CoRE-VLA : vers une modélisation vision-langage-action évolutive et robuste par routage conditionnel d'experts

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)