
Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)
Une étude publiée le 19 juin 2026 sur arXiv (réf. 2606.15714) présente la première évaluation systématique des capacités multilingues des modèles VLA (Vision-Language-Action), cette famille d'architectures qui combine vision, langage et contrôle moteur pour produire des politiques robotiques généralisées. Les chercheurs ont construit des benchmarks multilingues en traduisant les instructions de jeux d'évaluation existants, puis ont testé plusieurs modèles VLA représentatifs sur un ensemble de tâches en environnement simulé. Le constat est net : les modèles entraînés principalement sur des instructions en anglais accusent une dégradation significative de leurs performances lorsqu'on les interroge dans d'autres langues, même quand le backbone LLM sous-jacent est nativement multilingue.
Ce résultat a des implications directes pour quiconque envisage de déployer des robots à instructions verbales en dehors d'un contexte anglophone. Il invalide l'hypothèse commode selon laquelle les capacités multilingues d'un grand modèle de langage se transfèrent automatiquement au modèle VLA lors du fine-tuning sur données robotiques. L'analyse cross-linguale révèle deux sources d'échec distinctes : la compréhension de l'instruction d'une part, l'exécution de l'action d'autre part. Les auteurs identifient également des décalages de représentation interne provoqués par les instructions non-anglaises comme facteur structurel du gap, ce qui suggère que le problème est ancré dans la dynamique d'entraînement et pas seulement dans le vocabulaire.
Les VLA généralisés ont connu une accélération notable depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, OpenVLA (Berkeley), ou encore GR00T N2 de NVIDIA, tous entraînés quasi-exclusivement sur des corpus anglophones. Pour combler le gap mis en évidence, les auteurs proposent une méthode de fine-tuning appelée Multilingual Principal Component Alignment (MPCA), qui utilise une analyse en composantes principales (ACP) pour aligner les représentations multilingues dans un sous-espace commun. Les résultats sont obtenus en simulation et n'ont pas encore été validés sur robot réel, ce qui constitue la limite principale à relativiser avant tout déploiement industriel. L'étude ouvre néanmoins une piste de travail concrète pour les équipes qui ciblent des marchés européens ou asiatiques.
Les équipes R&D européennes ciblant des déploiements en langues non-anglaises (français, allemand, etc.) doivent intégrer cette limitation structurelle dans leurs protocoles d'entraînement VLA et ne peuvent pas supposer que le multilinguisme du LLM backbone se transfère automatiquement.




