RecherchearXiv cs.RO 27 avril 2026

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement.

Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle.

Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

Impact France/UE

Les startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

Dans nos dossiers

Figure Boston Dynamics Agility Robotics — Digit Wandercraft

À lire aussi

1arXiv cs.RO

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion

1 source

2arXiv cs.RO

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion

1 source

3arXiv cs.RO

Lâcher-puis-récupérer : quelle est la redondance des modèles vision-langage-action (VLA) ?

Une équipe de chercheurs a publié fin juin 2026 une étude (arXiv:2606.27755) examinant la redondance architecturale des modèles Vision-Language-Action (VLA), ces modèles de contrôle robotique qui combinent un backbone de langage préentraîné avec des modules vision et action. Le protocole, baptisé Drop-Then-Recovery (DTR), consiste à supprimer des blocs transformer sélectionnés d'un VLA préentraîné, puis à le fine-tuner pour mesurer si la capacité retirée était réellement nécessaire au contrôle en boucle fermée. Pour prioriser quels blocs supprimer, les auteurs introduisent GateProbe, une métrique de sensibilité en un seul passage (one-shot) qui classe les blocs selon leur contribution à la perte d'action en aval. Les expériences couvrent plusieurs architectures VLA, des benchmarks de manipulation standard (dont LIBERO) et des scénarios industriels sur robot réel. Résultat chiffré marquant : supprimer la moitié des blocs LLM d'OpenVLA-OFT fait passer le score LIBERO de 95,0 % à 98,3 %, et ne conserver que deux blocs de langage suffit à retrouver les performances de référence. Ce résultat remet en question un postulat implicite du domaine : que la profondeur des backbones de langage hérités des grands modèles (LLM) est nécessaire à la compréhension d'instructions robotiques. Les instructions typiques en manipulation sont courtes et peu compositionnelles ; le surcapacité linguistique ne sert pas le contrôle et peut même nuire via du bruit de gradient ou une compétition de capacité. En revanche, les voies vision et action se révèlent nettement moins tolérantes à la suppression, ce qui oriente clairement les priorités d'allocation pour les futures architectures VLA. Pour les intégrateurs industriels, cela ouvre la voie à des modèles plus légers, moins coûteux à inférer et à fine-tuner, sans dégradation de performance sur les tâches réelles. Les VLA ont émergé comme paradigme dominant du contrôle robotique généraliste depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley, 2024), qui ont montré qu'un backbone VLM préentraîné pouvait être réutilisé pour la manipulation. OpenVLA-OFT, utilisé comme modèle de référence dans cette étude, est une variante fine-tunable publiée par l'Université de Stanford. Parmi les concurrents directs sur ce terrain architectural : Physical Intelligence avec pi0 (basé sur un flow matching), qui a déjà opté pour une architecture plus légère côté langage, et les travaux de pruning de transformers en NLP (SparseGPT, Sheared LLaMA) dont DTR s'inspire méthodologiquement. Le code est disponible sur GitHub (s1ghhh/VLADrop). Les prochaines étapes logiques seraient de tester DTR sur des modèles plus récents (GR00T N2 de NVIDIA, Helix de Figure) et sur des tâches à instructions longues ou hiérarchiques, où la profondeur linguistique pourrait enfin devenir un facteur limitant.

RechercheOpinion

1 source

4arXiv cs.RO

VLALeaks : attaques par inférence d'appartenance contre les modèles vision-langage-action

Des chercheurs ont publié le 15 juin 2026 un article (arXiv:2606.15165) présentant VLALeaks, une méthode d'attaque par inférence d'appartenance (membership inference attack, MIA) ciblant spécifiquement les modèles Vision-Language-Action (VLA). Ces modèles, qui permettent le contrôle bout-en-bout d'un robot à partir d'instructions en langage naturel et d'entrées visuelles, sont au cœur des systèmes robotiques les plus récents, de Pi-0 (Physical Intelligence) à OpenVLA en passant par les variantes de RT-2. L'attaque repose sur une observation de divergences dans les mécanismes d'attention interne des VLA selon que l'exemple présenté appartient ou non aux données d'entraînement. Le pipeline proposé se décompose en deux étapes : extraction de caractéristiques d'appartenance, puis construction d'un modèle d'attaque supervisé. Les résultats sur plusieurs benchmarks VLA montrent des métriques élevées, notamment en AUC et en TPR à 1 % de taux de faux positifs (TPR@1%FPR), sans que les auteurs donnent les valeurs absolues dans le résumé disponible. L'enjeu est substantiel pour quiconque développe ou déploie des systèmes robotiques fondés sur des VLA. Les données de démonstration robotique sont coûteuses à collecter, téléopération, enregistrement de trajectoires, annotation, et constituent un actif industriel stratégique. Montrer qu'un adversaire peut déterminer, à partir du seul accès aux sorties du modèle, si une démonstration spécifique a servi à l'entraînement revient à exposer à la fois la propriété intellectuelle des intégrateurs et les données potentiellement personnelles des opérateurs ayant effectué les démonstrations. C'est la première étude systématique de ce type de vulnérabilité sur des VLA, un angle resté jusqu'ici largement ignoré alors que les MIA sont bien documentées pour les LLM et les modèles de vision. Les VLA ont émergé comme paradigme dominant dans la robotique généraliste depuis 2023, portés par des travaux comme RT-2 (Google DeepMind), Octo (Berkeley) et les modèles de Physical Intelligence. Leur adoption croissante dans des contextes industriels réels, où les données propriétaires d'entreprises comme Amazon Robotics, Boston Dynamics ou Exotec pourraient constituer le corpus d'entraînement, rend cette classe d'attaques particulièrement critique. Les prochaines étapes naturelles incluent l'évaluation de défenses (differential privacy, data augmentation, output perturbation) et l'extension des attaques à des architectures multimodales plus récentes. Les auteurs positionnent VLALeaks comme un outil de recherche pour construire des déploiements VLA sécurisés, mais la publication de la méthode en elle-même constitue aussi un signal d'alarme pour les équipes qui mutualisent des données de démonstration dans des pipelines de fine-tuning partagés.

UEExotec (France) figure parmi les entreprises dont les données de démonstration propriétaires pourraient être exposées par ce vecteur d'attaque, ce qui impose une révision des pratiques de sécurité pour tout déployeur de VLA mutualisant des pipelines de fine-tuning en Europe.

RechercheOpinion

1 source