Aller au contenu principal
RecherchearXiv cs.RO4h

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs en sécurité informatique ont publié sur arXiv (référence 2601.14323) une attaque baptisée SilentDrift, ciblant les modèles Vision-Language-Action (VLA) utilisés pour piloter des robots manipulateurs. L'attaque exploite deux mécanismes devenus standards dans les architectures VLA modernes : l'action chunking, qui consiste à générer des séquences de K actions d'un coup plutôt qu'action par action, et la représentation en delta de pose, qui encode chaque mouvement sous forme d'incrément relatif à la position précédente. Cette combinaison crée une boucle ouverte visuelle intra-chunk : une fois la séquence lancée, le robot l'exécute sans relire le flux caméra à chaque pas. Des perturbations imperceptibles à l'échelle d'un pas s'accumulent alors par intégration, déviant la trajectoire finale de manière significative. Sur le benchmark LIBERO, SilentDrift atteint un taux de succès d'attaque de 93,2 % avec un taux d'empoisonnement inférieur à 2 % des données d'entraînement, tout en maintenant un taux de réussite sur tâches propres de 95,3 %, rendant la backdoor pratiquement indétectable par les métriques standards.

L'impact pour les intégrateurs et décideurs B2B est direct : les VLA comme pi-0 de Physical Intelligence, OpenVLA ou les variantes de RT-2 s'appuient précisément sur ces mécanismes d'action chunking pour obtenir des mouvements fluides et cohérents. Un attaquant ayant accès à une fraction marginale des données d'entraînement peut donc compromettre un système de manipulation robotique déployé en environnement industriel sans déclencher d'alarme sur les métriques de performance habituelles. Les trajectoires empoisonnées sont visuellement identiques aux démonstrations saines, ce qui invalide les audits visuels comme contrôle de qualité suffisant. La stratégie dite "keyframe attack" de SilentDrift cible spécifiquement la phase d'approche critique d'une saisie, maximisant l'effet de déviation tout en minimisant l'exposition du trigger.

Ce travail s'inscrit dans un courant de recherche naissant sur la sécurité des modèles de fondation pour la robotique, un champ largement ignoré jusqu'ici face à l'effervescence autour des performances. Les VLA connaissent une adoption rapide depuis 2023, portée par des acteurs comme Physical Intelligence (pi-0), Google DeepMind (RT-2, GR00T N2 de Nvidia) et les laboratoires académiques via des benchmarks comme LIBERO ou Open-X Embodiment. SilentDrift est une attaque en boîte noire, ce qui signifie qu'elle ne nécessite pas d'accès au modèle entraîné, uniquement aux données. Les auteurs n'annoncent pas de contre-mesure, ouvrant un chantier de recherche défensive urgent à mesure que ces modèles approchent de déploiements réels dans la logistique et l'assemblage manufacturier.

Impact France/UE

Les intégrateurs européens qui déploient ou évaluent des VLA (pi-0, OpenVLA, RT-2) dans la logistique ou l'assemblage doivent intégrer l'audit de sécurité des données d'entraînement dans leurs processus de qualification, car les métriques de performance standards ne détectent pas ce vecteur d'attaque.

À lire aussi

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA
1arXiv cs.RO 

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Des chercheurs ont déposé sur arXiv (référence 2605.08612) un cadre d'attaque par porte dérobée ciblant les modèles Vision-Language-Action (VLA), architectures qui connectent perception visuelle, compréhension du langage naturel et génération de commandes motrices pour robots. Le framework proposé, baptisé ATAAT (Adaptive Threat-Aware Adversarial Tuning), exploite la voie visuelle des VLA pour y injecter des déclencheurs adversariaux, et atteint un taux de succès d'attaque ciblée (TASR) supérieur à 80% avec un taux d'empoisonnement de seulement 5% des données d'entraînement. L'étude identifie un phénomène clé baptisé "interférence de gradient" : un échec d'optimisation qui survient lorsque les stratégies de rétropropagation entrent en conflit durant l'entraînement bout-en-bout, ce qui explique l'échec des attaques traditionnelles sur les VLA. ATAAT contourne cet obstacle via un mécanisme de "cartographie adaptative menace-méthode" qui sélectionne dynamiquement la stratégie de découplage de gradient selon les capacités supposées de l'attaquant. Ce travail soulève des questions de sécurité concrètes pour les équipes intégrant des VLA en contexte industriel. Un taux d'empoisonnement de 5% signifie qu'une contamination limitée de la pipeline de données d'entraînement suffit à implanter un comportement malveillant quasi indétectable lors des audits standards. Dans un bras robotique ou un système d'assistance physique, une porte dérobée activée par un déclencheur visuel discret, un objet dans le champ caméra ou une variation de couleur subtile, pourrait provoquer une action non désirée aux conséquences physiques réelles. Les auteurs revendiquent, pour la première fois dans ce contexte, des "attaques découplées implicites" en scénario d'empoisonnement de données, sans modification directe des poids du modèle, ce qui complique toute détection post-entraînement. Les VLA ont connu une montée en puissance rapide depuis 2023, portés par Pi-0 (Physical Intelligence), OpenVLA (Stanford), GR00T N2 (NVIDIA) et Helix (Figure AI), tous basés sur un encodeur visuel couplé à un grand modèle de langage et une tête de prédiction d'actions. Les recherches sur les portes dérobées dans les réseaux de neurones remontent aux travaux fondateurs BadNets et TrojanNN (2017-2018), mais leur adaptation aux VLA restait peu explorée, précisément en raison de la complexité de l'entraînement conjoint. Ce papier de recherche fournit une base théorique pour de futurs mécanismes défensifs sans proposer de contre-mesure opérationnelle immédiate. Pour les intégrateurs planifiant des déploiements VLA en production, il rappelle que la sécurité de la chaîne de données d'entraînement est aussi critique que celle de l'inférence elle-même.

UELes équipes R&D et intégrateurs européens déployant des VLA en contexte industriel doivent renforcer la sécurité de leur pipeline de données d'entraînement, ce vecteur d'attaque étant désormais formalisé avec des métriques concrètes.

RechercheActu
1 source
RedVLA : l'attaque physique des modèles vision-langage-action (VLA)
2arXiv cs.RO 

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion
1 source