LIBERO-Safety : un benchmark complet pour la sécurité p…

ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)

49

1arXiv cs.RO

ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)

Une équipe de recherche a publié sur arXiv (réf. 2606.27079) un benchmark diagnostique baptisé ForesightSafety-VLA, conçu pour évaluer spécifiquement la sécurité des modèles vision-langage-action (VLA) en robotique incarnée. Le système propose une taxonomie de 13 catégories réparties en trois blocs : Safe-Core (sécurité lors des interactions physiques), Safe-Lang (sécurité côté instruction) et Safe-Vis (sécurité côté perception). Les évaluations portent sur 66 scénarios de base augmentés de contraintes de sécurité, déployés dans le simulateur RoboTwin sur 5 morphologies robotiques distinctes. Les politiques sont testées selon trois axes de variation contrôlée : structure de la scène, commande en langage naturel et observation visuelle. Au-delà du simple taux de succès binaire, le benchmark mesure le risque au niveau processus via deux métriques : le coût de sécurité cumulatif (CC) et le temps d'exposition au risque (RET), complétés par une décomposition en quatre quadrants distinguant succès et échecs sûrs ou dangereux. Les résultats révèlent une lacune structurelle dans l'évaluation des VLA actuels : même les politiques les plus performantes accumulent des coûts de sécurité non négligeables et réussissent des tâches nominales via des trajectoires dangereuses. Plus significatif encore, les variations de structure de scène et d'observation visuelle dégradent la sécurité beaucoup plus fortement que les variations de commandes en langage naturel. Ce résultat contredit l'hypothèse implicite selon laquelle la sécurité serait avant tout un problème de compréhension d'instructions : elle est en réalité étroitement couplée à la perception, à l'ancrage sensorimoteur et à la compétence de contrôle bas niveau. Cela suggère que les filtres de sécurité post-hoc ne suffisent pas à compenser les déficits de perception et de planification. Ce travail s'inscrit dans un contexte où les VLA progressent rapidement vers des capacités généralistes, portés par des modèles comme pi-zéro (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind), dont les limites de sécurité restent mal documentées dans la littérature. ForesightSafety-VLA tente de combler ce vide méthodologique en imposant la sécurité comme cible principale d'évaluation, plutôt qu'un indicateur secondaire. La publication reste au stade de benchmark de recherche, sans déploiement industriel ni partenariat annoncé. Les suites naturelles concernent l'extension à des environnements réels, à des robots mobiles, et l'intégration du benchmark dans les pipelines d'entraînement pour orienter l'apprentissage vers des comportements intrinsèquement sûrs.

RecherchePaper

1 source

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

50

2arXiv cs.RO

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion

1 source

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

47

3arXiv cs.RO

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence. Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles. Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

UELe benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

RechercheOpinion

1 source

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

47

4arXiv cs.RO

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Une équipe de recherche a publié en juin 2026 SafeVLA-Bench (arXiv:2606.00773), un cadre d'évaluation de la sécurité conçu spécifiquement pour les modèles vision-langage-action (VLA). Contrairement aux benchmarks existants qui se limitent à mesurer si une tâche de manipulation a été accomplie ou non, SafeVLA-Bench évalue ce qui se passe pendant la trajectoire d'exécution : contact excessif avec l'environnement, perturbation d'objets adjacents, déstabilisation de l'objet tenu, ou auto-contact du robot. Le framework formalise ces critères sous forme de spécifications Signal Temporal Logic (STL) et introduit deux métriques complémentaires : SBU (Succ-But-Unsafe), la fraction des séquences d'exécution qui réussissent la tâche tout en violant une contrainte de sécurité, et VSI (Violation Severity Index), un score de profondeur de violation borné. Appliqué à deux environnements de simulation, LIBERO (manipulation sur table) et RoboCasa-365 (cuisine), sur neuf entrées politique-benchmark, le framework révèle des chiffres préoccupants : les meilleures baselines tabletop affichent encore 13 à 15 % d'épisodes non sécurisés, et 36 à 56 % des rollouts réussis de RoboCasa-365 violent au moins une clause de sécurité active. Ce travail met en évidence un angle mort systémique dans l'évaluation des VLA : un taux de succès élevé ne garantit pas une exécution sûre. Pour les intégrateurs industriels et les équipes qui envisagent de déployer des politiques VLA en environnement réel, cela signifie que les benchmarks habituels surestiment structurellement la maturité des modèles. La distinction que pose SafeVLA-Bench entre "tâche accomplie" et "accomplie de façon acceptable" est exactement le type de critère qui sépare une démo convaincante d'un déploiement industriellement viable. Il faut noter que l'ensemble des résultats repose sur des simulations, ce qui laisse entière la question du transfert sim-to-real pour les violations de sécurité elles-mêmes. L'initiative s'inscrit dans une dynamique plus large de maturation de l'évaluation des VLA, portée notamment par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure), dont les capacités de manipulation généraliste progressent plus vite que les outils pour les qualifier rigoureusement. Jusqu'ici, la communauté s'appuyait sur des métriques de succès binaires héritées de l'ère pré-VLA, insuffisantes dès lors que les politiques sont intégrées dans des chaînes de production ou à proximité d'opérateurs humains. SafeVLA-Bench se positionne comme un outil post-hoc, applicable aux benchmarks existants sans refaire les évaluations depuis zéro. Les prochaines étapes naturelles incluent l'extension à des environnements physiques réels et l'intégration dans les pipelines de certification des systèmes cobotiques. Le projet est documenté sur safevla.org.

UESafeVLA-Bench pourrait alimenter les cadres de certification des systèmes cobotiques en Europe, notamment dans le contexte de l'AI Act qui impose des évaluations de sécurité rigoureuses pour les systèmes IA à haut risque déployés à proximité d'opérateurs humains.

RechercheOpinion

1 source

LIBERO-Safety : un benchmark complet pour la sécurité physique et sémantique des modèles vision-langage-action (VLA)

À lire aussi

ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA