RecherchearXiv cs.RO 2 juin 2026

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a publié en juin 2026 SafeVLA-Bench (arXiv:2606.00773), un cadre d'évaluation de la sécurité conçu spécifiquement pour les modèles vision-langage-action (VLA). Contrairement aux benchmarks existants qui se limitent à mesurer si une tâche de manipulation a été accomplie ou non, SafeVLA-Bench évalue ce qui se passe pendant la trajectoire d'exécution : contact excessif avec l'environnement, perturbation d'objets adjacents, déstabilisation de l'objet tenu, ou auto-contact du robot. Le framework formalise ces critères sous forme de spécifications Signal Temporal Logic (STL) et introduit deux métriques complémentaires : SBU (Succ-But-Unsafe), la fraction des séquences d'exécution qui réussissent la tâche tout en violant une contrainte de sécurité, et VSI (Violation Severity Index), un score de profondeur de violation borné. Appliqué à deux environnements de simulation, LIBERO (manipulation sur table) et RoboCasa-365 (cuisine), sur neuf entrées politique-benchmark, le framework révèle des chiffres préoccupants : les meilleures baselines tabletop affichent encore 13 à 15 % d'épisodes non sécurisés, et 36 à 56 % des rollouts réussis de RoboCasa-365 violent au moins une clause de sécurité active.

Ce travail met en évidence un angle mort systémique dans l'évaluation des VLA : un taux de succès élevé ne garantit pas une exécution sûre. Pour les intégrateurs industriels et les équipes qui envisagent de déployer des politiques VLA en environnement réel, cela signifie que les benchmarks habituels surestiment structurellement la maturité des modèles. La distinction que pose SafeVLA-Bench entre "tâche accomplie" et "accomplie de façon acceptable" est exactement le type de critère qui sépare une démo convaincante d'un déploiement industriellement viable. Il faut noter que l'ensemble des résultats repose sur des simulations, ce qui laisse entière la question du transfert sim-to-real pour les violations de sécurité elles-mêmes.

L'initiative s'inscrit dans une dynamique plus large de maturation de l'évaluation des VLA, portée notamment par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure), dont les capacités de manipulation généraliste progressent plus vite que les outils pour les qualifier rigoureusement. Jusqu'ici, la communauté s'appuyait sur des métriques de succès binaires héritées de l'ère pré-VLA, insuffisantes dès lors que les politiques sont intégrées dans des chaînes de production ou à proximité d'opérateurs humains. SafeVLA-Bench se positionne comme un outil post-hoc, applicable aux benchmarks existants sans refaire les évaluations depuis zéro. Les prochaines étapes naturelles incluent l'extension à des environnements physiques réels et l'intégration dans les pipelines de certification des systèmes cobotiques. Le projet est documenté sur safevla.org.

Impact France/UE

SafeVLA-Bench pourrait alimenter les cadres de certification des systèmes cobotiques en Europe, notamment dans le contexte de l'AI Act qui impose des évaluations de sécurité rigoureuses pour les systèmes IA à haut risque déployés à proximité d'opérateurs humains.

Dans nos dossiers

IA physique & VLA NVIDIA GR00T Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

LIBERO-Safety : un benchmark complet pour la sécurité physique et sémantique des modèles vision-langage-action (VLA)

Des chercheurs ont publié LIBERO-Safety, un benchmark paramétrique conçu pour évaluer la sûreté physique et sémantique des modèles Vision-Language-Action (VLA) dans des scénarios de manipulation robotique. Le système génère de façon procédurale des situations critiques avec une stochasticité complète, en s'appuyant sur un pipeline de génération de données piloté par des poses-clés (keypose-driven), une alternative à la téléopération humaine, jugée trop coûteuse à passer à l'échelle. Le jeu de données résultant comprend 19 664 démonstrations strictement sans collision, avec une randomisation de domaine extensive. L'équipe a ensuite évalué de manière systématique huit modèles VLA et deux modèles fondateurs incarnés (embodied foundation models), couvrant plusieurs paradigmes d'entraînement contemporains. Le résultat central est une tension generalization-safety que les auteurs qualifient de critique : un entraînement sur des données très diversifiées produit des trajectoires plus sûres, mais la réussite des tâches reste fondamentalement plafonnée par une synthèse de trajectoires sous-optimale et un désalignement sémantique. Autrement dit, rendre un VLA plus prudent ne le rend pas automatiquement plus compétent, et inversement. Pour les intégrateurs industriels et les équipes produit qui espèrent déployer ces modèles en environnement non contrôlé, ce constat tempère les promesses des démonstrations récentes : les modèles VLA actuels ne garantissent pas une opération sûre sous contraintes strictes. C'est un signal fort que les métriques de performance sur tâche sont insuffisantes pour valider un déploiement réel. LIBERO-Safety s'inscrit dans la continuité du benchmark LIBERO (Lifelong Robot Learning), initialement développé pour évaluer le transfert de tâches. L'extension safety arrive dans un contexte d'accélération marquée des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure ont tous été présentés cette année avec des capacités de manipulation généraliste convaincantes, mais sans évaluation de sûreté systématisée. LIBERO-Safety propose une infrastructure open-source pour combler ce vide, avec un pipeline scalable permettant à d'autres équipes de générer leurs propres datasets de sécurité. Les suites naturelles incluent l'intégration de ce benchmark dans les pipelines d'évaluation des grands labos de robotique, et potentiellement son adoption comme référentiel de validation pour des déploiements industriels en production.

RecherchePaper

1 source

2arXiv cs.RO

ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)

Une équipe de recherche a publié sur arXiv (réf. 2606.27079) un benchmark diagnostique baptisé ForesightSafety-VLA, conçu pour évaluer spécifiquement la sécurité des modèles vision-langage-action (VLA) en robotique incarnée. Le système propose une taxonomie de 13 catégories réparties en trois blocs : Safe-Core (sécurité lors des interactions physiques), Safe-Lang (sécurité côté instruction) et Safe-Vis (sécurité côté perception). Les évaluations portent sur 66 scénarios de base augmentés de contraintes de sécurité, déployés dans le simulateur RoboTwin sur 5 morphologies robotiques distinctes. Les politiques sont testées selon trois axes de variation contrôlée : structure de la scène, commande en langage naturel et observation visuelle. Au-delà du simple taux de succès binaire, le benchmark mesure le risque au niveau processus via deux métriques : le coût de sécurité cumulatif (CC) et le temps d'exposition au risque (RET), complétés par une décomposition en quatre quadrants distinguant succès et échecs sûrs ou dangereux. Les résultats révèlent une lacune structurelle dans l'évaluation des VLA actuels : même les politiques les plus performantes accumulent des coûts de sécurité non négligeables et réussissent des tâches nominales via des trajectoires dangereuses. Plus significatif encore, les variations de structure de scène et d'observation visuelle dégradent la sécurité beaucoup plus fortement que les variations de commandes en langage naturel. Ce résultat contredit l'hypothèse implicite selon laquelle la sécurité serait avant tout un problème de compréhension d'instructions : elle est en réalité étroitement couplée à la perception, à l'ancrage sensorimoteur et à la compétence de contrôle bas niveau. Cela suggère que les filtres de sécurité post-hoc ne suffisent pas à compenser les déficits de perception et de planification. Ce travail s'inscrit dans un contexte où les VLA progressent rapidement vers des capacités généralistes, portés par des modèles comme pi-zéro (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind), dont les limites de sécurité restent mal documentées dans la littérature. ForesightSafety-VLA tente de combler ce vide méthodologique en imposant la sécurité comme cible principale d'évaluation, plutôt qu'un indicateur secondaire. La publication reste au stade de benchmark de recherche, sans déploiement industriel ni partenariat annoncé. Les suites naturelles concernent l'extension à des environnements réels, à des robots mobiles, et l'intégration du benchmark dans les pipelines d'entraînement pour orienter l'apprentissage vers des comportements intrinsèquement sûrs.

RecherchePaper

1 source

3arXiv cs.RO

SafeRelBench : un benchmark sensible aux relations spatiales pour la sécurité au niveau des processus dans les agents incarnés pilotés par VLM

Voici l'article traduit et résumé : Des chercheurs présentent SafeRelBench, un nouveau benchmark évaluant la sécurité des agents robotiques pilotés par des modèles vision-langage (VLM), avec un focus sur les relations spatiales entre objets plutôt que sur la simple reconnaissance de risques statiques. Le jeu de données comprend 507 échantillons d'évaluation exécutables, répartis entre 248 échantillons centrés sur des relations spatiales (support, confinement, proximité) et 259 échantillons de contrôle non spatiaux. L'équipe a testé sept agents robotiques différents, combinant des VLM open-source et propriétaires, pour mesurer non seulement s'ils accomplissent une tâche demandée, mais s'ils respectent des contraintes de sécurité tout au long du processus d'exécution, avant même que des actions risquées ne soient entreprises. Le résultat principal est préoccupant pour l'industrie : les chercheurs observent un écart important entre la réussite d'une tâche et la conformité en matière de sécurité au niveau du processus. Concrètement, les agents testés parviennent souvent à terminer la tâche demandée tout en violant des règles de sécurité intermédiaires, par exemple en manipulant un objet posé de façon instable ou en ignorant un risque de renversement pendant le mouvement. Ce constat remet en question l'hypothèse répandue dans le secteur selon laquelle un modèle VLA qui réussit une tâche a nécessairement raisonné correctement sur les risques physiques associés. Pour les intégrateurs et décideurs B2B déployant des robots domestiques ou humanoïdes en environnement réel, cela signifie que les métriques de succès de tâche classiques ne suffisent pas à garantir un déploiement sûr, et que l'évaluation doit désormais intégrer explicitement le raisonnement sur les relations spatiales entre objets. Ce travail s'inscrit dans un mouvement plus large de recherche sur la sécurité des agents incarnés (embodied AI), où les benchmarks existants se limitaient jusqu'ici à la reconnaissance de dangers statiques, au refus d'instructions dangereuses, ou à la vérification de l'état final d'une tâche, sans examiner la trajectoire du processus. SafeRelBench se distingue en testant explicitement si les conditions de sécurité sont respectées avant l'exécution d'actions à risque, plaçant les relations spatiales au cœur de l'évaluation. Les auteurs concluent qu'une intelligence incarnée véritablement sûre nécessite, au-delà de meilleures capacités de perception et de planification, un raisonnement fiable sur la manière dont les relations entre objets façonnent le risque pendant l'interaction, un axe de recherche qui devrait gagner en importance à mesure que les déploiements de robots humanoïdes et domestiques s'accélèrent.

RecherchePaper

1 source

4arXiv cs.RO

RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique

Une équipe de chercheurs a déposé sur arXiv (identifiant 2604.19092) RoboWM-Bench, un benchmark dédié à l'évaluation des world models vidéo pour la manipulation robotique. Le protocole est exigeant : les comportements générés par ces modèles, à partir de vidéos de mains humaines ou de robots en action, sont convertis en séquences d'actions exécutables, puis validés par exécution réelle sur robot physique. Les évaluations conduites sur les meilleurs world models actuels sont sans appel : produire des comportements physiquement exécutables de manière fiable reste un problème ouvert. Les modes d'échec récurrents identifiés incluent les erreurs de raisonnement spatial, la prédiction instable des contacts entre effecteur et objet, et les déformations non physiques de matériaux. Un fine-tuning sur données de manipulation améliore les résultats, mais les incohérences physiques persistent. Ce constat soulève une question stratégique pour l'industrie : peut-on utiliser des world models comme simulateurs bon marché pour générer des données d'entraînement, en remplacement des démonstrations terrain coûteuses ? Le réalisme visuel d'une vidéo générée ne garantit pas sa plausibilité physique, une distinction que les benchmarks existants, majoritairement orientés perception ou diagnostic, ne permettaient pas de mesurer. En imposant la validation par exécution réelle comme critère central, RoboWM-Bench dépasse les métriques habituelles de cohérence temporelle ou de FID. Pour les équipes engineering et les intégrateurs, la conclusion est opérationnelle : les world models actuels ne sont pas encore substituables aux démonstrations réelles pour l'apprentissage de politiques de manipulation précise. L'intérêt pour les world models en robotique s'est intensifié depuis 2024, porté par des modèles génératifs comme Sora (OpenAI), Genie 2 (Google DeepMind) ou UniSim, et alimenté par les avancées des VLA (Vision-Language-Action). L'hypothèse qu'un monde simulé pourrait tenir lieu de terrain d'entraînement, évitant la collecte de données réelles, est au coeur des investissements d'une dizaine de startups et labos académiques actifs sur ce créneau. RoboWM-Bench s'inscrit dans une dynamique de standardisation comparable à ce que RoboMimic ou MetaWorld ont établi pour l'imitation learning : un protocole unifié et reproductible. Aucune affiliation institutionnelle ni timeline d'extension du benchmark ne figurent dans le preprint, ce qui en limite la portée immédiate, mais la publication envoie un signal net : la communauté robotique commence à exiger des preuves d'exécutabilité physique, et non plus seulement de cohérence visuelle.

RecherchePaper

1 source