LIBERO-Safety : un benchmark complet pour la sécurité physique et sémantique des modèles vision-langage-action (VLA)
Des chercheurs ont publié LIBERO-Safety, un benchmark paramétrique conçu pour évaluer la sûreté physique et sémantique des modèles Vision-Language-Action (VLA) dans des scénarios de manipulation robotique. Le système génère de façon procédurale des situations critiques avec une stochasticité complète, en s'appuyant sur un pipeline de génération de données piloté par des poses-clés (keypose-driven), une alternative à la téléopération humaine, jugée trop coûteuse à passer à l'échelle. Le jeu de données résultant comprend 19 664 démonstrations strictement sans collision, avec une randomisation de domaine extensive. L'équipe a ensuite évalué de manière systématique huit modèles VLA et deux modèles fondateurs incarnés (embodied foundation models), couvrant plusieurs paradigmes d'entraînement contemporains.
Le résultat central est une tension generalization-safety que les auteurs qualifient de critique : un entraînement sur des données très diversifiées produit des trajectoires plus sûres, mais la réussite des tâches reste fondamentalement plafonnée par une synthèse de trajectoires sous-optimale et un désalignement sémantique. Autrement dit, rendre un VLA plus prudent ne le rend pas automatiquement plus compétent, et inversement. Pour les intégrateurs industriels et les équipes produit qui espèrent déployer ces modèles en environnement non contrôlé, ce constat tempère les promesses des démonstrations récentes : les modèles VLA actuels ne garantissent pas une opération sûre sous contraintes strictes. C'est un signal fort que les métriques de performance sur tâche sont insuffisantes pour valider un déploiement réel.
LIBERO-Safety s'inscrit dans la continuité du benchmark LIBERO (Lifelong Robot Learning), initialement développé pour évaluer le transfert de tâches. L'extension safety arrive dans un contexte d'accélération marquée des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure ont tous été présentés cette année avec des capacités de manipulation généraliste convaincantes, mais sans évaluation de sûreté systématisée. LIBERO-Safety propose une infrastructure open-source pour combler ce vide, avec un pipeline scalable permettant à d'autres équipes de générer leurs propres datasets de sécurité. Les suites naturelles incluent l'intégration de ce benchmark dans les pipelines d'évaluation des grands labos de robotique, et potentiellement son adoption comme référentiel de validation pour des déploiements industriels en production.




