RecherchearXiv cs.RO 18 juin 2026

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie ROBOSHACKLES, un jeu de données de 10 000 clips vidéo robotiques conçu pour évaluer la sécurité des modèles de fondation embarqués (EFMs, Embodied Foundation Models) face aux risques de blessures humaines. Disponible sur HuggingFace, le dataset est construit à partir d'observations réelles du corpus DROID, un jeu de téléopération robotique existant. Le pipeline suit quatre étapes : compréhension de scène, édition d'image orientée dangers, génération de prompts temporels décrivant l'évolution attendue, puis synthèse en un seul passage via le modèle vidéo Wan2.7. Les clips couvrent six catégories de risques : deux de dommages directs (contact physique avec un humain) et quatre de dommages indirects (situations domestiques dangereuses créées par le robot). L'évaluation de six EFMs représentatifs selon un critère de refus d'action donne un résultat sans équivoque : 100% de taux de génération d'actions dangereuses dans tous les scénarios testés.

Ce chiffre interpelle directement les intégrateurs et décideurs industriels envisageant le déploiement de robots à base d'EFMs en environnements mixtes. Il expose un angle mort structurel : contrairement aux LLMs textuels, les EFMs ne disposent pas encore de mécanismes d'alignement de sécurité pour anticiper les séquences d'actions dangereuses avant leur exécution physique. La difficulté est méthodologique : collecter des données réelles de robots blessant des humains est éthiquement et légalement impossible, ce qui explique l'absence de benchmarks dans ce domaine jusqu'ici. ROBOSHACKLES propose une voie scalable via la synthèse vidéo, pour entraîner des modèles à refuser des actions à risque et à anticiper les dangers en amont de l'exécution.

Les EFMs sont au cœur d'une compétition intense entre les principaux acteurs : Physical Intelligence avec π0, Google DeepMind avec RT-2, NVIDIA avec GR00T N2, et plusieurs implémentations open-source comme OpenVLA. Ces modèles combinent compréhension multimodale, raisonnement sur les états futurs et génération d'actions directement exécutables sur le robot, un paradigme qui accélère la commercialisation mais expose à des risques que le RLHF classique ne couvre pas. ROBOSHACKLES s'inscrit dans un effort émergent de safety spécifique à la robotique physique, avec pour suites logiques son intégration dans des pipelines de refusal learning et son extension à des scénarios industriels à plus haute énergie cinétique.

Impact France/UE

Le résultat (100% de taux de génération d'actions dangereuses) soulève un enjeu de certification directement pertinent pour les déploiements industriels européens soumis aux exigences de sécurité de l'AI Act, notamment pour les systèmes robotiques opérant en environnements mixtes humain-robot.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X

À lire aussi

1arXiv cs.RO

Modèles fondation vérifiables pour la sécurité des robots

Une équipe de chercheurs présente FEARL (Foundation-Enabled Assured Robot Learning), un cadre publié en juin 2026 sur arXiv (2606.23754), conçu pour rendre les modèles de fondation utilisés en robotique formellement vérifiables. L'architecture repose sur une décomposition en deux modules : un grand Contrôleur (C) qui gère la perception haute dimension et le raisonnement sur les tâches, et un petit module de Sécurité (S) alimenté par des capteurs dédiés basse dimension et un embedding contextuel borné fourni par C, qui produit l'action finale. La vérification formelle s'applique uniquement à S, un composant compact dont les contraintes de sécurité, évitement de collision, limites d'espace de travail, peuvent s'exprimer sur des observations de faible dimension. Le cadre a été évalué sur trois domaines robotiques simulés, en intégrant des VLA (Vision-Language-Action) pré-entraînés disponibles sur étagère, et le transfert vers un robot physique a été validé. Ce découplage répond à un blocage concret pour les intégrateurs et équipes de certification industrielle. Des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont performants mais formellement opaques, ce qui les rend incompatibles avec les outils de vérification existants et freine leur déploiement dans des environnements à risque. FEARL propose un compromis : le Contrôleur conserve sa pleine expressivité pour le raisonnement, tandis que S reste vérifiable. Le transfert sim-to-real réussi indique que l'interface basse dimension ne dégrade pas les performances réelles, ce qui nuance l'hypothèse selon laquelle la richesse sensorielle serait indispensable à un contrôle fiable. Les approches antérieures pour sécuriser les politiques robotiques reposaient sur le reinforcement learning contraint ou des moniteurs d'exécution superposés, sans garanties formelles sur l'ensemble du pipeline. FEARL s'inscrit dans le champ de l'assured autonomy et constitue l'une des premières architectures à intégrer des VLA pré-entraînés dans une boucle vérifiable. Des acteurs comme Enchanted Tools (France) ou Wandercraft, qui développent des systèmes embarqués à contraintes de sécurité fortes, pourraient directement bénéficier de ce type d'approche. Les prochaines étapes naturelles seraient une validation sur des benchmarks de safety formels (IEC 61508, DO-178C) et des tests sur des manipulateurs industriels en environnement non structuré.

UEEnchanted Tools et Wandercraft, acteurs français développant des robots à fortes contraintes de sécurité embarquée, sont explicitement identifiés comme bénéficiaires directs de cette architecture de vérification formelle des VLA.

RecherchePaper

1 source

2arXiv cs.RO

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

Des chercheurs ont publié sur arXiv (preprint 2606.03954, juin 2026) VLESA, un cadre de supervision de la sécurité humaine fondé sur la vision et le langage. Le système analyse des flux vidéo égocentrés (caméra portée à la première personne) pour prédire en temps réel si une action humaine imminente présente un risque, et déclenche une intervention avant que le danger se matérialise. Le coeur technique repose sur deux composants : un agent de prédiction d'intention-action qui infère conjointement l'objectif de l'opérateur et ses prochains gestes à partir de la vidéo, et un Q-filter de sécurité conditionné par l'objectif, entraîné via GRPO (Group Relative Policy Optimization). Ce filtre évalue la dangerosité d'une action en fonction du but inféré, sans nécessiter de ré-entraînement. Sur le benchmark ASIMOV-2.0, VLESA surpasse les baselines en précision d'intervention à la frame exacte, et le Q-filter GRPO améliore la sécurité des actions de plus de 41 points de pourcentage via un décodage contraint conditionné à l'intention. Le code est disponible publiquement sur GitHub. L'apport conceptuel central est la notion de "sécurité dépendante de l'intention" : une action physiquement identique peut être sûre ou dangereuse selon le contexte opérationnel. Saisir un couteau pour couper des légumes n'est pas la même chose que le saisir après un conflit verbal. Les approches classiques de détection d'anomalies ignorent cette ambiguïté et génèrent trop de faux positifs pour être industrialisables. En décomposant le problème en inférence d'intention puis évaluation de risque conditionnel, VLESA propose une architecture plus proche des besoins réels de la cobotique, des environnements de soin à domicile assisté, ou de la surveillance d'opérateurs en milieu industriel. Le gain de 41 points sur ASIMOV-2.0 est significatif si les conditions du benchmark reflètent la diversité du terrain, ce que la nature sélective d'un preprint ne permet pas encore de confirmer. Ce travail s'inscrit dans un champ en forte expansion, celui de la sécurité des systèmes embarqués et des agents physiques autonomes, porté par la montée des VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche VLESA se distingue en ciblant non pas le robot mais l'humain en interaction avec son environnement, positionnement plus proche des travaux en human activity recognition que de la robotique pure. Les acteurs établis du monitoring de sécurité industrielle (Pilz, Sick, Keyence côté capteurs) n'ont pas encore intégré de couche sémantique de ce niveau. Aucun déploiement pilote n'est annoncé dans l'article : il s'agit d'une contribution académique, avec dataset et code partagés, dont la trajectoire vers l'industrialisation dépendra de la robustesse des résultats sur des scénarios hors benchmark et de validations en conditions réelles.

UELes acteurs européens de la sécurité industrielle (Pilz, Sick) n'ayant pas encore intégré de couche sémantique de ce niveau, VLESA ouvre une piste concrète pour la cobotique et le monitoring d'opérateurs, applicable dans le cadre de mise en conformité avec la directive machines révisée.

RecherchePaper

1 source

3arXiv cs.RO

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

Des chercheurs ont publié sur arXiv (référence 2604.16405) un système d'évaluation baptisé ICAT, Incident-Case-Grounded Adaptive Testing, ciblant une lacune précise des modèles de monde vidéo-génératifs : leur capacité à prédire les risques physiques dans des contextes d'action incarnée. Ces modèles, utilisés comme simulateurs neuronaux pour la planification et l'apprentissage de politiques en robotique embarquée, sont soumis à des scénarios de risque construits à partir de rapports d'incidents réels et de manuels de sécurité. ICAT structure ces sources en mémoires de risques, puis les récupère et les compose pour générer des cas de test avec chaînes causales et étiquettes de sévérité. Les expériences menées sur un benchmark dérivé de cette méthode révèlent que les modèles de monde courants omettent fréquemment les mécanismes déclencheurs des situations dangereuses et mal-calibrent systématiquement le niveau de sévérité des conséquences. Ce résultat a des implications directes pour quiconque envisage d'utiliser des world models comme substrat d'entraînement ou de planification pour des systèmes robotiques en environnement réel. Un modèle qui minimise ou ignore les signaux de danger dans ses rollouts imaginés peut inculquer des préférences comportementales non sûres à la politique apprise, sans que l'ingénieur ne le détecte en phase de simulation. Le gap sim-to-real prend ici une dimension nouvelle : ce n'est plus seulement une question de fidélité physique (textures, friction, dynamique), mais de fiabilité dans la représentation des conséquences graves. Pour les intégrateurs qui s'appuient sur des VLA (Vision-Language-Action models) entraînés sur des trajectoires synthétiques, c'est un signal d'alerte concret sur l'absence de métriques de sécurité standardisées dans les pipelines d'évaluation actuels. Les modèles de monde vidéo-génératifs, dont UniSim, DreamerV3, ou les approches issues de Genie et GameNGen, ont connu un regain d'intérêt comme alternatives aux simulateurs physiques classiques (MuJoCo, Isaac Sim), notamment pour leur capacité à généraliser à partir de vidéos brutes. Mais leur évaluation reste dominée par des métriques visuelles (FID, FVD) peu corrélées à la sécurité opérationnelle. ICAT propose un protocole ancré dans les données d'incidents industriels, ce qui le différencie des benchmarks synthétiques existants. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade ; il s'agit d'une contribution académique, et la robustesse du benchmark lui-même reste à valider sur un périmètre de modèles plus large.

RechercheOpinion

1 source

4arXiv cs.RO

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper

1 source