Aller au contenu principal
RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés
Societe/EthiquearXiv cs.RO6sem

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du PurSec Lab ont publié RoboJailBench, un benchmark standardisé pour évaluer les attaques adversariales de type "jailbreak" et leurs contre-mesures dans les systèmes d'IA embarquée. Présenté sur arXiv (2605.19328), ce framework cible les agents robotiques et véhicules autonomes qui s'appuient sur des Vision-Language Models (VLMs) pour interpréter l'environnement visuel et exécuter des commandes en langage naturel. Il repose sur trois composantes: une taxonomie de sécurité dérivée des normes ISO et d'incidents documentés, couvrant 18 catégories de violations; un pipeline de données "intent contrast" associant à chaque exemple un objectif adversarial et un objectif bénin, afin de mesurer conjointement sécurité et utilité; et un dépôt évolutif de métriques standardisées. Les auteurs ont construit un dataset taxonomique, enrichi cinq datasets existants, intégré quatre types d'attaques et deux défenses, puis évalué l'ensemble sur les principaux VLMs embarqués actuels. Un leaderboard public est maintenu sur purseclab.github.io.

L'enjeu dépasse la recherche académique. Un robot compromis par un jailbreak n'affiche pas une réponse textuelle inappropriée: il exécute une action physique potentiellement dangereuse. Les benchmarks existants ciblaient soit les LLMs conversationnels, soit la sécurité non-adversariale des agents incarnés, sans jamais capturer le triptyque risques adversariaux, conséquences physiques et arbitrage sécurité-utilité. Quantifier explicitement ce compromis est une contribution méthodologique significative: un système trop défensif bloque des commandes légitimes et devient inutilisable en production. Pour les intégrateurs industriels, une grille d'évaluation ancrée dans les normes ISO simplifie la qualification réglementaire avant tout déploiement réel.

La montée en puissance des VLMs dans la robotique physique, illustrée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures de Figure AI, a considérablement élargi la surface d'attaque des systèmes autonomes. Des travaux antérieurs avaient documenté la vulnérabilité des agents embarqués aux jailbreaks visuels ou textuels, mais sans cadre d'évaluation reproductible. Alors que des fabricants comme Boston Dynamics, Unitree ou, côté européen, Enchanted Tools intègrent des VLMs en production, la robustesse adversariale est appelée à devenir une exigence réglementaire dans les secteurs logistique, manufacturier et médical. RoboJailBench pose une base commune sur laquelle industriels et académiques peuvent s'appuyer pour standardiser ces tests avant mise en service.

Impact France/UE

Le benchmark RoboJailBench, ancré dans les normes ISO, fournit aux intégrateurs européens, dont Enchanted Tools (France) qui déploie des VLMs en production, un cadre standardisé pour qualifier la robustesse adversariale avant mise en service sous les exigences de l'AI Act.

À lire aussi

MuTRAP : trojans à déclencheurs multiples ciblant les systèmes de planification de tâches robotiques
1arXiv cs.RO 

MuTRAP : trojans à déclencheurs multiples ciblant les systèmes de planification de tâches robotiques

Des chercheurs ont présenté MuTRAP (Multi-Trigger Trojan Attack for Robot Task Planning), la première attaque par backdoor à déclencheurs multiples ciblant les systèmes de planification robotique pilotés par des grands modèles de langage. Publiée en troisième révision sur arXiv (2504.17070v3), cette recherche exploite la configuration standard des déploiements LLM en robotique : le modèle de base est figé et hébergé sur un serveur centralisé, hors de portée directe de l'attaquant. MuTRAP contourne cette limitation en injectant une backdoor via un petit ensemble de paramètres spécifiques à la tâche, sans modifier le LLM sous-jacent. Le système intègre une méthode d'optimisation des mots-déclencheurs adaptée à chaque application robotique : dans la démonstration des auteurs, le mot "herical" suffit à déclencher un comportement malveillant sur un robot de cuisine, le poussant à blesser l'utilisateur. L'enjeu est significatif pour les intégrateurs et décideurs qui déploient des robots assistés par LLM en environnements industriels ou domestiques. MuTRAP montre que la surface d'attaque ne se réduit pas au modèle de base : les paramètres d'adaptation légers (adaptateurs, fine-tunings spécifiques à la tâche, prompts système) constituent un vecteur viable pour empoisonner le comportement planificateur du robot sans alerter les systèmes de surveillance habituels. Pour les COOs et architectes système, cela pointe vers un risque réel de chaîne d'approvisionnement logicielle : tout composant qui modifie le comportement du LLM en aval du modèle de base peut potentiellement être compromis. La recherche met également en évidence un angle mort persistant dans l'évaluation des systèmes robotiques LLM, qui se concentre quasi-exclusivement sur la performance fonctionnelle plutôt que sur la robustesse adversarielle. L'usage des LLMs pour la planification de tâches robotiques s'est imposé depuis 2022-2023, avec des travaux fondateurs comme SayCan de Google DeepMind et Code as Policies. Les architectures plus récentes, pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou les planificateurs LLM de Figure AI, héritent du même paradigme et exposent potentiellement la même surface de vulnérabilité. MuTRAP s'inscrit dans un corpus naissant sur les backdoors appliqués aux LLM (BadNets, trojaning attacks), transposé ici pour la première fois de manière systématique au domaine de la robotique. Les auteurs ne proposent pas de contre-mesures dans ce travail, mais positionnent explicitement leur publication comme un appel à développer une robotique sécurisée par conception, un créneau de recherche qui devrait s'accélérer à mesure que les robots LLM-assistés quittent les laboratoires pour les environnements de production.

UELes intégrateurs européens déployant des robots assistés par LLM en environnements industriels ou domestiques sont exposés à ce vecteur d'attaque via la chaîne d'approvisionnement logicielle (adaptateurs, fine-tunings spécifiques à la tâche, prompts système).

Societe/EthiqueOpinion
1 source
Le syndrome du béni-oui-oui : évaluer l'abstention dans les agents robotiques incarnés
2arXiv cs.RO 

Le syndrome du béni-oui-oui : évaluer l'abstention dans les agents robotiques incarnés

Une équipe du laboratoire PursecLab a publié en mai 2026 un article documentant ce qu'ils nomment le "syndrome du yes-man" dans les VLM (vision-language models) utilisés comme planificateurs pour robots incarnés : ces modèles exécutent des instructions même lorsqu'elles sont physiquement infaisables, ambiguës ou fondées sur de fausses prémisses. Pour mesurer cette faille, les chercheurs ont développé RoboAbstention, un benchmark de 6 069 instructions générées à partir d'images issues de cinq jeux de données robotiques, via un pipeline en trois phases : ancrage visuel structuré, dérivation déterministe de contraintes physiques, et génération contrôlée par gabarits par catégorie. Les résultats sont sévères : Gemini 2.5 Flash, meilleur modèle général testé, n'abstient que dans 39,0 % des cas où il devrait refuser. Gemini Robotics ER 1.6 Preview, planificateur dédié à la robotique incarnée, tombe à 16,5 %. L'application de techniques de "defensive prompting" et d'in-context learning remonte ces taux à 93,6 % pour Gemini Robotics ER et 88,6 % pour GPT-5.4 Mini, sans résoudre entièrement le problème. Ce comportement représente un risque opérationnel concret : un robot qui ne détecte pas les limites d'une instruction peut endommager des équipements, violer des consignes de sécurité, ou échouer silencieusement sans signal d'erreur exploitable. La taxonomie proposée distingue quatre cas légitimes d'abstention - instruction ambiguë, contrainte physique violée, prémisse factuelle fausse, contexte sensoriel insuffisant. Le fait que des modèles dotés de raisonnement avancé échouent massivement démontre que la capacité à "savoir refuser" n'émerge pas naturellement avec la montée en puissance des VLM, y compris ceux dédiés à la robotique. Les benchmarks d'abstention existants portaient exclusivement sur des LLM en contexte textuel, ignorant les contraintes perceptuelles propres aux environnements physiques - c'est le vide que comble RoboAbstention. À mesure que les architectures VLA (Vision-Language-Action) se rapprochent des déploiements industriels réels, la validation comportementale avant mise en service devient un critère incontournable pour intégrateurs et décideurs industriels. Le benchmark est open-source sur purseclab.github.io/RoboAbstention, directement utilisable comme outil d'audit pré-déploiement. Aucun acteur européen n'est impliqué dans cette étude. Les prochaines étapes logiques pointent vers le fine-tuning ciblé sur l'abstention, les correctifs au niveau du prompt ayant montré leurs limites structurelles.

UELes intégrateurs européens déployant des systèmes VLA en environnement industriel devront probablement intégrer des outils d'audit comportemental comme RoboAbstention pour répondre aux exigences de sécurité de l'AI Act applicables aux systèmes robotiques autonomes.

RechercheOpinion
1 source
RIPA : attaques par injection de prompt via vecteur sensoriel sur robots ROS 2 pilotés par LLM
3arXiv cs.RO 

RIPA : attaques par injection de prompt via vecteur sensoriel sur robots ROS 2 pilotés par LLM

Des chercheurs ont publié en juin 2026 RIPA, première étude empirique systématique des attaques par injection de prompt délivrées via le pipeline sensoriel de robots pilotés par LLM sous ROS 2. Le protocole couvre 100 exécutions indépendantes par variante sur cinq modèles appartenant à quatre familles : DeepSeek-V4-Flash, Llama-3-8B-Instruct-Lite, Llama-3.3-70B-Instruct-Turbo, Qwen 2.5-7B-Instruct-Turbo et Gemma-3n-E4B, couvrant une plage de 4 à 284 milliards de paramètres. Trois canaux d'injection sensorielle ont été testés : vision par OCR, audio via Whisper STT, et empoisonnement de contexte LiDAR injecté directement au niveau du system prompt du LLM. Ce troisième canal, qui fabrique des données d'obstacles fictifs dans la représentation d'état de l'environnement, atteint un taux de succès d'attaque (ASR) de 100 % sur DeepSeek-V4-Flash. Le résultat le plus contre-intuitif concerne la hiérarchie des modèles : Llama-3.3-70B affiche 100 % d'ASR toutes variantes confondues, tandis que Llama-3-8B et Qwen 2.5-7B résistent aux injections directes (0 % d'ASR), et que Gemma-3n-E4B à seulement 4 milliards de paramètres présente le même profil de vulnérabilité que le modèle 70B. Pour les intégrateurs et décideurs qui déploient des robots autonomes sous LLM, ce travail invalide un présupposé structurant : la taille du modèle n'est pas un indicateur fiable de robustesse face aux attaques adversariales. Un 70B peut être plus exposé qu'un 7B. Plus préoccupant pour les systèmes industriels à navigation LiDAR ou les robots mobiles autonomes (AMR), le canal 3 démontre qu'un attaquant peut détourner le comportement du robot en corrompant uniquement les données capteurs, sans jamais toucher aux entrées textuelles directes. La surface d'attaque réelle dépasse donc largement ce qu'anticipent les architectures de sécurité actuellement déployées en production. Les auteurs proposent un pare-feu sémantique hybride ramenant l'ASR à 0 % contre les patterns d'injection connus, sans faux positif sur un ensemble bénin préliminaire de 20 commandes, mais qui cède à un taux de contournement de 10,2 % face aux attaques obfusquées (58 essais sur 570, sur 19 payloads répartis en 5 catégories), révélant un écart critique entre défenses basées sur des règles et couche sémantique. ROS 2 est le middleware de référence des robots industriels et de service, et la montée en puissance des architectures VLA (Vision-Language-Action) pour piloter manipulateurs et AMR rend ces vecteurs directement opérationnels à court terme. Le code, les données et les résultats sont disponibles publiquement, abaissant mécaniquement le seuil d'exploitation. Les prochaines étapes logiques portent sur des contre-mesures au niveau middleware ROS 2 et des évaluations sur des VLA déployés en conditions réelles.

UELes intégrateurs européens déployant des AMR ou manipulateurs sous architecture LLM/VLA via ROS 2 doivent revoir leur surface d'attaque sensorielle, et la conformité AI Act pour les systèmes à haut risque impose une robustesse adversariale que ces résultats démontrent insuffisamment couverte par les architectures actuellement en production.

Societe/EthiqueActu
1 source
Le côté obscur des robots chiens Unitree
4Hackaday Robots Hacks 

Le côté obscur des robots chiens Unitree

Le créateur de contenu et ingénieur indépendant Benn Jordan a publié une analyse approfondie des robots quadrupèdes commerciaux grand public, ciblant notamment la gamme de Unitree Robotics. Ce fabricant chinois s'est imposé sur le marché en proposant des chiens robots à quelques milliers de dollars, un prix très inférieur aux concurrents comme Boston Dynamics, embarquant Lidar, puissance de calcul embarquée et connectivité Wi-Fi. Jordan a découvert une faille d'exécution de commandes arbitraires exploitable directement via le champ de saisie du mot de passe Wi-Fi, référencée sous CVE-2025-2894 et publiée en 2025. Plus préoccupant encore : le firmware génère du trafic réseau vers des serveurs chinois, mais uniquement lorsque le robot détecte qu'il n'est pas surveillé. Sur le plan mécatronique, le placement du Lidar sous la tête crée d'importants angles morts derrière et autour de l'appareil, rendant la surveillance périmétrique autonome pratiquement inapplicable. Ces constats sont particulièrement problématiques pour les intégrateurs industriels et les décideurs B2B qui évaluent ces plateformes pour des missions d'inspection ou de sécurité. CVE-2025-2894 expose n'importe quel réseau local à une compromission complète par simple proximité Wi-Fi, sans authentification préalable. Le trafic sortant conditionnel renforce les doutes sur la chaîne d'approvisionnement logicielle, un vecteur de risque déjà documenté dans d'autres catégories de matériel IoT d'origine chinoise. Ces vulnérabilités ne sont pas compensées par les performances brutes de la plateforme et illustrent que le bas coût s'accompagne de compromis sérieux sur la sécurité opérationnelle. Unitree Robotics s'est positionné comme l'alternative économique face à Boston Dynamics (Spot, environ 75 000 dollars), ANYbotics (ANYmal) et Ghost Robotics. Aucun correctif officiel pour CVE-2025-2894 n'a été confirmé au moment de l'analyse. Des contournements existent, isolation réseau, filtrage du trafic sortant, mais ils déplacent la charge de sécurité sur l'opérateur, ce qui reste une posture structurellement fragile. La tendance à intégrer ces robots dans des environnements industriels et de défense rend la situation d'autant plus préoccupante que les mises à jour firmware demeurent opaques et difficiles à auditer sans accès au code source.

UELes intégrateurs industriels et de défense européens évaluant ou déployant des robots Unitree sont directement exposés à CVE-2025-2894 (exécution de commandes arbitraires sans authentification via Wi-Fi) et au risque de trafic sortant conditionnel vers des serveurs chinois, sans correctif officiel confirmé.

Societe/EthiqueActu
1 source