
MuTRAP : trojans à déclencheurs multiples ciblant les systèmes de planification de tâches robotiques
Des chercheurs ont présenté MuTRAP (Multi-Trigger Trojan Attack for Robot Task Planning), la première attaque par backdoor à déclencheurs multiples ciblant les systèmes de planification robotique pilotés par des grands modèles de langage. Publiée en troisième révision sur arXiv (2504.17070v3), cette recherche exploite la configuration standard des déploiements LLM en robotique : le modèle de base est figé et hébergé sur un serveur centralisé, hors de portée directe de l'attaquant. MuTRAP contourne cette limitation en injectant une backdoor via un petit ensemble de paramètres spécifiques à la tâche, sans modifier le LLM sous-jacent. Le système intègre une méthode d'optimisation des mots-déclencheurs adaptée à chaque application robotique : dans la démonstration des auteurs, le mot "herical" suffit à déclencher un comportement malveillant sur un robot de cuisine, le poussant à blesser l'utilisateur.
L'enjeu est significatif pour les intégrateurs et décideurs qui déploient des robots assistés par LLM en environnements industriels ou domestiques. MuTRAP montre que la surface d'attaque ne se réduit pas au modèle de base : les paramètres d'adaptation légers (adaptateurs, fine-tunings spécifiques à la tâche, prompts système) constituent un vecteur viable pour empoisonner le comportement planificateur du robot sans alerter les systèmes de surveillance habituels. Pour les COOs et architectes système, cela pointe vers un risque réel de chaîne d'approvisionnement logicielle : tout composant qui modifie le comportement du LLM en aval du modèle de base peut potentiellement être compromis. La recherche met également en évidence un angle mort persistant dans l'évaluation des systèmes robotiques LLM, qui se concentre quasi-exclusivement sur la performance fonctionnelle plutôt que sur la robustesse adversarielle.
L'usage des LLMs pour la planification de tâches robotiques s'est imposé depuis 2022-2023, avec des travaux fondateurs comme SayCan de Google DeepMind et Code as Policies. Les architectures plus récentes, pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou les planificateurs LLM de Figure AI, héritent du même paradigme et exposent potentiellement la même surface de vulnérabilité. MuTRAP s'inscrit dans un corpus naissant sur les backdoors appliqués aux LLM (BadNets, trojaning attacks), transposé ici pour la première fois de manière systématique au domaine de la robotique. Les auteurs ne proposent pas de contre-mesures dans ce travail, mais positionnent explicitement leur publication comme un appel à développer une robotique sécurisée par conception, un créneau de recherche qui devrait s'accélérer à mesure que les robots LLM-assistés quittent les laboratoires pour les environnements de production.
Les intégrateurs européens déployant des robots assistés par LLM en environnements industriels ou domestiques sont exposés à ce vecteur d'attaque via la chaîne d'approvisionnement logicielle (adaptateurs, fine-tunings spécifiques à la tâche, prompts système).
Dans nos dossiers




