
Pas ce que vous avez demandé : attaques typographiques dans la manipulation par robots ménagers
Des chercheurs ont mis en ligne sur arXiv (référence 2605.18593) une étude démontrant que de simples autocollants portant du texte imprimé suffisent à détourner les robots ménagers qui utilisent CLIP comme moteur de perception. Dans un environnement de simulation Habitat configuré avec le benchmark HomeRobot, l'attaque a atteint un taux de succès (ASR) de 67,8% sur un pool de 59 épisodes contrôlés, montant à 70,0% parmi les épisodes où le robot accomplissait normalement sa tâche sans perturbation. L'architecture évaluée repose sur une configuration découplée qui expose un encodeur CLIP gelé aux autocollants adversariaux, tout en maintenant un ancrage géométrique via DETIC. Sans optimisation perceptuelle préalable, sans contrôle des angles de vue ni de l'occlusion, le robot saisit physiquement le mauvais objet et le dépose dans la zone cible désignée.
L'apport majeur de ce travail réside dans la démonstration que l'erreur de perception se propage à travers la carte sémantique 3D persistante du robot jusqu'à produire ce que les auteurs appellent des "défaillances cinétiques" - des actions physiques erronées entièrement pilotées par un état sémantique empoisonné. C'est la première évaluation du cycle Sense-Plan-Act complet d'un manipulateur ménager face à des attaques typographiques, là où les travaux antérieurs se limitaient à des benchmarks 2D statiques ou à des tâches de navigation. Pour un intégrateur ou un COO envisageant des déploiements de robots de service, ce résultat révèle un vecteur d'attaque dont le coût d'exécution est quasi nul : une étiquette imprimée. Cela remet en question la robustesse sécuritaire des pipelines VLA (Vision-Language-Action) modulaires qui délèguent la perception à des modèles open-vocabulary non durcis.
Les attaques typographiques sur CLIP sont documentées depuis 2021, mais ce travail représente le premier transfert vers la manipulation physique, la tâche commercialement la plus pertinente pour les robots de service. CLIP reste omniprésent dans les stacks d'agents incarnés open-vocabulary, de HomeRobot à des architectures de type SayPlan ou PerAct. Des alternatives comme SigLIP ou Florence pourraient offrir une résistance différente, mais aucun benchmark comparatif n'est fourni dans cette étude. Il n'y a pas de déploiement réel ni de partenaire industriel annoncé : il s'agit d'un preprint publié en mai 2025, en simulation uniquement. La suite logique passe par la validation sur hardware réel et l'évaluation de défenses, notamment la redondance perceptuelle, le filtrage sémantique ou la détection d'anomalies textuelles dans le champ de vision.
Les intégrateurs européens déployant des robots de service basés sur CLIP doivent intégrer ce vecteur d'attaque à coût quasi nul dans leurs audits de sécurité avant tout déploiement commercial.
Dans nos dossiers




