Aller au contenu principal
SoK : Sécurité et vie privée des robots à base de modèles fondation
RecherchearXiv cs.RO4h

SoK : Sécurité et vie privée des robots à base de modèles fondation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2606.16788) un article de type "Systematization of Knowledge" (SoK) qui dresse un panorama structuré des risques de sécurité et de confidentialité introduits par les modèles de fondation dans les systèmes robotiques. Le travail systématise 96 études antérieures et propose un cadre d'analyse à quatre couches baptisé F-E-S-G : la couche Modèle de fondation (F), la couche Système incarné (Embodied system, E), la couche Écosystème de support (S), et la couche Impact de gouvernance (G). À chaque couche correspond une taxonomie fine qui encode, pour chaque étude analysée, la cible visée, le stade du cycle de vie, le mécanisme d'attaque ou de défense, le niveau d'accès système requis, et les effets observés.

L'intérêt de ce travail réside moins dans les vulnérabilités individuelles qu'il recense que dans les "defense mismatches" qu'il met en évidence : les mécanismes de robustesse conçus pour les modèles de langage ou de vision en contexte purement numérique ne s'appliquent pas directement à des pipelines d'exécution incarnés. Quand un robot piloté par un modèle VLA (Vision-Language-Action) interprète une instruction en langage naturel pour saisir un objet, une attaque adversariale ou une injection de prompt ne produit plus une réponse textuelle erronée mais un mouvement physique potentiellement dangereux. Pour un intégrateur industriel ou un COO déployant des flottes humanoïdes, cette propagation du risque à travers les quatre couches constitue un angle mort opérationnel que les grilles d'évaluation actuelles ne capturent pas.

Le genre "SoK" est une convention bien établie dans la communauté sécurité, notamment via la conférence IEEE S&P, et signale une tentative de structurer un champ de recherche fragmenté. Cette publication arrive à un moment de transition dans la robotique commerciale : après des années de démos contrôlées, plusieurs acteurs (Figure, Apptronik, Unitree côté américain, Wandercraft et Enchanted Tools côté européen) engagent des déploiements en environnement réel avec des VLAs comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'absence de cadre normatif unifié, que ni l'EU AI Act ni les standards ISO robotiques actuels ne couvrent explicitement, donne à cette méta-analyse une pertinence directe pour les équipes réglementaires et les organismes de certification appelés à évaluer ces systèmes hybrides IA-robotique.

Impact France/UE

L'EU AI Act et les normes ISO robotiques actuelles ne couvrent pas explicitement les systèmes hybrides IA-robotique : ce SoK fournit aux équipes réglementaires européennes et aux acteurs français (Wandercraft, Enchanted Tools) déployant des VLAs un cadre d'analyse des risques directement utilisable pour anticiper les futures exigences de certification.

À lire aussi

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées
1arXiv cs.RO 

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper
1 source
RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation
2arXiv cs.RO 

RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation

Des chercheurs ont publié le 26 mai 2026 sur arXiv (2605.25495) RepSAM, un cadre d'adaptation à l'efficacité paramétrique (PEFT) conçu pour transférer les capacités de SAM (Segment Anything Model) vers la perception robotique en environnements non structurés. Le diagnostic de départ est précis : les couches superficielles du transformeur subissent un écart de représentation important entre données génériques et données robotiques (CKA inférieur à 0,7), tandis que les couches profondes restent stables (CKA supérieur à 0,7). RepSAM exploite cette asymétrie via une allocation de rang guidée par la CKA (Centered Kernel Alignment) pour concentrer les paramètres entraînables là où le décalage est effectivement significatif. Le résultat : 89,0 % de mIoU contre 90,9 % pour le fine-tuning complet, soit 97,9 % des performances, avec seulement 4,0 millions de paramètres entraînables sur 632 millions totaux, une réduction de 158 fois. L'entraînement tient en 4 heures sur un seul GPU A100, contre 384 heures-GPU pour le fine-tuning intégral, et surpasse DoRA de 7,9 points de mIoU sur six benchmarks. En manipulation robotique, le gain atteint 12 points absolus de taux de succès par rapport à la baseline LoRA RGB, avec une significativité statistique p inférieur à 0,01. L'enjeu industriel est direct : le gouffre entre les modèles de vision généralistes et les conditions réelles de la robotique (objets transparents, scènes encombrées, éclairage variable) reste l'un des principaux blocages pour les intégrateurs. RepSAM démontre qu'un adapter bien ciblé, informé par la structure interne du réseau plutôt qu'appliqué uniformément, peut quasiment égaler un fine-tuning complet à une fraction du coût de calcul. Pour un responsable technique déployant des bras manipulateurs ou des systèmes de picking, cela signifie qu'il devient réaliste d'adapter un modèle de fondation sur du matériel standard, sans infrastructure de calcul dédiée ni données massives. SAM, développé par Meta AI et publié en 2023, s'est imposé comme référence pour la segmentation zero-shot, mais ses performances se dégradent hors distribution, notamment en robotique industrielle. Les méthodes PEFT comme LoRA et DoRA avaient déjà tenté ce pont, avec des gains limités faute d'adaptation différenciée par couche. RepSAM s'inscrit dans la continuité de travaux sur l'analyse de représentation pour guider le fine-tuning (CKA comme outil de diagnostic, popularisé depuis 2019). La prochaine étape logique est la validation sur des robots réels en conditions industrielles ; l'article se limite pour l'instant à des benchmarks simulés et des tâches de manipulation contrôlées, ce qui laisse ouvert le sim-to-real gap à grande échelle.

UELes intégrateurs européens de bras manipulateurs et systèmes de picking pourraient adapter des modèles de vision fondation sur du matériel GPU standard, réduisant la barrière à l'IA perceptive sans infrastructure de calcul dédiée.

RechercheOpinion
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
3arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
Sécurité dynamique corps entier pour bras robotiques : fonctions de sécurité de Poisson 3D pour filtres de sécurité à base de CBF
4arXiv cs.RO 

Sécurité dynamique corps entier pour bras robotiques : fonctions de sécurité de Poisson 3D pour filtres de sécurité à base de CBF

Des chercheurs ont déposé sur arXiv (réf. 2604.21189) un cadre pour la sécurité plein-corps des bras manipulateurs robotiques en environnements dynamiques, combinant des fonctions de sécurité de Poisson en 3D (PSF) et des filtres basés sur des Control Barrier Functions (CBF). La méthode discrétise la surface du robot à une résolution paramétrable, puis contracte l'espace libre via une différence de Pontryagin proportionnelle à cette résolution. Sur ce domaine tamponné, une unique CBF globalement lisse est synthétisée en résolvant l'équation de Poisson sur l'ensemble de l'environnement. Les contraintes résultantes, évaluées à chaque point d'échantillonnage, sont appliquées en temps réel par un programme quadratique multi-contraintes. La validation est réalisée sur un manipulateur à 7 degrés de liberté (DOF) en environnement dynamique, seule donnée expérimentale concrète de ce preprint, sans benchmark de temps de cycle publié. L'apport est simultanément théorique et computationnel. Le travail prouve formellement que maintenir les points échantillonnés sûrs dans la région tamponnée suffit à garantir l'absence de collision pour la surface continue du robot, éliminant le gap entre discrétisation et géométrie réelle. Pour les intégrateurs travaillant sur la manipulation collaborative, c'est un levier direct : les approches CBF classiques requièrent une contrainte par paire de points proches, ce qui fait exploser le coût de calcul en haute dimension de configuration. En ramenant le problème à une seule fonction lisse sur tout l'environnement, le filtre devient davantage compatible avec les contraintes temps réel des contrôleurs embarqués. L'absence de métriques de latence dans la publication limite toutefois l'évaluation de la faisabilité industrielle. Les CBFs pour la sécurité robotique constituent un axe de recherche actif depuis 2019, porté notamment par les groupes d'Aaron Ames (Caltech) et des équipes au Georgia Tech. En Europe, le LAAS-CNRS à Toulouse et l'INRIA Sophia Antipolis ont contribué à des formulations similaires pour la planification sous contraintes de sécurité formelle. Du côté des intégrateurs industriels, Universal Robots, FANUC et Franka Robotics (intégré depuis dans l'écosystème Agile Robots) investissent dans des garanties de sécurité certifiables pour la co-manipulation. L'extension naturelle de ces travaux porte sur les environnements partiellement observés, données capteur bruitées ou occlusions partielles, ainsi que sur l'intégration dans une boucle de planification complète pour la manipulation dextre à grande vitesse.

UELe LAAS-CNRS (Toulouse) et l'INRIA Sophia Antipolis contribuent activement à des formulations similaires pour la planification sous contraintes de sécurité formelle, positionnant la recherche européenne comme acteur de premier plan dans ce domaine.

RecherchePaper
1 source