RecherchearXiv cs.RO 16 juin 2026

SoK : Sécurité et vie privée des robots à base de modèles fondation

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2606.16788) un article de type "Systematization of Knowledge" (SoK) qui dresse un panorama structuré des risques de sécurité et de confidentialité introduits par les modèles de fondation dans les systèmes robotiques. Le travail systématise 96 études antérieures et propose un cadre d'analyse à quatre couches baptisé F-E-S-G : la couche Modèle de fondation (F), la couche Système incarné (Embodied system, E), la couche Écosystème de support (S), et la couche Impact de gouvernance (G). À chaque couche correspond une taxonomie fine qui encode, pour chaque étude analysée, la cible visée, le stade du cycle de vie, le mécanisme d'attaque ou de défense, le niveau d'accès système requis, et les effets observés.

L'intérêt de ce travail réside moins dans les vulnérabilités individuelles qu'il recense que dans les "defense mismatches" qu'il met en évidence : les mécanismes de robustesse conçus pour les modèles de langage ou de vision en contexte purement numérique ne s'appliquent pas directement à des pipelines d'exécution incarnés. Quand un robot piloté par un modèle VLA (Vision-Language-Action) interprète une instruction en langage naturel pour saisir un objet, une attaque adversariale ou une injection de prompt ne produit plus une réponse textuelle erronée mais un mouvement physique potentiellement dangereux. Pour un intégrateur industriel ou un COO déployant des flottes humanoïdes, cette propagation du risque à travers les quatre couches constitue un angle mort opérationnel que les grilles d'évaluation actuelles ne capturent pas.

Le genre "SoK" est une convention bien établie dans la communauté sécurité, notamment via la conférence IEEE S&P, et signale une tentative de structurer un champ de recherche fragmenté. Cette publication arrive à un moment de transition dans la robotique commerciale : après des années de démos contrôlées, plusieurs acteurs (Figure, Apptronik, Unitree côté américain, Wandercraft et Enchanted Tools côté européen) engagent des déploiements en environnement réel avec des VLAs comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'absence de cadre normatif unifié, que ni l'EU AI Act ni les standards ISO robotiques actuels ne couvrent explicitement, donne à cette méta-analyse une pertinence directe pour les équipes réglementaires et les organismes de certification appelés à évaluer ces systèmes hybrides IA-robotique.

Impact France/UE

L'EU AI Act et les normes ISO robotiques actuelles ne couvrent pas explicitement les systèmes hybrides IA-robotique : ce SoK fournit aux équipes réglementaires européennes et aux acteurs français (Wandercraft, Enchanted Tools) déployant des VLAs un cadre d'analyse des risques directement utilisable pour anticiper les futures exigences de certification.

Dans nos dossiers

Unitree Apptronik Apollo Wandercraft Enchanted Tools — Mirokaï

À lire aussi

1arXiv cs.RO

Modèles fondation vérifiables pour la sécurité des robots

Une équipe de chercheurs présente FEARL (Foundation-Enabled Assured Robot Learning), un cadre publié en juin 2026 sur arXiv (2606.23754), conçu pour rendre les modèles de fondation utilisés en robotique formellement vérifiables. L'architecture repose sur une décomposition en deux modules : un grand Contrôleur (C) qui gère la perception haute dimension et le raisonnement sur les tâches, et un petit module de Sécurité (S) alimenté par des capteurs dédiés basse dimension et un embedding contextuel borné fourni par C, qui produit l'action finale. La vérification formelle s'applique uniquement à S, un composant compact dont les contraintes de sécurité, évitement de collision, limites d'espace de travail, peuvent s'exprimer sur des observations de faible dimension. Le cadre a été évalué sur trois domaines robotiques simulés, en intégrant des VLA (Vision-Language-Action) pré-entraînés disponibles sur étagère, et le transfert vers un robot physique a été validé. Ce découplage répond à un blocage concret pour les intégrateurs et équipes de certification industrielle. Des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont performants mais formellement opaques, ce qui les rend incompatibles avec les outils de vérification existants et freine leur déploiement dans des environnements à risque. FEARL propose un compromis : le Contrôleur conserve sa pleine expressivité pour le raisonnement, tandis que S reste vérifiable. Le transfert sim-to-real réussi indique que l'interface basse dimension ne dégrade pas les performances réelles, ce qui nuance l'hypothèse selon laquelle la richesse sensorielle serait indispensable à un contrôle fiable. Les approches antérieures pour sécuriser les politiques robotiques reposaient sur le reinforcement learning contraint ou des moniteurs d'exécution superposés, sans garanties formelles sur l'ensemble du pipeline. FEARL s'inscrit dans le champ de l'assured autonomy et constitue l'une des premières architectures à intégrer des VLA pré-entraînés dans une boucle vérifiable. Des acteurs comme Enchanted Tools (France) ou Wandercraft, qui développent des systèmes embarqués à contraintes de sécurité fortes, pourraient directement bénéficier de ce type d'approche. Les prochaines étapes naturelles seraient une validation sur des benchmarks de safety formels (IEC 61508, DO-178C) et des tests sur des manipulateurs industriels en environnement non structuré.

UEEnchanted Tools et Wandercraft, acteurs français développant des robots à fortes contraintes de sécurité embarquée, sont explicitement identifiés comme bénéficiaires directs de cette architecture de vérification formelle des VLA.

RecherchePaper

1 source

2arXiv cs.RO

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper

1 source

3arXiv cs.RO

Modèle fondation à l'échelle pour robots humanoïdes

Une nouvelle publication arXiv (2607.15163v1, soumission de type "new") propose un modèle de fondation comportemental (Behavior Foundation Model, BFM) pour le contrôle de robots humanoïdes, baptisé Humanoid Transformer. Les auteurs affirment avoir identifié la recette manquante pour faire monter en puissance ces modèles, en coordonnant trois leviers : un nouveau paradigme d'apprentissage qui reformule le contrôle humanoïde comme la reproduction de comportements corporels intégrés dans le référentiel global plutôt que local ; un équilibrage stratégique entre le volume de déploiements en ligne (on-policy rollouts) et la diversité des mouvements de référence utilisés à l'entraînement ; et l'architecture Humanoid Transformer elle-même, conçue pour faire émerger naturellement des représentations structurées du comportement. Testée à la fois en simulation et en conditions réelles, l'approche réduit l'erreur moyenne par point clé (Mean Per-Keypoint Position Error, MPKPE) de plus de 10% en mode local et de 82% en mode global par rapport aux contrôleurs humanoïdes existants. Ce travail répond à un flou méthodologique réel du secteur : malgré l'engouement croissant pour les BFM comme brique de base des agents incarnés généralistes, personne n'avait jusqu'ici établi de façon rigoureuse comment coordonner données, architecture et paradigme d'entraînement pour obtenir un gain de performance qui tienne la route au passage à l'échelle. Le saut de 82% en mode global est le chiffre qui compte vraiment pour les intégrateurs : c'est la capacité à maintenir une cohérence corporelle dans le référentiel monde, condition nécessaire pour des tâches où le robot doit coordonner déplacement et manipulation sans dérive, un point faible classique des contrôleurs entraînés uniquement en référentiel local. Si les résultats se confirment à plus grande échelle, ils renforcent l'hypothèse que le contrôle humanoïde généraliste peut suivre une trajectoire de scaling comparable à celle des grands modèles de langage, plutôt que de rester cantonné à des politiques spécialisées par tâche. L'article s'inscrit dans la vague de recherche académique qui a suivi l'essor des politiques vision-langage-action (VLA) et des BFM ces deux dernières années, sans rattacher la méthode à un robot ou un laboratoire commercial précis : il s'agit d'une contribution méthodologique comparée à des "contrôleurs humanoïdes existants" pris comme référence, sans nommer de plateforme physique spécifique. La suite logique serait une validation sur du matériel humanoïde tiers et à plus grande échelle de données, pour confirmer que le gain en mode global se maintient hors du cadre expérimental des auteurs.

RechercheActu

1 source

4arXiv cs.RO

Évaluation de l'incertitude et de la qualité des robots à base de VLA

Des chercheurs publient une étude d'évaluation portant sur les robots pilotés par des modèles Vision-Language-Action (VLA), qui combinent perception visuelle, compréhension du langage naturel et planification d'actions pour exécuter des tâches de façon autonome. Le papier (arXiv:2507.17049) adapte huit métriques d'incertitude et cinq métriques de qualité spécifiquement conçues pour les tâches de manipulation robotique par VLA. L'étude s'appuie sur 908 exécutions de tâches réussies, issues de trois modèles VLA de pointe testés sur quatre tâches de manipulation représentatives et deux morphologies de robots différentes. Des experts du domaine ont annoté manuellement la qualité de chaque exécution, servant ainsi d'oracle humain de référence pour mesurer la corrélation avec les métriques automatiques proposées. L'enjeu dépasse l'exercice académique. Aujourd'hui, la quasi-totalité des benchmarks robotiques VLA se limitent au taux de succès binaire, une tâche est réussie ou échouée, sans mesurer la qualité de l'exécution ni le niveau de confiance du modèle dans ses propres décisions. Pour les intégrateurs et les équipes qui déploient ces modèles en conditions réelles, cette limite est concrète : un robot peut valider une tâche tout en l'exécutant de manière hésitante, dangereuse ou peu répétable, sans que cela apparaisse dans les statistiques de succès. Les auteurs montrent que plusieurs de leurs métriques présentent une corrélation modérée à forte avec le jugement humain, et que certaines permettent même de distinguer des exécutions de bonne, moyenne ou mauvaise qualité parmi les tâches échouées, un cas où l'oracle de succès classique ne fournit aucune information exploitable. Ce travail s'inscrit dans la montée en puissance rapide des architectures VLA ces deux dernières années comme brique centrale des robots humanoïdes et bras manipulateurs, où l'écart entre démonstration et fiabilité réelle reste une question ouverte pour le secteur. En proposant des métriques exploitables sans oracle de succès préexistant, les auteurs ouvrent la voie à du monitoring temps réel et à des mécanismes d'amélioration adaptative pour des robots déployés en production, plutôt qu'à une simple évaluation a posteriori en laboratoire.

RecherchePaper

1 source