RecherchearXiv cs.RO 2 juin 2026

Sécurité permissive par inférence vérifiable : filtres neuronaux en espace de croyance pour la robotique interactive

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont déposé sur arXiv (arXiv:2606.02562v1) une méthode algorithmique visant à certifier formellement la sécurité des robots autonomes en interaction avec des humains. Le coeur du travail porte sur le "belief-space safety filter" (BeliefSF), un filtre de sécurité modulaire qui, contrairement aux approches classiques cantonnées à l'espace physique, raisonne simultanément sur la position du robot et sur ses croyances en temps réel concernant l'humain : ses préférences, ses objectifs, sa compétence et sa disposition à coopérer. Pour certifier cette architecture, les auteurs appliquent la prédiction conforme (conformal prediction), une technique statistique qui produit des garanties de sécurité à haute probabilité tout en tenant explicitement compte des erreurs d'inférence et d'approximation neuronale. La validation est réalisée sur un benchmark simulé d'interaction humain-véhicule, où le filtre certifié s'avère significativement moins conservatif qu'une baseline conformal prediction standard.

L'enjeu industriel est direct : dans les scénarios de cobotique, de robots de livraison ou de véhicules autonomes partageant l'espace avec des piétons, les filtres de sécurité trop conservatifs dégradent l'efficacité opérationnelle et rendent le déploiement économiquement non viable. La difficulté jusqu'ici résidait dans le "curse of dimensionality" des espaces de croyance : plus le robot modélise finement l'incertitude humaine, plus l'espace d'état explose, rendant les garanties formelles quasi impossibles sans approximation neuronale coûteuse en fiabilité. En focalisant la vérification sur les régions où l'inférence est statistiquement fiable, les auteurs contournent cette contrainte sans alourdir la complexité d'échantillonnage, ce qui constitue une avancée méthodologique notable pour les intégrateurs cherchant des certifications de sécurité fonctionnelle (ISO 13849, IEC 62061).

Le BeliefSF a été introduit comme concept dans des travaux antérieurs, mais sans garanties formelles exploitables, ce qui en limitait la portée au stade de la démonstration académique. Ce preprint comble ce manque en s'appuyant sur la prédiction conforme, une technique qui gagne rapidement du terrain dans la vérification de systèmes apprenants, notamment après des travaux récents de groupes comme MIT CSAIL et Stanford sur les Control Barrier Functions (CBF) à base de données. La prochaine étape critique reste la validation sur hardware réel, en dehors de la simulation, pour évaluer si les garanties tiennent face aux bruits capteurs et aux latences d'inférence propres au déploiement physique. Aucun partenaire industriel ni calendrier de transfert n'est mentionné dans ce preprint.

Impact France/UE

Cette méthode de certification formelle pourrait faciliter la conformité aux normes européennes de sécurité fonctionnelle (ISO 13849, IEC 62061) pour les intégrateurs de cobots et robots autonomes en Europe, sous réserve de validation hardware réelle.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Modèles fondation vérifiables pour la sécurité des robots

Une équipe de chercheurs présente FEARL (Foundation-Enabled Assured Robot Learning), un cadre publié en juin 2026 sur arXiv (2606.23754), conçu pour rendre les modèles de fondation utilisés en robotique formellement vérifiables. L'architecture repose sur une décomposition en deux modules : un grand Contrôleur (C) qui gère la perception haute dimension et le raisonnement sur les tâches, et un petit module de Sécurité (S) alimenté par des capteurs dédiés basse dimension et un embedding contextuel borné fourni par C, qui produit l'action finale. La vérification formelle s'applique uniquement à S, un composant compact dont les contraintes de sécurité, évitement de collision, limites d'espace de travail, peuvent s'exprimer sur des observations de faible dimension. Le cadre a été évalué sur trois domaines robotiques simulés, en intégrant des VLA (Vision-Language-Action) pré-entraînés disponibles sur étagère, et le transfert vers un robot physique a été validé. Ce découplage répond à un blocage concret pour les intégrateurs et équipes de certification industrielle. Des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont performants mais formellement opaques, ce qui les rend incompatibles avec les outils de vérification existants et freine leur déploiement dans des environnements à risque. FEARL propose un compromis : le Contrôleur conserve sa pleine expressivité pour le raisonnement, tandis que S reste vérifiable. Le transfert sim-to-real réussi indique que l'interface basse dimension ne dégrade pas les performances réelles, ce qui nuance l'hypothèse selon laquelle la richesse sensorielle serait indispensable à un contrôle fiable. Les approches antérieures pour sécuriser les politiques robotiques reposaient sur le reinforcement learning contraint ou des moniteurs d'exécution superposés, sans garanties formelles sur l'ensemble du pipeline. FEARL s'inscrit dans le champ de l'assured autonomy et constitue l'une des premières architectures à intégrer des VLA pré-entraînés dans une boucle vérifiable. Des acteurs comme Enchanted Tools (France) ou Wandercraft, qui développent des systèmes embarqués à contraintes de sécurité fortes, pourraient directement bénéficier de ce type d'approche. Les prochaines étapes naturelles seraient une validation sur des benchmarks de safety formels (IEC 61508, DO-178C) et des tests sur des manipulateurs industriels en environnement non structuré.

UEEnchanted Tools et Wandercraft, acteurs français développant des robots à fortes contraintes de sécurité embarquée, sont explicitement identifiés comme bénéficiaires directs de cette architecture de vérification formelle des VLA.

RecherchePaper

1 source

2arXiv cs.RO

Sécurité dynamique corps entier pour bras robotiques : fonctions de sécurité de Poisson 3D pour filtres de sécurité à base de CBF

Des chercheurs ont déposé sur arXiv (réf. 2604.21189) un cadre pour la sécurité plein-corps des bras manipulateurs robotiques en environnements dynamiques, combinant des fonctions de sécurité de Poisson en 3D (PSF) et des filtres basés sur des Control Barrier Functions (CBF). La méthode discrétise la surface du robot à une résolution paramétrable, puis contracte l'espace libre via une différence de Pontryagin proportionnelle à cette résolution. Sur ce domaine tamponné, une unique CBF globalement lisse est synthétisée en résolvant l'équation de Poisson sur l'ensemble de l'environnement. Les contraintes résultantes, évaluées à chaque point d'échantillonnage, sont appliquées en temps réel par un programme quadratique multi-contraintes. La validation est réalisée sur un manipulateur à 7 degrés de liberté (DOF) en environnement dynamique, seule donnée expérimentale concrète de ce preprint, sans benchmark de temps de cycle publié. L'apport est simultanément théorique et computationnel. Le travail prouve formellement que maintenir les points échantillonnés sûrs dans la région tamponnée suffit à garantir l'absence de collision pour la surface continue du robot, éliminant le gap entre discrétisation et géométrie réelle. Pour les intégrateurs travaillant sur la manipulation collaborative, c'est un levier direct : les approches CBF classiques requièrent une contrainte par paire de points proches, ce qui fait exploser le coût de calcul en haute dimension de configuration. En ramenant le problème à une seule fonction lisse sur tout l'environnement, le filtre devient davantage compatible avec les contraintes temps réel des contrôleurs embarqués. L'absence de métriques de latence dans la publication limite toutefois l'évaluation de la faisabilité industrielle. Les CBFs pour la sécurité robotique constituent un axe de recherche actif depuis 2019, porté notamment par les groupes d'Aaron Ames (Caltech) et des équipes au Georgia Tech. En Europe, le LAAS-CNRS à Toulouse et l'INRIA Sophia Antipolis ont contribué à des formulations similaires pour la planification sous contraintes de sécurité formelle. Du côté des intégrateurs industriels, Universal Robots, FANUC et Franka Robotics (intégré depuis dans l'écosystème Agile Robots) investissent dans des garanties de sécurité certifiables pour la co-manipulation. L'extension naturelle de ces travaux porte sur les environnements partiellement observés, données capteur bruitées ou occlusions partielles, ainsi que sur l'intégration dans une boucle de planification complète pour la manipulation dextre à grande vitesse.

UELe LAAS-CNRS (Toulouse) et l'INRIA Sophia Antipolis contribuent activement à des formulations similaires pour la planification sous contraintes de sécurité formelle, positionnant la recherche européenne comme acteur de premier plan dans ce domaine.

RecherchePaper

1 source

3arXiv cs.RO

RoboWorld : des simulateurs neuronaux rapides et fiables pour évaluer les politiques robotiques génériques

Une équipe de recherche a publié sur arXiv (2607.01060) RoboWorld, un pipeline automatisé d'évaluation pour les politiques robotiques génon-généralistes fondé sur des modèles de monde vidéo. Le système combine un modèle de monde vidéo autorégressif rapide avec un scoring assuré par un modèle vision-langage sensible à la progression de la tâche. Pour fiabiliser les simulations sur de longs horizons temporels, les auteurs introduisent une technique baptisée Step Forcing, qui mélange des contextes ancrés et des contextes auto-propagés en un seul pas afin de réduire l'écart entre entraînement et inférence, tout en préservant la cohérence entre actions et observations générées. Résultat annoncé : une corrélation quasi parfaite avec les évaluations réelles de robots physiques, avec un coefficient de Pearson de 0,989 et un coefficient de Spearman de 0,970, mesurés sur plusieurs tâches et environnements. L'enjeu dépasse la seule prouesse technique. Évaluer une politique robotique généraliste sur du matériel réel coûte cher et prend du temps : il faut multiplier les essais physiques, gérer l'usure du matériel et l'imprévisibilité de l'environnement. Les modèles de monde vidéo promettent de contourner cette contrainte en simulant les conséquences des actions d'un robot directement à partir de flux vidéo, sans passeser par un moteur physique classique. Le problème jusqu'ici restait la fiabilité : les erreurs cumulées du modèle de monde rendent les simulations longues peu crédibles, et l'inférence lente limite le nombre d'évaluations possibles à grande échelle. En démontrant une corrélation aussi forte avec la réalité tout en visant la rapidité, RoboWorld s'attaque frontalement à ce goulot d'étranglement, ce qui intéresse directement les laboratoires qui entraînent des politiques de type VLA (vision-langage-action) et cherchent à les valider avant tout déploiement physique coûteux. Ce travail s'inscrit dans une tendance plus large de la recherche en robotique où les modèles de monde vidéo remplacent progressivement les simulateurs physiques traditionnels pour l'évaluation de politiques, notamment à mesure que les modèles génératifs vidéo gagnent en fidélité. La difficulté classique de ces approches, le décalage entre les rollouts générés en entraînement et ceux produits en inférence, est justement ce que vise à corriger la méthode Step Forcing. L'article ne précise pas de partenariat industriel ni de déploiement en conditions réelles : il s'agit à ce stade d'un travail de recherche évalué sur des benchmarks internes, dont la reproductibilité et la généralisation à d'autres familles de robots restent à confirmer par la communauté.

RecherchePaper

1 source

4arXiv cs.RO

REPAIR-Bench : benchmark pour la perception des erreurs et la reprise d'interaction en robotique

Une équipe de chercheurs a publié REPAIR-Bench (Robot Error Perception And Interaction Recovery Benchmark), un jeu de données et de tâches d'évaluation conçu pour mesurer comment les utilisateurs humains perçoivent les pannes robotiques et y répondent. Le benchmark repose sur 214 essais d'interaction impliquant 41 participants exposés à quatre types de défaillances induites. Pour chaque session, les chercheurs ont capturé des données multimodales synchronisées : unités d'action faciale (AU), posture de la tête, transcriptions vocales, ainsi que des rapports d'affect et de stratégies de récupération recueillis après interaction. Trois tâches d'évaluation inédites structurent le benchmark : la détection de pannes sur des sessions interdépendantes (pour modéliser l'adaptation longitudinale de l'utilisateur), la classification visuelle du type de défaillance au-delà du simple binaire succès/échec, et la prédiction de stratégie de récupération centrée utilisateur. En baseline, un modèle récurrent hiérarchique atteint un F1 strict de 0,80 contre 0,68 pour un modèle mono-session, avec une erreur signée moyenne de -0,51 s et une erreur absolue médiane de 2,97 s pour la localisation temporelle des pannes. Pour la prédiction de récupération, un Mistral-7B affiné par QLoRA obtient Hit@5 = 0,76 et F1@5 = 0,32. L'intérêt scientifique de REPAIR-Bench tient à ce qu'il rompt avec trois limites persistantes de la littérature en interaction humain-robot (HRI) : le traitement des défaillances comme des événements isolés, la réduction de la détection à une décision binaire, et la modélisation de la récupération par des règles figées. En intégrant la dimension longitudinale, le benchmark permet de modéliser comment un utilisateur adapte progressivement son comportement face à des défaillances répétées, un phénomène documenté mais rarement instrumenté à cette échelle. Pour les équipes qui déploient des robots de service ou médicaux, c'est un signal concret : la robustesse perçue n'est pas seulement une propriété technique du système, mais une fonction de l'historique d'interaction. Le benchmark ouvre aussi la voie à des systèmes de récupération adaptatifs pilotés par les préférences inférées de l'utilisateur, plutôt que par des arbres de décision codés à la main, ce qui est pertinent pour les intégrateurs qui cherchent à réduire la charge cognitive des opérateurs. Ce travail s'inscrit dans un champ de recherche en expansion sur la fiabilité perçue des robots autonomes, accéléré par la multiplication des déploiements en contexte médical et industriel où une panne mal gérée peut rompre la confiance de façon durable. Les approches précédentes, comme les travaux sur la détection d'anomalies en manipulation ou les études d'affect en HRI, restaient souvent cloisonnées ; REPAIR-Bench propose un cadre unifié couvrant le cycle de vie complet de la défaillance. Le benchmark est publié sur arXiv (2606.29937) et cible explicitement les communautés HRI et HRI médicale. Les prochaines étapes naturelles incluent l'extension à des plateformes robotiques variées (bras manipulateurs, robots mobiles, humanoïdes) et l'évaluation de modèles de langage multimodaux en temps réel comme superviseurs de récupération, une piste que les résultats Mistral-7B rendent crédible sans pour autant la valider à l'échelle.

RecherchePaper

1 source