Collaboration humain-robot sécurisée par vision avec ga…

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

47

1arXiv cs.RO

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Une équipe de chercheurs a publié TouchSafeBench (arXiv:2605.31196), un benchmark pour évaluer ce qu'ils nomment le "collision grounding" dans les modèles de vision-langage (VLM) : la capacité à relier des observations visuelles à la géométrie du robot, la disposition de la scène et la proximité humaine pour déduire un contact présent ou imminent. Construit dans le simulateur Habitat 3.0 de Meta, il comprend 2 940 épisodes de coprésence indoor simulés, couvrant navigation sociale et réorganisation spatiale, avec des observations RGB-D multi-vues synchronisées, des cartes de trajectoire top-down et des labels de contact dérivés directement du simulateur. Trois VLMs orientés robotique ou frontier models ont été testés sur neuf représentations visuelles, autour de deux tâches : classifier l'état de sécurité courant et anticiper une collision imminente avant tout contact physique. Le meilleur score moyen Macro-F1 obtenu reste inférieur à 50 %. Ce chiffre souligne une limite fondamentale : la fluidité visuelle n'implique pas la responsabilité physique. Un modèle capable de décrire précisément une scène peut échouer à détecter si un bras robotique effleure un opérateur. Pour les intégrateurs travaillant sur la collaboration homme-robot, le signal est sans ambiguité : les VLMs actuels ne peuvent pas jouer le rôle de moniteurs de sécurité sans couche d'abstraction géométrique explicite. L'étude montre également que le contact robot-scène (obstacles, mobilier) est systématiquement plus difficile à détecter que la proximité humaine, contredisant l'intuition courante. Plus frappant encore : la profondeur RGB-D n'est pas automatiquement convertie en évidence de collision corps-robot, faute de représentation morphologique intégrée dans ces modèles. Ces résultats arrivent au moment où les architectures vision-langage-action (VLA) comme RT-2, OpenVLA ou pi0 de Physical Intelligence s'imposent dans les pipelines robotiques, en pariant sur la généralisation sémantique des VLMs pour piloter manipulateurs et robots mobiles. TouchSafeBench constitue un contrepoids empirique à cet enthousiasme : la généralisation linguistique ne résout pas la conscience géométrique nécessaire à la sécurité fonctionnelle. La plateforme sous-jacente, Habitat 3.0, est développée par Meta AI Research et fait référence en navigation sociale simulée. Le benchmark sera publié à l'acceptation de l'article. Les auteurs identifient comme prochaine étape des représentations liant explicitement point de vue caméra, morphologie du robot et géométrie métrique, potentiellement via des approches hybrides VLM et modèles cinématiques.

UELes intégrateurs européens développant des cobots sous contraintes AI Act doivent intégrer que les VLMs actuels ne sont pas des moniteurs de sécurité fiables sans couche d'abstraction géométrique explicite, ce qui impacte directement les architectures VLA en cours de déploiement industriel.

RecherchePaper

1 source

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

36

2arXiv cs.RO

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

Des chercheurs ont publié sur arXiv (référence 2509.10692, troisième révision en avril 2026) un framework de planification de mouvement et d'analyse de risque pour la collaboration humain-robot avec un véhicule aérien multirotor. Le coeur du système repose sur la Signal Temporal Logic (STL), un formalisme mathématique permettant d'encoder des objectifs de mission structurés : contraintes de sécurité, exigences temporelles, et préférences humaines incluant l'ergonomie et le confort de l'opérateur. Un planificateur par optimisation génère des trajectoires dynamiquement faisables en tenant compte des dynamiques non-linéaires du drone et de ses contraintes d'actuation. Pour résoudre le problème d'optimisation non-convexe et non-lisse qui en résulte, le framework adopte des approximations de robustesse différentiables combinées à des méthodes de gradient. Le système inclut également un mécanisme de replanification en ligne déclenché par événements, activé lorsque des perturbations menacent les marges de sécurité. La validation s'appuie exclusivement sur des simulations MATLAB et Gazebo, sur une tâche de remise d'objet inspirée de la maintenance de lignes électriques. Ce travail adresse un verrou réel dans le déploiement de drones en environnement industriel partagé : la cohabitation sûre avec des techniciens humains dont la posture est incertaine et dynamique. L'analyse de risque probabiliste quantifie la vraisemblance de violations de spécifications sous incertitude de pose humaine, ce qui représente une avancée par rapport aux approches conservatrices à marge fixe. La replanification événementielle permet une récupération en ligne sans interrompre la mission, un critère déterminant pour les applications en conditions réelles. Cela dit, l'absence de validation physique sur hardware réel constitue une limite importante : le gap sim-to-real pour les drones en proximité humaine reste un problème ouvert, et les résultats en simulation Gazebo ne peuvent pas être directement extrapolés à un déploiement terrain. Le contexte de ce travail s'inscrit dans un effort plus large de la communauté robotique aérienne pour rendre les drones industriels opérables à proximité immédiate des travailleurs, notamment dans les secteurs de l'énergie et de la maintenance d'infrastructures. Côté concurrence, des acteurs comme Skydio (USA) ou Flyability (Suisse) avancent sur des drones robustes en environnement contraint, mais sans formalisme STL ni modèle explicite d'interaction humain-robot. En Europe, des projets académiques financés par l'ANR et H2020 explorent des pistes similaires. La prochaine étape naturelle pour ce framework serait une validation sur banc physique avec un multirotor réel et des opérateurs humains instrumentés, condition sine qua non avant toute intégration industrielle.

UEDes projets ANR et H2020 explorent des approches similaires ; ce framework STL pourrait alimenter la recherche européenne sur les drones industriels en proximité humaine, notamment pour la maintenance d'infrastructures énergétiques.

RecherchePaper

1 source

Synchronisation SE(3) par double quaternion avec garanties de récupération

42

3arXiv cs.RO

Synchronisation SE(3) par double quaternion avec garanties de récupération

Une équipe de chercheurs propose sur arXiv (2602.00324v2) un algorithme de synchronisation SE(3) formulé directement sur les quaternions duaux. Le problème central - récupérer des poses absolues (position et orientation 3D) à partir de transformations relatives bruitées entre scans ou capteurs - est au coeur du SLAM, de la calibration multi-caméra et de la reconstruction 3D. Les méthodes classiques reposent sur des heuristiques multi-étapes sans garanties théoriques. Les auteurs encodent rotation et translation dans un unique objet mathématique (le quaternion dual unitaire) et construisent un algorithme en deux étapes : d'abord un initialisateur spectral par méthode des puissances sur une matrice hermitienne à coefficients quaternioniques duaux, suivi d'une méthode de puissance généralisée sur quaternions duaux (DQGPM) avec projection géométrique à chaque itération pour garantir la faisabilité. Les tests sur benchmarks synthétiques et sur des enregistrements réels de nuages de points multi-scans montrent une précision et une efficacité supérieures aux méthodes matricielles de référence. L'apport principal est théorique : les auteurs établissent des bornes d'erreur formelles pour l'estimateur spectral et prouvent que DQGPM converge en nombre fini d'itérations avec une contraction linéaire jusqu'à un seuil dépendant explicitement du niveau de bruit. C'est une rareté dans ce domaine, où la convergence est généralement seulement empirique. Pour les ingénieurs déployant des systèmes SLAM ou LiDAR multi-scans en contexte industriel, cela signifie un pipeline dont le comportement est borné et potentiellement certifiable - condition préalable à l'homologation de robots mobiles en environnement critique. La représentation unifiée rotation-translation élimine par ailleurs les erreurs d'accumulation liées à la séparation des deux composantes dans les formulations matricielles classiques. La synchronisation sur SE(3) est un problème formalisé depuis plusieurs décennies, adjacent aux travaux en rotation averaging (Hartley, Govindu) et en synchronisation SO(3) (Carlone, Singer). Les méthodes concurrentes dominantes - relaxations SDP, descente de gradient riemannienne, initialisation chordale - restent toutes à base matricielle. Les quaternions duaux sont établis en cinématique des manipulateurs depuis les années 1990, mais rarement exploités en estimation robuste à grande échelle. Ce travail s'inscrit dans un mouvement récent visant à doter les algorithmes de perception robotique de fondements formels, prérequis à leur certification dans des applications critiques (autonomie industrielle, espace). La validation sur des benchmarks SLAM temps réel à grande échelle tels que KITTI ou Hilti représente l'étape suivante naturelle.

UELes garanties formelles de convergence sur SE(3) pourraient constituer un prérequis à la certification de systèmes SLAM embarqués dans des robots mobiles soumis aux futures normes européennes de sécurité, mais aucun acteur FR/UE n'est directement impliqué.

RecherchePaper

1 source

Commande prédictive convexe robuste avec garanties d'évitement de collision pour bras manipulateurs

36

4arXiv cs.RO

Commande prédictive convexe robuste avec garanties d'évitement de collision pour bras manipulateurs

Des chercheurs présentent dans un pré-print arXiv (référence 2508.21677, troisième révision) une méthode de contrôle par modèle prédictif (MPC) conçue pour les bras manipulateurs industriels à 6 degrés de liberté (DOF) opérant dans des environnements encombrés. L'approche repose sur deux composantes : un tube MPC robuste, qui encapsule les trajectoires dans un tube garanti même en présence d'incertitudes paramétriques du modèle, et un algorithme de planification de corridor qui génère des chemins exemptes de collisions. La formulation qui en résulte est convexe, propriété rare dans ce domaine, ce qui permet une résolution rapide et compatible avec des boucles de contrôle temps réel. Validée uniquement en simulation, la méthode surpasse des approches de référence en tolérant des niveaux plus élevés d'incertitude de modèle tout en maintenant des vitesses d'exécution supérieures. Aucun déploiement matériel ni partenaire industriel n'est mentionné à ce stade. La portée industrielle de ce travail tient à un problème concret : les incertitudes de modèle dans les manipulateurs (charge variable, usure, flexibilité des joints) imposent aujourd'hui des limites de vitesse conservatives dans les cellules robotisées, ce qui réduit la cadence. Une méthode MPC offrant des garanties formelles de sécurité tout en réduisant ce conservatisme permettrait aux intégrateurs de pousser les vitesses nominales sans compromettre la conformité aux normes de sécurité (ISO 10218). La formulation convexe est ici un point-clé : elle rend le MPC compatible avec des solveurs rapides type QP (quadratic programming), là où les approches non-convexes nécessitent souvent des relaxations coûteuses ou des horizons de prédiction courts. Le contrôle prédictif pour manipulateurs est un axe de recherche actif depuis une décennie, avec des approches concurrentes incluant les MPC non-linéaires (via ACADO ou FORCES Pro), les méthodes basées sur les fonctions barrières de contrôle (CBF), ou encore les planificateurs par échantillonnage (MPPI). Ce travail se positionne sur la robustesse formelle et la rapidité de résolution, deux propriétés rarement combinées. La limite principale reste la validation purement simulée : le passage au réel (sim-to-real gap, flexibilité mécanique non modélisée, latences capteurs) n'est pas abordé. Les prochaines étapes naturelles seraient une validation sur hardware, par exemple sur un UR10 ou un KUKA LBR, et une extension à des horizons d'évitement dynamique face à des obstacles mobiles.

UELes intégrateurs et fabricants européens (ABB, KUKA) pourraient à terme exploiter cette méthode pour augmenter la cadence de leurs cellules sans compromettre la conformité ISO 10218, mais aucun partenariat ni déploiement européen n'est mentionné à ce stade.

RecherchePaper

1 source

Collaboration humain-robot sécurisée par vision avec garanties de robustesse

À lire aussi

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

Synchronisation SE(3) par double quaternion avec garanties de récupération

Commande prédictive convexe robuste avec garanties d'évitement de collision pour bras manipulateurs