Aller au contenu principal
Exploitation de la parcimonie chordale pour une estimation globalement optimale avec des graphes de facteurs
RecherchearXiv cs.RO1h

Exploitation de la parcimonie chordale pour une estimation globalement optimale avec des graphes de facteurs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs associée au Borg Lab (Georgia Tech) a publié fin mai 2026 un préprint arXiv (2605.30617) présentant une méthode pour rendre l'estimation d'état globalement optimale dans les graphes de facteurs, sans effort de formulation manuelle. Le travail s'intègre directement à GTSAM, la bibliothèque de référence pour le SLAM et la navigation, et repose sur deux contributions : une procédure automatisée de construction de relaxations SDP (semi-definite programming) convexes pour tout graphe de facteurs utilisant les types de variables et de facteurs courants, et l'exploitation de la structure creuse chorale native de l'arbre de Bayes (Bayes tree) de GTSAM pour décomposer le problème SDP. Les deux cas d'usage évalués sont un problème de SLAM 3D par pose-graph en anneau et un problème de localisation 2D en chaîne, sur lesquels le nouvel estimateur démontre une meilleure scalabilité que les solveurs locaux standards. Le code est disponible sur le dépôt borglab/gtsam.

L'enjeu est directement lié à la sécurité des systèmes robotiques : les solveurs locaux embarqués dans GTSAM ou g2o peuvent converger vers de mauvais minima locaux, ce qui dans un contexte de navigation autonome ou de perception industrielle représente un risque réel. Les approches par relaxations convexes garantissent l'optimalité globale ou permettent de certifier la solution, mais elles étaient jusqu'ici réservées à des cas formulés manuellement par des spécialistes, et pénalisées par le coût de résolution d'un SDP de grande taille. En automatisant la construction de la relaxation et en exploitant la sparsité du problème, les auteurs réduisent substantiellement ce surcoût computationnel, rendant l'approche crédible pour des applications embarquées ou temps-réel.

Les graphes de facteurs sont l'outil dominant en estimation robotique depuis les travaux séminaux de Dellaert et Kaess (iSAM, iSAM2) au début des années 2010, et GTSAM en est l'implémentation la plus utilisée en recherche. Les relaxations SDP pour le SLAM ont été explorées depuis une dizaine d'années, notamment par Rosen et al. avec SE-Sync (2019), qui ciblait spécifiquement la synchronisation de poses. Ce nouveau travail généralise l'approche à des graphes de facteurs arbitraires, ce qui constitue un pas vers une intégration praticable dans des pipelines SLAM existants. Il s'agit d'un préprint non encore soumis à révision par les pairs, et les gains de performance annoncés restent à confirmer sur des benchmarks plus complexes ou des architectures embarquées contraintes.

Dans nos dossiers

À lire aussi

Estimation de forme des robots continus par graphes de facteurs et développement de Magnus
1arXiv cs.RO 

Estimation de forme des robots continus par graphes de facteurs et développement de Magnus

Des chercheurs ont publié le 22 avril 2026 sur arXiv une méthode de reconstruction de forme pour manipulateurs continus (continuum robots), ces bras flexibles à courbure infinie utilisés notamment en chirurgie mini-invasive et en inspection de conduites. Le système combine une paramétrisation GVS (Geometric Variable Strain) en basse dimension avec un graphe de facteurs, les deux éléments étant liés par un facteur cinématique inédit dérivé de l'expansion de Magnus du champ de déformation. Évalué en simulation sur un robot continu à câbles de 0,4 m de longueur, le pipeline atteint des erreurs de position moyennes inférieures à 2 mm dans trois configurations de capteurs distinctes, et divise par six l'erreur d'orientation par rapport à une ligne de base par régression de processus gaussien (GP) lorsque seules des mesures de position sont disponibles. Aucun déploiement matériel réel n'est encore rapporté : il s'agit d'un résultat de simulation validé sur préprint, pas d'un produit commercialisé. L'intérêt pour les intégrateurs et les équipes de R&D est double. D'abord, la méthode produit un vecteur d'état compact directement exploitable par des boucles de contrôle model-based, ce que les approches purement probabilistes basées sur la discrétisation spatiale des tiges de Cosserat ne permettent pas sans un coût computationnel croissant avec la résolution. Ensuite, l'incertitude reste quantifiée, ce que les méthodes paramétriques classiques sacrifient au profit de la compacité. Pour le secteur chirurgical en particulier, où la redondance et la sécurité certifiable sont des prérequis réglementaires, la combinaison compacité-incertitude représente un progrès méthodologique tangible, à condition qu'il se confirme sur hardware réel. Les manipulateurs continus constituent un axe de recherche actif depuis les années 2000, porté notamment par les laboratoires travaillant sur la chirurgie robotique (Intuitive Surgical côté industriel, groupes académiques comme le King's College London ou la TU Delft côté recherche). Les approches concurrentes incluent les modèles de tige de Cosserat discrétisés, les réseaux de neurones pour la cinématique directe et les processus gaussiens, chacun présentant un compromis différent entre précision, temps de calcul et structure probabiliste. La prochaine étape attendue est une validation expérimentale sur banc physique avec bruit de capteur réel, condition sine qua non avant toute intégration dans un système de contrôle clinique ou industriel.

UELes laboratoires européens actifs en robotique chirurgicale (dont TU Delft) pourraient intégrer cette brique algorithmique dans leurs travaux sur les boucles de contrôle certifiables, à condition d'une validation hardware confirmée.

RecherchePaper
1 source
AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs
2arXiv cs.RO 

AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs

Des chercheurs de l'université de Fribourg-en-Brisgau ont publié AnchorD, un framework d'estimation de profondeur présenté comme entraînement-libre (training-free), capable d'ancrer les prédictions métriques de modèles monoculaires dans des mesures de capteurs réels via une optimisation par graphes de facteurs (factor graphs). La méthode réalise un alignement affine par patches, ce qui permet de recaler localement les estimations monoculaires sur une profondeur métrique réelle tout en préservant les discontinuités géométriques fines. Pour valider l'approche dans des conditions difficiles, l'équipe introduit également un nouveau jeu de données de référence avec vérité terrain dense sur des scènes complètes contenant des objets non-lambertiens (transparents, spéculaires, métalliques), obtenue en combinant une peinture mate réfléchissante en spray sur les surfaces problématiques et une fusion multi-caméras, contournant ainsi la dépendance aux annotations CAD par objet des benchmarks existants. Le code et les données sont publiés en accès libre. L'enjeu pratique est réel pour les intégrateurs de manipulation robotique et de préhension : les capteurs de profondeur structurés (Time-of-Flight, stéréo, LiDAR) décrochent systématiquement sur les surfaces transparentes comme le verre ou spéculaires comme l'inox, des matériaux omniprésents en milieu industriel. Les grands modèles de profondeur monoculaire, Depth Anything V2, UniDepth, ZoeDepth, produisent des priors structurels excellents mais souffrent d'ambiguïté d'échelle métrique, ce qui les rend inutilisables directement pour la planification de trajectoire ou le calcul de prise. AnchorD propose de fusionner les deux sources d'information sans réentraînement, ce qui le rend déployable sur du matériel existant avec n'importe quel modèle fondation de profondeur en entrée. Les auteurs rapportent des améliorations constantes sur des capteurs et domaines variés, sans communiquer de métriques numériques précises dans le résumé, les chiffres restent à consulter dans le papier complet. Ce travail s'inscrit dans un axe actif de recherche qui tente de "métrifier" les modèles de vision de fondation pour les rendre directement exploitables en robotique, sans passer par des pipelines de calibration coûteux. L'université de Fribourg (groupe Robotics and Embedded Systems, liens avec le DFKI) est un acteur reconnu en perception robotique, notamment sur les terrains non structurés. Dans l'espace concurrent, des approches comme Metric3D v2 (Tianjin/Baidu) ou ScaleDepth cherchent le même objectif par voie paramétrique ou de fine-tuning; AnchorD se distingue par son absence totale de phase d'entraînement. L'article est un preprint arXiv (2605.02667, mai 2026), non encore évalué par les pairs: les résultats présentés devront être confirmés lors d'une revue formelle.

UEContribution d'un laboratoire européen (Fribourg/DFKI) publiée en open-source et sans réentraînement, directement exploitable par les intégrateurs EU pour la manipulation d'objets industriels à surfaces transparentes ou spéculaires.

RecherchePaper
1 source
3arXiv cs.RO 

Caspar : un accélérateur CUDA pour la programmation symbolique avec réordonnancement adaptatif

Une équipe de chercheurs a présenté Caspar (CUDA Accelerator for Symbolic Programming with Adaptive Reordering), une bibliothèque open source qui génère automatiquement des noyaux CUDA optimisés à partir d'expressions symboliques définies en Python, sans que l'utilisateur n'écrive une seule ligne de C++. Construite sur SymForce, elle prend en charge les opérations sur les groupes de Lie et la différentiation symbolique automatique : l'utilisateur formule ses fonctions résiduelles de façon expressive, et Caspar compile l'ensemble en code GPU haute performance. Pour valider l'approche, l'équipe a mesuré les performances sur le jeu de données BAL (Bundle Adjustment in the Large), référence académique standard pour les problèmes d'ajustement de faisceaux en vision 3D, en comparant Caspar aux meilleurs solveurs disponibles. Sur ce benchmark, Caspar s'avère 5 à 20 fois plus rapide que la meilleure alternative existante, avec une empreinte mémoire moindre et une précision comparable. C'est un résultat notable pour toute application robotique reposant sur l'optimisation non linéaire temps réel : SLAM (Simultaneous Localization and Mapping), calibration de capteurs multiples, planification de trajectoires, ou reconstruction 3D embarquée. En abstrayant la complexité CUDA derrière une interface Python symbolique, Caspar abaisse substantiellement la barrière à l'accélération GPU dans les pipelines robotiques industriels, un domaine où la maîtrise du CUDA reste rare et coûteuse. Le résultat illustre qu'une approche de compilation symbolique automatisée peut rivaliser, voire dépasser, des implémentations GPU écrites à la main par des experts. SymForce a été initialement développé chez Skydio, fabricant américain de drones autonomes, avant d'être publié en open source. Dans l'espace des solveurs non linéaires, Caspar entre en concurrence directe avec Ceres Solver (Google), g2o et GTSAM, qui dominent les applications de SLAM et de robotique. La bibliothèque est disponible librement dans le dépôt GitHub symforce-org/symforce ; la publication présentée ici est un preprint arXiv, non encore évalué par les pairs. Les benchmarks portent exclusivement sur des jeux de données académiques standards : les gains annoncés restent à confirmer sur des cas d'usage robotiques temps réel embarqués, où les contraintes de latence et de mémoire GPU sont sensiblement plus sévères.

RecherchePaper
1 source
Estimation de pose des parties d'objets avec une stratégie d'apprentissage sans annotation de symétrie
4arXiv cs.RO 

Estimation de pose des parties d'objets avec une stratégie d'apprentissage sans annotation de symétrie

Des chercheurs ont déposé le 19 mai 2026 sur arXiv (référence 2605.17033) un nouveau cadre d'apprentissage baptisé SAFAG (Symmetry Annotation-Free framework for Generalizable and Actionable Parts), destiné à améliorer l'estimation de pose des parties fonctionnelles d'objets pour la manipulation robotique. Le problème central adressé est celui de la perception cross-catégorie : un robot doit être capable d'identifier et d'utiliser les parties actionnables d'objets inconnus (poignées de tiroirs, vannes, leviers) sans annotations de symétrie produites manuellement. SAFAG propose une architecture à deux étapes de type candidat-vers-final pour la régression de quaternions (représentation mathématique de l'orientation 3D en espace), couplée à un mécanisme d'apprentissage auto-supervisé qui traite la symétrie des objets comme un problème de distribution de probabilité, supprimant ainsi la dépendance aux annotations manuelles. L'enjeu industriel est concret : l'une des frictions majeures dans le déploiement de bras robotiques polyvalents en atelier ou en logistique est précisément la capacité à actionner des objets variés sans reprogrammation par référence. La symétrie géométrique des pièces (bouton rond, valve cylindrique) génère des ambiguïtés de pose qui font échouer les pipelines de perception classiques, contraignant les intégrateurs à constituer des datasets annotés par catégorie d'objet, une démarche coûteuse et non scalable. En automatisant la gestion de la symétrie via l'apprentissage auto-supervisé, SAFAG pourrait réduire significativement ce coût d'intégration pour des tâches pick-and-place sur objets non structurés, domaine où le sim-to-real reste un défi ouvert. Le concept de GAParts (Generalizable and Actionable Parts) sur lequel s'appuie SAFAG a émergé ces dernières années dans la communauté de l'embodied AI, notamment autour de travaux sur la segmentation sémantique des parties d'objets articulés. Le paysage concurrent inclut AnyGrasp, FoundationPose de NVIDIA et UniGraspTransfer, qui visent tous à généraliser la préhension sans supervision dense. SAFAG se distingue par son traitement explicite de la symétrie sans annotation. Il s'agit néanmoins d'un preprint arXiv sans code publié ni évaluation externe disponible à ce stade : les performances revendiquées restent à reproduire de façon indépendante avant toute considération d'intégration industrielle.

RecherchePaper
1 source