Aller au contenu principal
MUSE : quantification multimodale de l'incertitude dans l'estimation d'état
RecherchearXiv cs.RO1j

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art.

L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie.

L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

Dans nos dossiers

À lire aussi

Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance
1arXiv cs.RO 

Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance

Une équipe du laboratoire elpis-lab publie KiTe, un planificateur cinodynamique qui introduit une formulation par coût terminal pour la planification de mouvements robotiques sous incertitude, soumis sur arXiv en mai 2026. Le travail étend AO-RRT (Asymptotically Optimal Rapidly-exploring Random Trees), l'algorithme de référence en planification cinodynamique, en ajoutant un objectif de qualité de l'état terminal plutôt que de traiter l'atteinte du but comme une contrainte binaire de faisabilité. Les auteurs prouvent formellement que cette extension préserve l'optimalité asymptotique d'AO-RRT. KiTe est ensuite étendu à l'espace de croyance (belief space) : la distance de Wasserstein entre la distribution terminale estimée et l'objectif sert de métrique, dont les auteurs démontrent qu'elle améliore une borne inférieure sur la probabilité d'atteindre la région cible. Pour les systèmes sans modèle analytique d'incertitude, les dynamiques et le bruit de processus sont appris directement depuis les données. Les expériences couvrent Flappy Bird, Car Parking et Planar Pushing en simulation, puis une validation réelle sur poussée planaire, avec des taux de succès supérieurs aux planificateurs de référence dans l'ensemble des configurations testées. L'enjeu dépasse la démonstration académique : les planificateurs cinodynamiques existants optimisent le coût cumulatif de trajectoire sans modéliser explicitement la qualité de l'état d'arrivée, les rendant fragiles face au bruit capteur, aux erreurs de modèle ou aux dynamiques non linéaires. En formulant la qualité terminale comme objectif à part entière et en intégrant des modèles d'incertitude appris, KiTe adresse directement le gap démonstration-réalité qui freine le déploiement de planificateurs en manipulation non structurée ou en environnement industriel. Pour un ingénieur ou un intégrateur, cela se traduit par des trajectoires plus robustes sans exiger un modèle dynamique parfait du système. La planification cinodynamique en espace de croyance est un domaine concurrentiel face à des approches comme MPPI (Model Predictive Path Integral), iLQR sous incertitude, ou les planificateurs basés sur des processus gaussiens. AO-RRT, sur lequel KiTe s'appuie, est une référence établie pour la planification à optimalité garantie avec contraintes dynamiques. La contribution de KiTe est à la fois théorique (preuve d'optimalité préservée sous l'objectif augmenté) et pratique (apprentissage des dynamiques depuis les données), avec le code disponible publiquement sur GitHub (elpis-lab/KiTe), ce qui facilite la reproductibilité et l'adoption par la communauté.

RecherchePaper
1 source
FUSE : un cadre unifié pour l'estimation d'état dans les systèmes SLAM robotiques
2arXiv cs.RO 

FUSE : un cadre unifié pour l'estimation d'état dans les systèmes SLAM robotiques

Une équipe de chercheurs a publié sur arXiv (référence 2605.18047) FUSE, un cadre logiciel pour l'estimation d'état unifiée dans les systèmes SLAM robotiques. Le problème adressé est structurel : les architectures SLAM à couplage serré lient dans un même bloc monolithique le traitement temporel, l'association géométrique locale, la formulation de l'estimateur et la politique de mise à jour de carte, rendant toute modification d'un composant coûteuse. FUSE propose quatre interfaces standardisées (ingestion d'observations, propagation, mise à jour, requête d'état) pour séparer ces responsabilités. L'instanciation LiDAR-IMU a été évaluée sur une séquence corridor bouclée de 418 m et produit une erreur de trajectoire de 1,626 m bout en bout, soit une réduction relative de 7,9 % par rapport à Faster-LIO, meilleure référence sur cette séquence. Le gain de 7,9 % reste modeste, mais l'intérêt principal de FUSE est architectural. Découpler proprement les choix de conception dans un pipeline SLAM permet de changer l'estimateur, adapter la cadence de mise à jour ou intégrer un nouveau type de capteur sans réarchitecturer l'ensemble du système. Pour les intégrateurs d'AMR ou les équipes de navigation industrielle, cela réduit significativement le coût de portage entre plateformes. La gestion explicite de la dégénérescence directionnelle constitue un point technique concret : en environnement corridor, le LiDAR ne perçoit pas de contraintes suffisantes dans l'axe latéral, rendant l'estimation instable. FUSE intègre un mécanisme de correction adaptatif ciblant ces directions faiblement observables, un problème rarement traité proprement dans les frameworks publics existants. Le SLAM LiDAR-IMU est un domaine très concurrentiel. Les références académiques dominantes incluent FAST-LIO2 et Faster-LIO (équipe Cai, HKUST) ainsi que LIO-SAM (Shan et al., MIT). Dans l'industrie, des fournisseurs comme Exotec (France) ou MiR intègrent des stacks de localisation dérivées de ces travaux dans leurs flottes d'AMR. FUSE ne cherche pas à battre ces systèmes sur les benchmarks de performance pure, mais à proposer une abstraction permettant de composer des composants algorithmiques de façon indépendante. Il s'agit d'une prépublication arXiv sans code public annoncé à ce stade, ce qui en fait pour l'instant une contribution académique à valider plutôt qu'un outil industriel prêt à l'emploi. La suite logique serait une mise à disposition open-source permettant de tester des instanciations alternatives, radar ou RGB-D, à travers les mêmes interfaces standardisées.

UEExotec (France) est cité comme exemple d'intégrateur AMR susceptible de bénéficier de l'abstraction architecturale proposée ; une mise à disposition open-source de FUSE réduirait le coût de portage SLAM pour les équipes de navigation industrielle européennes.

RecherchePaper
1 source
CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples
3arXiv cs.RO 

CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples

Une équipe de recherche vient de déposer sur arXiv (arXiv:2605.15122, mai 2026) CoCo-InEKF, un filtre de Kalman étendu invariant différentiable pour l'estimation d'état des robots à pattes en mouvement dynamique. La contribution centrale consiste à remplacer les états de contact binaires traditionnels (pied au sol ou non) par des covariances continues de vitesse de contact, calculées par un réseau de neurones léger entraîné de bout en bout via une fonction de perte sur l'erreur d'état. Ce réseau prédit des covariances pour des points candidats de contact prédéfinis, sans nécessiter d'étiquettes manuelles de vérité terrain. Une procédure de sélection automatique de ces points est également proposée, et les auteurs montrent que les résultats sont peu sensibles à leur positionnement exact. Les expériences ont été conduites sur un robot bipède, avec des démonstrations de danse et d'interactions complexes avec le sol, aussi bien en simulation qu'en environnement réel. La distinction entre états de contact binaires et covariances continues touche un verrou technique récurrent de la locomotion dynamique. Les filtres classiques peinent à gérer le contact partiel (un pied posé partiellement sur un obstacle) ou le glissement directionnel (la semelle dérape latéralement tout en maintenant une charge normale). En modulant dynamiquement la confiance accordée à chaque point de contact, CoCo-InEKF produit une meilleure estimation de vitesse linéaire et une consistance de filtre améliorée par rapport aux approches de référence, ce qui conditionne directement la robustesse des mouvements sur terrains complexes. L'absence de labels manuels de contact facilite également le portage vers de nouveaux châssis sans recalibrage supervisé. L'InEKF (filtre de Kalman étendu invariant sur groupes de Lie SE(3)) s'est imposé depuis les travaux du MIT sur le contact-aided InEKF (2019) comme cadre de référence pour l'odométrie des robots à pattes, avec des intégrations dans des systèmes comme ANYmal d'ANYbotics. CoCo-InEKF y intègre l'apprentissage machine pour estimer les covariances de contact plutôt que de les fixer heuristiquement, une évolution incrémentale mais utile face aux approches purement géométriques. Les démonstrations restent à ce stade sur un prototype de laboratoire bipède non identifié dans le preprint ; le code n'est pas encore publié, et le transfert vers des plateformes commerciales comme Unitree H1 ou Agility Robotics Digit demandera une validation sur une plus grande diversité de surfaces et de dynamiques.

RecherchePaper
1 source
Estimation simultanée de l'état et apprentissage du modèle en ligne dans un système robotique souple
4arXiv cs.RO 

Estimation simultanée de l'état et apprentissage du modèle en ligne dans un système robotique souple

Des chercheurs proposent, dans une prépublication arXiv (2602.14092v2), une méthode permettant d'estimer simultanément la pose d'un robot souple et d'apprendre en ligne son modèle de rigidité à la flexion, à partir des seules mesures des forces exercées à la base du robot. L'approche repose sur un filtre particulaire marginalisé (marginalized particle filter) interfacé avec un processus gaussien (GP) chargé de modéliser la rigidité en flexion, sans capteurs proprioceptifs distribués le long du corps du robot. Le modèle nominal utilisé est le classique modèle à courbure constante (constant-curvature), réputé simple mais inexact dès que les charges ou les déformations deviennent hétérogènes. La méthode a été validée sur un robot souple physique, et les résultats montrent une réduction mesurable de l'erreur sur les prédictions multi-pas (multi-step forward predictions), signe que le GP appris améliore effectivement la qualité globale du modèle. L'enjeu est de taille pour quiconque cherche à déployer des robots souples dans des contextes industriels ou médicaux : ces systèmes sont intrinsèquement difficiles à modéliser car leur rigidité varie avec la charge, la fatigue du matériau et les conditions environnementales. La majorité des schémas de contrôle prédictif (MPC, par exemple) exigent un modèle précis et stable, condition rarement remplie en pratique. En remplaçant l'hypothèse d'une rigidité constante par un GP appris en temps réel, les auteurs montrent qu'il est possible de réduire le sim-to-real gap sans capteurs supplémentaires ni phase de calibration longue. Cela distingue cette approche des méthodes de marche aléatoire sur les paramètres de rigidité, qui permettent l'estimation mais pas la prédiction. Les robots souples connaissent un regain d'intérêt dans la manipulation de précision, la chirurgie mini-invasive et l'interaction humain-robot, portés notamment par des groupes académiques comme le Soft Robotics Lab de l'ETH Zurich, le CHARM Lab de Stanford ou des acteurs industriels comme Festo (bionic cobotics). Le verrou historique reste la modélisation : un corps déformable infiniment dimensionnel réduit à quelques paramètres discrets. L'identification gray-box, hybride entre modèle physique et apprentissage données, est aujourd'hui l'une des pistes les plus prometteuses pour franchir ce verrou à coût computationnel raisonnable. La prochaine étape naturelle serait d'intégrer cette estimation en boucle fermée dans un contrôleur MPC temps réel et de tester la robustesse sur des charges variables ou des matériaux vieillissants.

UEFesto (Allemagne) et l'ETH Zurich (Suisse) sont explicitement cités comme acteurs clés de la robotique souple ; une meilleure modélisation en ligne bénéficierait directement à leurs programmes de cobotics biologique et de chirurgie mini-invasive.

RecherchePaper
1 source