Aller au contenu principal
MUSE : quantification multimodale de l'incertitude dans l'estimation d'état
RecherchearXiv cs.RO6sem

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art.

L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie.

L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

Dans nos dossiers

À lire aussi

Quantification de l'incertitude pour les modèles VLA à base de flux
1arXiv cs.RO 

Quantification de l'incertitude pour les modèles VLA à base de flux

Des chercheurs de la TU Munich ont publié sur arXiv (2606.18043) une méthode pour quantifier l'incertitude des modèles vision-langage-action (VLA) basés sur le flow matching, une classe de modèles qui combine un backbone vision-langage avec une tête génératrice d'actions entraînée sur de larges corpus de données robotiques. Leur approche, baptisée Velocity-Field Disagreement (VFD), exploite le désaccord entre les champs de vitesse d'un petit ensemble de modèles pour estimer l'incertitude épistémique, c'est-à-dire l'incertitude liée au manque de données d'entraînement plutôt qu'au bruit intrinsèque du signal. S'appuyant sur ces estimations, ils proposent SAVE, un cadre d'apprentissage actif multitâche guidé par l'incertitude, validé sur le benchmark LIBERO. Résultat clé : SAVE nécessite au moins 22 % de démonstrations expertes en moins que les baselines pour adapter un VLA à de nouvelles tâches. Ce résultat adresse un problème concret qui freine le déploiement industriel des VLAs : sans mécanisme de confiance, un robot ne sait pas quand il risque d'échouer, ce qui est rédhibitoire dans des environnements non-stationnaires comme une ligne de production évolutive. La détection de défaillance en temps réel qu'offre VFD permettrait d'intégrer un circuit de supervision humain ciblé plutôt que systématique, réduisant directement le coût opérationnel. La réduction de 22 % des démonstrations nécessaires à l'adaptation représente aussi un argument économique fort : collecter des données téléopérées reste la goulot d'étranglement principal du passage à l'échelle des VLAs en production. Les VLAs ont émergé comme paradigme dominant en manipulation robotique depuis les travaux de Physical Intelligence (pi-0, basé sur flow matching), Google DeepMind (RT-2, OpenVLA) et Hugging Face (LeRobot). La limitation identifiée ici -- l'absence de calibration des prédictions -- est connue du secteur mais rarement traitée directement. Le groupe LSY de la TU Munich, spécialisé en apprentissage pour systèmes autonomes, positionne ce travail comme une brique de fiabilité applicable à tout VLA flow-based existant, sans réentraînement complet. Le projet dispose d'un site dédié (tum-lsy.github.io/uq_vla/) et la prochaine étape logique serait une validation sur hardware réel, les expériences actuelles restant confinées au benchmark simulé LIBERO.

UELa TU Munich (institution européenne) publie une brique de fiabilité intégrable dans tout VLA flow-based sans réentraînement complet, ce qui pourrait réduire les coûts de supervision humaine et accélérer le déploiement industriel des VLAs dans les usines européennes.

RechercheOpinion
1 source
Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance
2arXiv cs.RO 

Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance

Une équipe du laboratoire elpis-lab publie KiTe, un planificateur cinodynamique qui introduit une formulation par coût terminal pour la planification de mouvements robotiques sous incertitude, soumis sur arXiv en mai 2026. Le travail étend AO-RRT (Asymptotically Optimal Rapidly-exploring Random Trees), l'algorithme de référence en planification cinodynamique, en ajoutant un objectif de qualité de l'état terminal plutôt que de traiter l'atteinte du but comme une contrainte binaire de faisabilité. Les auteurs prouvent formellement que cette extension préserve l'optimalité asymptotique d'AO-RRT. KiTe est ensuite étendu à l'espace de croyance (belief space) : la distance de Wasserstein entre la distribution terminale estimée et l'objectif sert de métrique, dont les auteurs démontrent qu'elle améliore une borne inférieure sur la probabilité d'atteindre la région cible. Pour les systèmes sans modèle analytique d'incertitude, les dynamiques et le bruit de processus sont appris directement depuis les données. Les expériences couvrent Flappy Bird, Car Parking et Planar Pushing en simulation, puis une validation réelle sur poussée planaire, avec des taux de succès supérieurs aux planificateurs de référence dans l'ensemble des configurations testées. L'enjeu dépasse la démonstration académique : les planificateurs cinodynamiques existants optimisent le coût cumulatif de trajectoire sans modéliser explicitement la qualité de l'état d'arrivée, les rendant fragiles face au bruit capteur, aux erreurs de modèle ou aux dynamiques non linéaires. En formulant la qualité terminale comme objectif à part entière et en intégrant des modèles d'incertitude appris, KiTe adresse directement le gap démonstration-réalité qui freine le déploiement de planificateurs en manipulation non structurée ou en environnement industriel. Pour un ingénieur ou un intégrateur, cela se traduit par des trajectoires plus robustes sans exiger un modèle dynamique parfait du système. La planification cinodynamique en espace de croyance est un domaine concurrentiel face à des approches comme MPPI (Model Predictive Path Integral), iLQR sous incertitude, ou les planificateurs basés sur des processus gaussiens. AO-RRT, sur lequel KiTe s'appuie, est une référence établie pour la planification à optimalité garantie avec contraintes dynamiques. La contribution de KiTe est à la fois théorique (preuve d'optimalité préservée sous l'objectif augmenté) et pratique (apprentissage des dynamiques depuis les données), avec le code disponible publiquement sur GitHub (elpis-lab/KiTe), ce qui facilite la reproductibilité et l'adoption par la communauté.

RecherchePaper
1 source
FUSE : un cadre unifié pour l'estimation d'état dans les systèmes SLAM robotiques
3arXiv cs.RO 

FUSE : un cadre unifié pour l'estimation d'état dans les systèmes SLAM robotiques

Une équipe de chercheurs a publié sur arXiv (référence 2605.18047) FUSE, un cadre logiciel pour l'estimation d'état unifiée dans les systèmes SLAM robotiques. Le problème adressé est structurel : les architectures SLAM à couplage serré lient dans un même bloc monolithique le traitement temporel, l'association géométrique locale, la formulation de l'estimateur et la politique de mise à jour de carte, rendant toute modification d'un composant coûteuse. FUSE propose quatre interfaces standardisées (ingestion d'observations, propagation, mise à jour, requête d'état) pour séparer ces responsabilités. L'instanciation LiDAR-IMU a été évaluée sur une séquence corridor bouclée de 418 m et produit une erreur de trajectoire de 1,626 m bout en bout, soit une réduction relative de 7,9 % par rapport à Faster-LIO, meilleure référence sur cette séquence. Le gain de 7,9 % reste modeste, mais l'intérêt principal de FUSE est architectural. Découpler proprement les choix de conception dans un pipeline SLAM permet de changer l'estimateur, adapter la cadence de mise à jour ou intégrer un nouveau type de capteur sans réarchitecturer l'ensemble du système. Pour les intégrateurs d'AMR ou les équipes de navigation industrielle, cela réduit significativement le coût de portage entre plateformes. La gestion explicite de la dégénérescence directionnelle constitue un point technique concret : en environnement corridor, le LiDAR ne perçoit pas de contraintes suffisantes dans l'axe latéral, rendant l'estimation instable. FUSE intègre un mécanisme de correction adaptatif ciblant ces directions faiblement observables, un problème rarement traité proprement dans les frameworks publics existants. Le SLAM LiDAR-IMU est un domaine très concurrentiel. Les références académiques dominantes incluent FAST-LIO2 et Faster-LIO (équipe Cai, HKUST) ainsi que LIO-SAM (Shan et al., MIT). Dans l'industrie, des fournisseurs comme Exotec (France) ou MiR intègrent des stacks de localisation dérivées de ces travaux dans leurs flottes d'AMR. FUSE ne cherche pas à battre ces systèmes sur les benchmarks de performance pure, mais à proposer une abstraction permettant de composer des composants algorithmiques de façon indépendante. Il s'agit d'une prépublication arXiv sans code public annoncé à ce stade, ce qui en fait pour l'instant une contribution académique à valider plutôt qu'un outil industriel prêt à l'emploi. La suite logique serait une mise à disposition open-source permettant de tester des instanciations alternatives, radar ou RGB-D, à travers les mêmes interfaces standardisées.

UEExotec (France) est cité comme exemple d'intégrateur AMR susceptible de bénéficier de l'abstraction architecturale proposée ; une mise à disposition open-source de FUSE réduirait le coût de portage SLAM pour les équipes de navigation industrielle européennes.

RecherchePaper
1 source
Coordination multirobot pour la planification sous incertitude contextuelle
4arXiv cs.RO 

Coordination multirobot pour la planification sous incertitude contextuelle

Un article de recherche publié sur arXiv (2603.13748v3, version révisée) s'attaque à un problème central pour les flottes de robots mobiles : comment agir efficacement quand la priorité des objectifs dépend d'un contexte opérationnel inconnu au départ. Les auteurs formalisent ce problème sous le nom de MR-CUSSP (Multi-Robot Context-Uncertain Stochastic Shortest Path), un cadre qui modélise la collecte d'informations contextuelles via des observations conjointes prises à des états repères ("landmark states"). Leur solution se décompose en deux étages : CIMOP (Coordinated Inference for Multi-Objective Planning), qui calcule des plans guidant les robots vers ces points informatifs pour inférer rapidement le contexte réel, puis LCBS (Lexicographic Conflict-Based Search), un planificateur multi-robot sans collision qui hiérarchise les objectifs selon l'ordre de préférence induit par ce contexte. L'équipe valide son approche sur trois domaines simulés, puis sur un déploiement physique impliquant cinq robots mobiles dans un scénario appelé "salp domain". L'enjeu pratique est réel pour tout opérateur de flottes robotiques évoluant dans des environnements où les règles du jeu changent selon la situation : un robot logistique en entrepôt, un AMR en usine ou un essaim d'exploration peut avoir des priorités radicalement différentes selon un contexte non observable directement (urgence, présence humaine, type de charge). Agir sur la base d'une hypothèse de contexte erronée peut produire un comportement mal aligné, voire dangereux. Ce travail illustre une tendance de fond en planification multi-robot : coupler explicitement l'inférence active (où aller pour lever l'incertitude) et l'optimisation lexicographique des tâches, plutôt que de traiter ces deux problèmes séparément. C'est un signal utile pour les équipes de recherche en coordination multi-agents, même si la validation physique reste limitée à cinq unités et un scénario contrôlé, loin d'un déploiement industriel à grande échelle. Ce travail s'inscrit dans la lignée des recherches sur la planification de chemins multi-robot sous contrainte (le "Conflict-Based Search" est une famille d'algorithmes bien établie dans ce domaine) et sur la prise de décision séquentielle dans l'incertitude (les Stochastic Shortest Path problems). La contribution spécifique ici est l'ajout d'une dimension de préférences lexicographiques dépendantes du contexte, une brique qui pourrait intéresser des acteurs académiques et industriels travaillant sur des flottes hétérogènes en environnement partiellement observable. Le fait qu'il s'agisse d'une version "replace" sur arXiv suggère un article déjà en révision, potentiellement en vue d'une soumission à une conférence de robotique majeure, sans qu'aucune date de publication définitive ne soit précisée.

RecherchePaper
1 source