Aller au contenu principal
Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance
RecherchearXiv cs.RO6sem

Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe du laboratoire elpis-lab publie KiTe, un planificateur cinodynamique qui introduit une formulation par coût terminal pour la planification de mouvements robotiques sous incertitude, soumis sur arXiv en mai 2026. Le travail étend AO-RRT (Asymptotically Optimal Rapidly-exploring Random Trees), l'algorithme de référence en planification cinodynamique, en ajoutant un objectif de qualité de l'état terminal plutôt que de traiter l'atteinte du but comme une contrainte binaire de faisabilité. Les auteurs prouvent formellement que cette extension préserve l'optimalité asymptotique d'AO-RRT. KiTe est ensuite étendu à l'espace de croyance (belief space) : la distance de Wasserstein entre la distribution terminale estimée et l'objectif sert de métrique, dont les auteurs démontrent qu'elle améliore une borne inférieure sur la probabilité d'atteindre la région cible. Pour les systèmes sans modèle analytique d'incertitude, les dynamiques et le bruit de processus sont appris directement depuis les données. Les expériences couvrent Flappy Bird, Car Parking et Planar Pushing en simulation, puis une validation réelle sur poussée planaire, avec des taux de succès supérieurs aux planificateurs de référence dans l'ensemble des configurations testées.

L'enjeu dépasse la démonstration académique : les planificateurs cinodynamiques existants optimisent le coût cumulatif de trajectoire sans modéliser explicitement la qualité de l'état d'arrivée, les rendant fragiles face au bruit capteur, aux erreurs de modèle ou aux dynamiques non linéaires. En formulant la qualité terminale comme objectif à part entière et en intégrant des modèles d'incertitude appris, KiTe adresse directement le gap démonstration-réalité qui freine le déploiement de planificateurs en manipulation non structurée ou en environnement industriel. Pour un ingénieur ou un intégrateur, cela se traduit par des trajectoires plus robustes sans exiger un modèle dynamique parfait du système.

La planification cinodynamique en espace de croyance est un domaine concurrentiel face à des approches comme MPPI (Model Predictive Path Integral), iLQR sous incertitude, ou les planificateurs basés sur des processus gaussiens. AO-RRT, sur lequel KiTe s'appuie, est une référence établie pour la planification à optimalité garantie avec contraintes dynamiques. La contribution de KiTe est à la fois théorique (preuve d'optimalité préservée sous l'objectif augmenté) et pratique (apprentissage des dynamiques depuis les données), avec le code disponible publiquement sur GitHub (elpis-lab/KiTe), ce qui facilite la reproductibilité et l'adoption par la communauté.

Dans nos dossiers

À lire aussi

AURA : algorithme de replanification asymptotiquement optimal et robuste à l'incertitude pour les systèmes kinodynamiques
1arXiv cs.RO 

AURA : algorithme de replanification asymptotiquement optimal et robuste à l'incertitude pour les systèmes kinodynamiques

Une équipe de chercheurs a publié sur arXiv (identifiant 2605.27699) un algorithme de planification de trajectoire en ligne baptisé AURA, pour Asymptotically Optimal Uncertainty-Robust Replanning Algorithm, conçu pour les systèmes kinodynamiques, c'est-à-dire des robots soumis à des contraintes à la fois cinématiques et dynamiques, comme les drones, les systèmes sous-actionnés ou les robots à roues non-holonomes. L'architecture repose sur trois composants parallèles : un thread d'exécution principal, un module de replanification continue qui explore l'espace des états pendant le déplacement du robot, et un processus d'optimisation qui ajuste les commandes futures en temps réel pour réduire l'erreur de suivi. L'approche a été évaluée à la fois en simulation et dans des environnements réels sur plusieurs plateformes robotiques, avec des améliorations rapportées en qualité de trajectoire, précision de suivi et performance globale par rapport aux méthodes de référence. Les chiffres précis ne sont pas détaillés dans le résumé de ce preprint. L'apport principal d'AURA réside dans la combinaison de deux problèmes longtemps traités séparément. Les planificateurs à base d'échantillonnage, comme RRT ou ses variantes asymptotiquement optimales (RRT), offrent des garanties théoriques solides mais fonctionnent classiquement hors-ligne : le robot attend la fin du calcul avant de commencer à se déplacer. Par ailleurs, les perturbations réelles, glissement, imprécision des actionneurs, erreurs de modèle, provoquent des écarts entre la trajectoire planifiée et celle réellement exécutée, problème central du fossé sim-to-real. En fusionnant replanification continue et correction des commandes dans un méta-planificateur unique, AURA cherche à combler cet écart sans renoncer aux garanties d'optimalité asymptotique. Pour les intégrateurs travaillant sur des systèmes à haute dimensionnalité où le MPC classique devient computationnellement coûteux, cette approche offre une piste potentiellement viable pour des déploiements en conditions réelles. Ce travail s'inscrit dans un axe de recherche actif depuis la généralisation de RRT par Karaman et Frazzoli en 2011, qui a relancé l'intérêt pour la planification asymptotiquement optimale en robotique. Plusieurs approches concurrentes visent à rendre ces algorithmes utilisables en ligne, notamment via des variantes anytime ou des hybridations avec le contrôle prédictif par modèle. AURA se positionne comme un cadre générique, applicable à différentes classes de systèmes plutôt qu'à une plateforme spécifique. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenariat commercial annoncé. La soumission à une conférence majeure de robotique, ICRA, IROS ou RSS, constituerait la prochaine étape naturelle pour valider ces résultats auprès de la communauté.

RecherchePaper
1 source
MUSE : quantification multimodale de l'incertitude dans l'estimation d'état
2arXiv cs.RO 

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art. L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie. L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

RecherchePaper
1 source
CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples
3arXiv cs.RO 

CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples

Une équipe de recherche vient de déposer sur arXiv (arXiv:2605.15122, mai 2026) CoCo-InEKF, un filtre de Kalman étendu invariant différentiable pour l'estimation d'état des robots à pattes en mouvement dynamique. La contribution centrale consiste à remplacer les états de contact binaires traditionnels (pied au sol ou non) par des covariances continues de vitesse de contact, calculées par un réseau de neurones léger entraîné de bout en bout via une fonction de perte sur l'erreur d'état. Ce réseau prédit des covariances pour des points candidats de contact prédéfinis, sans nécessiter d'étiquettes manuelles de vérité terrain. Une procédure de sélection automatique de ces points est également proposée, et les auteurs montrent que les résultats sont peu sensibles à leur positionnement exact. Les expériences ont été conduites sur un robot bipède, avec des démonstrations de danse et d'interactions complexes avec le sol, aussi bien en simulation qu'en environnement réel. La distinction entre états de contact binaires et covariances continues touche un verrou technique récurrent de la locomotion dynamique. Les filtres classiques peinent à gérer le contact partiel (un pied posé partiellement sur un obstacle) ou le glissement directionnel (la semelle dérape latéralement tout en maintenant une charge normale). En modulant dynamiquement la confiance accordée à chaque point de contact, CoCo-InEKF produit une meilleure estimation de vitesse linéaire et une consistance de filtre améliorée par rapport aux approches de référence, ce qui conditionne directement la robustesse des mouvements sur terrains complexes. L'absence de labels manuels de contact facilite également le portage vers de nouveaux châssis sans recalibrage supervisé. L'InEKF (filtre de Kalman étendu invariant sur groupes de Lie SE(3)) s'est imposé depuis les travaux du MIT sur le contact-aided InEKF (2019) comme cadre de référence pour l'odométrie des robots à pattes, avec des intégrations dans des systèmes comme ANYmal d'ANYbotics. CoCo-InEKF y intègre l'apprentissage machine pour estimer les covariances de contact plutôt que de les fixer heuristiquement, une évolution incrémentale mais utile face aux approches purement géométriques. Les démonstrations restent à ce stade sur un prototype de laboratoire bipède non identifié dans le preprint ; le code n'est pas encore publié, et le transfert vers des plateformes commerciales comme Unitree H1 ou Agility Robotics Digit demandera une validation sur une plus grande diversité de surfaces et de dynamiques.

RecherchePaper
1 source
Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements
4arXiv cs.RO 

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

Des chercheurs proposent, dans un preprint arXiv soumis début mai 2026 (arXiv:2605.01860), de planifier des trajectoires arborescentes (trajectory-trees) dans l'espace des croyances (belief space) plutôt que les trajectoires séquentielles classiques. Quand un robot évolue en environnement partiellement observable, la trajectoire optimale dépend d'observations futures encore inconnues: les trajectory-trees branchent à chaque point où l'état de croyance est susceptible de diverger en scénarios distincts. Le papier présente deux contributions: un contrôleur prédictif partiellement observable (PO-MPC) à branchement unique, optimisé par un algorithme parallélisé baptisé D-AuLa (Distributed Augmented Lagrangian) conçu pour satisfaire les contraintes temps-réel du MPC; et un planificateur tâche-et-mouvement (PO-LGP) combinant arbres de décision symboliques et trajectory-trees cinématiques, en étendant le cadre Logic-Geometric-Programming (LGP) aux problèmes partiellement observables. Les validations expérimentales portent sur la conduite autonome pour le MPC et des scénarios de manipulation robotique pour le TAMP. L'enjeu industriel est direct: les environnements réels sont rarement entièrement observables. Un bras triant des pièces dont l'orientation n'est connue qu'après préhension, ou un AGV naviguant en zone d'incertitude sensorielle, nécessitent précisément ce type de planification contingente. Les trajectoires séquentielles obligent le robot à choisir un plan unique à l'avance, ce qui se traduit par des comportements sous-optimaux ou des replanifications coûteuses. L'approche PO-MPC réduit les coûts de contrôle en anticipant les branches d'observation possibles; PO-LGP génère des politiques d'exploration utilisables comme macro-actions dans un plan global. D-AuLa répond à l'objection classique contre la planification en espace de croyance: sa complexité computationnelle prohibitive pour le temps-réel, en exploitant la décomposabilité du problème pour paralléliser l'optimisation. Le cadre LGP étendu par ces travaux a été développé par le groupe de Marc Toussaint (TU Berlin), et constitue l'une des approches TAMP les plus rigoureuses pour la manipulation multi-étapes. La planification en POMDP (Partially Observable Markov Decision Processes) est un domaine actif depuis les années 1990, mais son couplage avec le contrôle continu et la planification symbolique reste un défi ouvert. Des approches concurrentes basées sur l'apprentissage par renforcement (notamment les méthodes VLA et politiques diffusion) ou sur des planificateurs sampling-based adressent des problèmes voisins avec des compromis différents en matière de généralisation et de garanties formelles. Les auteurs reconnaissent eux-mêmes que la méthode est validée sur des belief states de taille restreinte et exclusivement en simulation; la prochaine étape naturelle est une validation hardware sur robots réels avec perception embarquée et latences de capteurs.

UELes travaux étendent le cadre LGP développé par le groupe de Marc Toussaint à TU Berlin, consolidant le leadership académique européen en planification tâche-et-mouvement rigoureuse pour la manipulation robotique multi-étapes.

RecherchePaper
1 source