Aller au contenu principal
RecherchearXiv cs.RO1h

Estimation d'état hybride à ordonnancement intelligent (SSH) par EKF-FGO

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.16057) une étude expérimentale portant sur le rôle de la planification des optimisations dans les systèmes hybrides d'estimation d'état pour la robotique. Le framework présenté, appelé SSH EKF-FGO (Smart-Scheduled Hybrid Extended Kalman Filter - Factor Graph Optimization), combine la propagation d'état par filtre de Kalman étendu (EKF), efficace en temps réel, avec des phases d'optimisation par lots déclenchées périodiquement via un graphe de facteurs (FGO). L'originalité de l'approche ne réside pas dans les composants eux-mêmes, mais dans le traitement explicite du calendrier d'optimisation comme variable de conception indépendante, une dimension généralement absente des analyses de la littérature. Les tests ont été conduits en simulation dans un environnement SLAM planaire, avec une structure de solveur et un effort de calcul maintenus constants pour isoler l'effet du seul scheduling.

Les résultats montrent que la fréquence d'invocation de l'optimiseur influence fortement la dérive pré-optimisation, le comportement transitoire de l'erreur et le temps de calcul global. La conclusion centrale est pratique : il existe des régimes de fonctionnement où la majorité des gains de cohérence globale apportés par le FGO peut être conservée en n'activant l'optimiseur qu'à une fraction de sa fréquence maximale, réduisant ainsi substantiellement le coût computationnel. Pour un ingénieur systèmes travaillant sur la localisation embarquée (robot mobile, AGV, drone), cela ouvre une marge de manoeuvre concrète : calibrer le scheduling selon les contraintes de processeur disponible sans sacrifier la précision de trajectoire à long terme.

L'estimation d'état hybride EKF/FGO est un champ actif depuis une décennie, structuré par des frameworks comme GTSAM et g2o côté optimisation, et des filtres classiques côté temps réel. Des systèmes comme Google Cartographer ou SLAM Toolbox s'appuient sur des logiques similaires sans nécessairement formaliser le scheduling comme levier. Ce papier, issu d'un contexte académique non affilié à un industriel identifié, positionne le SSH EKF-FGO comme banc d'essai contrôlé plutôt que comme solution prête à déployer. Les suites naturelles seraient une validation en environnement 3D réel et une exploration d'heuristiques de scheduling adaptatif, par exemple déclenchées par seuil d'incertitude plutôt que par horloge fixe.

Dans nos dossiers

À lire aussi

Architecture hybride intelligente à base de LLM pour l'ordonnancement des tâches robotiques
1arXiv cs.RO 

Architecture hybride intelligente à base de LLM pour l'ordonnancement des tâches robotiques

Une équipe de chercheurs a publié sur arXiv (arXiv:2605.15486, mai 2026) un framework hybride exploitant des grands modèles de langage (LLM) pour orchestrer la planification de tâches de robots de chantier. L'architecture repose sur deux agents LLM fonctionnant en parallèle : un agent générateur basé sur GPT-4 (OpenAI) chargé de produire les séquences de tâches, et un agent superviseur interchangeable parmi Gemma 3 (Google DeepMind), Llama 4 (Meta) ou Mistral 7b, chargé de valider et corriger les plannings générés. Le système intègre une interface en langage naturel (NLP) permettant aux professionnels du bâtiment de communiquer directement leurs contraintes opérationnelles, et peut s'adapter en temps réel à des conditions imprévues sur site. Les résultats sont évalués sur un scénario simplifié avec des métriques quantitatives d'efficacité temporelle et d'utilisation des ressources. L'intérêt principal de cette approche réside dans la combinaison d'un modèle de raisonnement puissant (GPT-4) avec un modèle superviseur plus léger et remplaçable, ce qui réduit potentiellement le coût d'inférence tout en maintenant une validation en boucle fermée. Pour les intégrateurs de robotique dans le BTP, la couche NLP représente une piste concrète pour réduire la dépendance à des opérateurs spécialisés en programmation robot. Cela dit, l'évaluation reste limitée à un scénario dit "straightforward", ce qui ne permet pas de conclure sur la robustesse en conditions réelles de chantier, où la multiplicité des aléas (retards livraison, obstacles, météo) constitue le vrai défi. La validité industrielle de la méthode reste à démontrer à plus grande échelle. La planification automatisée de tâches multi-robots dans la construction est un axe actif depuis plusieurs années, notamment avec les travaux sur les systèmes BIM-to-robot et les AMR (autonomous mobile robots) de chantier. Des acteurs comme Boston Dynamics (avec Spot en inspection), Hilti (robots d'ancrage) ou NLink explorent déjà des formes de programmation par intention. En Europe, des initiatives comme Versatile (projet H2020) ont tracé des pistes similaires. Ce preprint s'inscrit dans une tendance plus large d'utilisation des VLA (Vision-Language-Action models) et des LLM comme couche de planification symbolique au-dessus de robots exécutants, une approche que des laboratoires comme Stanford (Mobile ALOHA) et CMU poussent en parallèle. Les prochaines étapes attendues seraient une validation sur chantier réel et une comparaison formelle entre les différents agents superviseurs testés.

UEApproche potentiellement exploitable par des intégrateurs robotiques européens actifs dans le BTP (Versatile/H2020), mais sans validation sur chantier réel ni déploiement en Europe à ce stade.

RechercheOpinion
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
2arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
MUSE : quantification multimodale de l'incertitude dans l'estimation d'état
3arXiv cs.RO 

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art. L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie. L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

RecherchePaper
1 source
CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples
4arXiv cs.RO 

CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples

Une équipe de recherche vient de déposer sur arXiv (arXiv:2605.15122, mai 2026) CoCo-InEKF, un filtre de Kalman étendu invariant différentiable pour l'estimation d'état des robots à pattes en mouvement dynamique. La contribution centrale consiste à remplacer les états de contact binaires traditionnels (pied au sol ou non) par des covariances continues de vitesse de contact, calculées par un réseau de neurones léger entraîné de bout en bout via une fonction de perte sur l'erreur d'état. Ce réseau prédit des covariances pour des points candidats de contact prédéfinis, sans nécessiter d'étiquettes manuelles de vérité terrain. Une procédure de sélection automatique de ces points est également proposée, et les auteurs montrent que les résultats sont peu sensibles à leur positionnement exact. Les expériences ont été conduites sur un robot bipède, avec des démonstrations de danse et d'interactions complexes avec le sol, aussi bien en simulation qu'en environnement réel. La distinction entre états de contact binaires et covariances continues touche un verrou technique récurrent de la locomotion dynamique. Les filtres classiques peinent à gérer le contact partiel (un pied posé partiellement sur un obstacle) ou le glissement directionnel (la semelle dérape latéralement tout en maintenant une charge normale). En modulant dynamiquement la confiance accordée à chaque point de contact, CoCo-InEKF produit une meilleure estimation de vitesse linéaire et une consistance de filtre améliorée par rapport aux approches de référence, ce qui conditionne directement la robustesse des mouvements sur terrains complexes. L'absence de labels manuels de contact facilite également le portage vers de nouveaux châssis sans recalibrage supervisé. L'InEKF (filtre de Kalman étendu invariant sur groupes de Lie SE(3)) s'est imposé depuis les travaux du MIT sur le contact-aided InEKF (2019) comme cadre de référence pour l'odométrie des robots à pattes, avec des intégrations dans des systèmes comme ANYmal d'ANYbotics. CoCo-InEKF y intègre l'apprentissage machine pour estimer les covariances de contact plutôt que de les fixer heuristiquement, une évolution incrémentale mais utile face aux approches purement géométriques. Les démonstrations restent à ce stade sur un prototype de laboratoire bipède non identifié dans le preprint ; le code n'est pas encore publié, et le transfert vers des plateformes commerciales comme Unitree H1 ou Agility Robotics Digit demandera une validation sur une plus grande diversité de surfaces et de dynamiques.

RecherchePaper
1 source