Aller au contenu principal
Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms
RecherchearXiv cs.RO6sem

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2504.16509) une architecture transformer entraînée par apprentissage par renforcement, spécifiquement l'algorithme PPO (Proximal Policy Optimization), pour élaguer dynamiquement les graphes de planification utilisés dans les algorithmes d'exploration robotique. Le système cible les graphes RRT (Rapidly Exploring Random Trees) employés dans l'exploration par frontières, une méthode classique où un robot identifie les limites entre zones cartographiées et inconnues pour piloter sa navigation. En simulation, le framework réduit la taille des graphes jusqu'à 96 % sans intervention humaine, en prenant des décisions de suppression de nœuds en temps réel pendant que le robot explore son environnement.

L'intérêt opérationnel est direct : dans les systèmes d'exploration autonome longue durée, entrepôts, sites industriels, bâtiments en intervention d'urgence, les graphes de planification grossissent de façon non bornée et dégradent les performances au fil du temps, forçant soit des redémarrages, soit des architectures mémoire coûteuses. Ici, la politique apprise parvient à associer des décisions locales d'élagage à des résultats d'exploration globaux malgré un signal de récompense rare et retardé, ce qui constitue le résultat le plus difficile à obtenir en RL appliqué à la planification. En contrepartie, le taux d'exploration moyen est légèrement inférieur aux baselines non élagués, mais l'écart-type de couverture est le plus bas observé : le robot explore moins vite, mais de façon nettement plus prévisible d'un environnement à l'autre, un critère souvent plus pertinent en déploiement industriel que la vitesse brute.

La sparsification de graphes dynamiques est un problème connu en SLAM et planification de mouvement, traditionnellement traité par des heuristiques géométriques ou des seuils fixes. Appliquer du RL à cette couche basse de la pile robotique est, selon les auteurs, une première. Le travail reste à ce stade une preuve de concept en simulation, sans validation sur hardware réel ni comparaison avec des systèmes commerciaux comme les AMR de MiR, Fetch Robotics ou Exotec. Les prochaines étapes naturelles seraient un transfert sim-to-real et une évaluation sur des graphes issus de LiDAR 3D, contexte dans lequel la croissance exponentielle des graphes est particulièrement problématique.

Dans nos dossiers

À lire aussi

AURA : algorithme de replanification asymptotiquement optimal et robuste à l'incertitude pour les systèmes kinodynamiques
1arXiv cs.RO 

AURA : algorithme de replanification asymptotiquement optimal et robuste à l'incertitude pour les systèmes kinodynamiques

Une équipe de chercheurs a publié sur arXiv (identifiant 2605.27699) un algorithme de planification de trajectoire en ligne baptisé AURA, pour Asymptotically Optimal Uncertainty-Robust Replanning Algorithm, conçu pour les systèmes kinodynamiques, c'est-à-dire des robots soumis à des contraintes à la fois cinématiques et dynamiques, comme les drones, les systèmes sous-actionnés ou les robots à roues non-holonomes. L'architecture repose sur trois composants parallèles : un thread d'exécution principal, un module de replanification continue qui explore l'espace des états pendant le déplacement du robot, et un processus d'optimisation qui ajuste les commandes futures en temps réel pour réduire l'erreur de suivi. L'approche a été évaluée à la fois en simulation et dans des environnements réels sur plusieurs plateformes robotiques, avec des améliorations rapportées en qualité de trajectoire, précision de suivi et performance globale par rapport aux méthodes de référence. Les chiffres précis ne sont pas détaillés dans le résumé de ce preprint. L'apport principal d'AURA réside dans la combinaison de deux problèmes longtemps traités séparément. Les planificateurs à base d'échantillonnage, comme RRT ou ses variantes asymptotiquement optimales (RRT), offrent des garanties théoriques solides mais fonctionnent classiquement hors-ligne : le robot attend la fin du calcul avant de commencer à se déplacer. Par ailleurs, les perturbations réelles, glissement, imprécision des actionneurs, erreurs de modèle, provoquent des écarts entre la trajectoire planifiée et celle réellement exécutée, problème central du fossé sim-to-real. En fusionnant replanification continue et correction des commandes dans un méta-planificateur unique, AURA cherche à combler cet écart sans renoncer aux garanties d'optimalité asymptotique. Pour les intégrateurs travaillant sur des systèmes à haute dimensionnalité où le MPC classique devient computationnellement coûteux, cette approche offre une piste potentiellement viable pour des déploiements en conditions réelles. Ce travail s'inscrit dans un axe de recherche actif depuis la généralisation de RRT par Karaman et Frazzoli en 2011, qui a relancé l'intérêt pour la planification asymptotiquement optimale en robotique. Plusieurs approches concurrentes visent à rendre ces algorithmes utilisables en ligne, notamment via des variantes anytime ou des hybridations avec le contrôle prédictif par modèle. AURA se positionne comme un cadre générique, applicable à différentes classes de systèmes plutôt qu'à une plateforme spécifique. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenariat commercial annoncé. La soumission à une conférence majeure de robotique, ICRA, IROS ou RSS, constituerait la prochaine étape naturelle pour valider ces résultats auprès de la communauté.

RecherchePaper
1 source
Formulation sur les groupes de Lie pour les algorithmes de dynamique récursive d'ordre supérieur des robots à base flottante
2arXiv cs.RO 

Formulation sur les groupes de Lie pour les algorithmes de dynamique récursive d'ordre supérieur des robots à base flottante

Des chercheurs ont publié en mai 2026 sur arXiv (réf. 2605.06498) une formulation unifiée basée sur les groupes de Lie permettant de calculer les dérivées temporelles d'ordre supérieur des principaux algorithmes de dynamique pour robots à base flottante. Les méthodes couvertes incluent l'algorithme de Newton-Euler récursif, l'inertie du corps articulé (ABI) et la dynamique hybride, dans un cadre où la base évolue sur SE(3) et le mécanisme attaché est une arborescence cinématique ouverte de configuration sur T^n1 x R^n2. Appliqués à un manipulateur aérien à 12 degrés de liberté (DoF), les algorithmes produisent des expressions analytiques closes pour la dynamique directe et inverse géométrique ainsi que leurs premières dérivées temporelles, avec des simulations numériques validant la méthode jusqu'au 5e ordre de dérivation. L'apport central de ce travail est d'ordre computationnel : les auteurs montrent que le coût de calcul de leurs récursions scale quadratiquement avec l'ordre de dérivation, là où la différentiation automatique (AD) mise en oeuvre via des frameworks courants comme JAX, PyTorch ou CasADi exhibe un scaling exponentiel. Pour les équipes travaillant en commande prédictive (MPC) ou en optimisation de trajectoire pour robots articulés à base libre (drones manipulateurs, humanoïdes sans appui fixe), cette différence de scaling devient critique dès le 3e ou 4e ordre. Les auteurs identifient également une matrice de Coriolis admissible satisfaisant la propriété de passivité, garantie importante pour la synthèse de lois de commande stables, et établissent que le tenseur d'inertie articulé reste invariant à travers toutes les dérivées temporelles, résultat géométriquement non trivial. Ce papier s'inscrit dans une tradition de dynamique spatiale initiée par Featherstone et prolongée notamment par la librairie Pinocchio, développée au LAAS-CNRS (équipe Gepetto, Toulouse), qui implémente déjà des dérivées du premier et second ordre via représentation de Lie. Cette contribution étend explicitement ce cadre aux ordres arbitraires, ouvrant des perspectives pour les méthodes de shooting multiple d'ordre élevé et les approches de sensibilité paramétrique en co-optimisation robot/contrôleur. Les applications directes visées concernent la planification de mouvement pour drones à bras articulés, un segment en croissance rapide dans la logistique et l'inspection industrielle, ainsi que potentiellement les humanoïdes à base flottante dont la dynamique est formellement identique.

UECette contribution étend directement le cadre de la bibliothèque Pinocchio, développée par l'équipe Gepetto du LAAS-CNRS (Toulouse), renforçant le leadership de la recherche française en dynamique robotique différentiable et ouvrant des perspectives concrètes pour les équipes R&D européennes travaillant sur le MPC et l'optimisation de trajectoire pour humanoïdes et drones manipulateurs.

RecherchePaper
1 source
Exploration multi-étages pour robots terrestres via un graphe atteignable incrémental et des priors structurels
3arXiv cs.RO 

Exploration multi-étages pour robots terrestres via un graphe atteignable incrémental et des priors structurels

Des chercheurs ont publié sur arXiv (réf. 2605.23350) un framework d'exploration autonome multi-étages pour robots terrestres, baptisé "incremental reachable graph". Le problème adressé est concret : les cartes 2D et 2.5D classiques, qui constituent la base de la quasi-totalité des systèmes SLAM embarqués aujourd'hui, sont incapables de représenter des surfaces traversables superposées comme les escaliers, les rampes ou les paliers intermédiaires. La méthode propose de construire un graphe clairsemé sur les surfaces d'appui atteignables, avec des éléments "tentatives" permettant de maintenir une connectivité plausible même en conditions d'observation sparse. Pour franchir un étage inexploré, le système projette des "task-zone priors" depuis le niveau déjà cartographié afin d'initialiser un graphe hypothétique sur l'étage cible, puis le réconcilie progressivement avec les observations réelles. Un planificateur hiérarchique raisonne ensuite conjointement sur les structures confirmées et hypothétiques pour guider l'exploration globale. Les expériences rapportées combinent simulation et validation embarquée en conditions réelles, avec des gains mesurés en efficacité d'exploration et en complétude de cartographie face aux baselines évaluées. L'enjeu industriel est direct pour les intégrateurs d'AMR (Autonomous Mobile Robots) opérant dans des environnements multi-niveaux : entrepôts à mezzanines, hôpitaux, usines avec niveaux de production distincts. La majorité des flottes commerciales actuelles, y compris celles de MiR, Locus Robotics ou Exotec, restent confinées à un seul niveau ou nécessitent une cartographie manuelle de chaque étage. Un système capable d'auto-explorer et de transférer des connaissances topologiques entre niveaux réduirait significativement le coût de déploiement initial. La contribution théorique clé est la notion de graphe hypothétique initialisé par prior structurel, qui évite le problème classique de l'exploration "à l'aveugle" d'un étage inconnu. Cette problématique de navigation multi-étages est étudiée depuis une dizaine d'années, notamment via les cartes d'élévation 2.5D et les volumes OctoMap 3D, mais ces approches peinent à produire des frontières d'exploration exploitables dans des environnements cloisonnés. Le preprint ne mentionne pas d'affiliation institutionnelle explicite dans l'abstract disponible, ni de plateforme robotique précise utilisée pour les tests réels. Il s'agit à ce stade d'un résultat de recherche, pas d'un système commercialisé ou en pilote industriel. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes comme Spot (Boston Dynamics) ou des robots à roues avec capacité de franchissement d'escaliers, un segment encore émergent sur lequel des acteurs comme ANYbotics ou Ascento positionnent leurs offres.

UEImpact indirect : la problématique adressée concerne des opérateurs AMR comme Exotec dont les flottes restent aujourd'hui confinées à un seul niveau, mais le travail reste un preprint sans affiliation ou partenariat européen identifié.

RecherchePaper
1 source
Planification par scénarios conjecturaux sensibles au risque pour la navigation robotique dynamique et sûre
4arXiv cs.RO 

Planification par scénarios conjecturaux sensibles au risque pour la navigation robotique dynamique et sûre

Des chercheurs ont publié sur arXiv (preprint 2605.26348, mai 2026) une nouvelle couche de planification baptisée RCSP (Risk-Sensitive Conjectural Scenario Planning), conçue pour les robots mobiles évoluant dans des environnements à obstacles dynamiques. L'algorithme s'attaque à un problème précis, peu formalisé jusqu'ici : un robot peut se trouver dans une trajectoire localement sûre tout en s'engageant irrévocablement vers une configuration où des obstacles mobiles fermeront le passage avant qu'il ne puisse réagir. RCSP maintient une distribution probabiliste sur des conjectures de mouvements locaux, échantillonne des futurs d'interaction à horizon court, pénalise les queues de distribution à risque élevé, puis délègue l'exécution à une couche de sécurité locale. Les tests ont été conduits dans trois environnements : des goulots d'étranglement simulés sous MuJoCo, un empilement ROS2/Gazebo avec la pile Nav2 standard, et le benchmark DynaBARN sur la plateforme Jackal. Dans MuJoCo, RCSP atteint l'objectif sans collision et améliore les métriques de sécurité secondaire et de qualité de trajectoire par rapport à un prédicteur non adaptatif, mais au prix d'une latence accrue. Dans le setup Nav2, la couche RCSP réduit les quasi-collisions dynamiques. Sur le benchmark officiel DynaBARN, en revanche, les planificateurs classiques optimisés DWA (Dynamic Window Approach) et TEB (Timed Elastic Band) conservent un avantage net en taux de succès strict. Ce travail aborde un angle mort réel de la navigation en environnement industriel dynamique : la plupart des architectures de planification réactives raisonnent sur la sécurité instantanée, sans modéliser l'engagement dans le futur. Pour les intégrateurs d'AMR en entrepôt ou en usine, où des opérateurs humains ou d'autres robots traversent des couloirs étroits, ce "problème de quasi-collision prédicative" se traduit par des arrêts d'urgence non planifiés ou des collisions lentes. L'architecture modulaire de RCSP, greffable sur une pile Nav2 existante sans remplacer le planificateur de base, réduit le coût d'intégration. Les résultats mitigés sur DynaBARN sont significatifs : ils indiquent que l'approche probabiliste apporte une valeur dans des régimes de goulot d'étranglement dynamique spécifiques, mais ne surpasse pas encore des planificateurs classiques bien calibrés sur des benchmarks génériques, ce qui délimite honnêtement le domaine d'application. La navigation dynamique pour robots mobiles est un espace de recherche dense, où s'affrontent des méthodes classiques comme DWA et TEB, des approches par apprentissage par renforcement, et des planificateurs à base de champs de potentiel. RCSP se positionne explicitement comme un module complémentaire plutôt qu'un remplacement, ce qui facilite son adoption potentielle dans l'écosystème ROS2/Nav2 utilisé par la majorité des intégrateurs. Les résultats restent à ce stade entièrement simulés, sans validation sur hardware réel ni déploiement en production annoncé. Les prochaines étapes naturelles incluent des tests sur plateforme physique dans des environnements non contrôlés et une évaluation des performances en latence sur hardware embarqué contraint.

UELes intégrateurs européens d'AMR utilisant la pile Nav2/ROS2 pourraient à terme bénéficier de ce module pour réduire les quasi-collisions en environnements dynamiques, mais aucun acteur FR/EU n'est impliqué et les résultats restent entièrement simulés.

RecherchePaper
1 source