RecherchearXiv cs.RO 4 juin 2026

MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié MineXplore, un benchmark open-source basé sur MuJoCo pour entraîner des agents d'exploration autonome dans des mines souterraines en environnement GNSS-dénié. L'environnement reconstitue un réseau de tunnels de 104 423 m² à partir du relevé d'une mine de cuivre chilienne (dataset Leung et al., 2017), via un pipeline en six étapes (contour-to-MJCF) générant des sections de galeries octogonales, une géométrie de parois irrégulières issue de données LiDAR, trois zones de friction au sol distinctes, une inclinaison globale de 5 degrés et un éclairage ponctuel périodique. La fidélité géométrique est validée à un IoU de 0,9538 par rapport à la carte de relevé source, et la similarité de texture de surface atteint 79,4 % sur six dimensions structurelles. Un agent PPO entraîné via RLlib sur cinq graines aléatoires indépendantes atteint une couverture roulante maximale de 88,89 %, trois des cinq runs franchissant le seuil cible de 90 %.

L'apport principal est de combler un vide concret dans l'écosystème open-source : aucun benchmark compatible avec les pipelines d'apprentissage accélérés par GPU n'existait pour des environnements miniers souterrains à géométrie réaliste. Les mines constituent des cas extrêmes pour la navigation autonome, sans GNSS, éclairage dégradé, topologie en boucle non convexe, qui mettent en défaut les approches développées en terrain ouvert. La reproductibilité des résultats sur cinq seeds indépendantes valide la stabilité du benchmark pour des comparaisons inter-méthodes rigoureuses, un critère essentiel pour les publications futures. Pour les équipes développant des robots d'inspection ou de cartographie minière, MineXplore réduit le sim-to-real gap dans des environnements où les tests terrain sont coûteux, longs à organiser et potentiellement dangereux.

Le benchmark s'ancre dans des données de terrain réelles plutôt qu'une géométrie synthétique, ce qui lui confère une crédibilité sectorielle plus solide que les environnements procéduraux courants. La communauté avait déjà travaillé le problème souterrain via le challenge DARPA SubT (2019-2021), qui a produit des résultats notables avec des plateformes comme Boston Dynamics Spot ou ANYbotics ANYmal, mais favorisait les architectures modulaires classiques. MineXplore occupe un espace complémentaire, centré explicitement sur l'apprentissage par renforcement et les politiques end-to-end. Les extensions naturelles concernent les scénarios multi-agents, les capteurs additionnels (RGB, thermique) et des topologies de mines plus variées. Le code est disponible publiquement sur arXiv, ce qui devrait accélérer les contributions de la communauté autour de la robotique en milieu confiné.

Dans nos dossiers

Boston Dynamics arXiv cs.RO

À lire aussi

1arXiv cs.RO

Directives d'exploration efficace dans l'apprentissage par renforcement sûr

Ce papier de recherche, publié sur arXiv le 15 juillet 2026, présente ATACOM Directional Constraints (ATACOM-DC), une extension du framework ATACOM (safety layer) destinée à l'apprentissage par renforcement sûr pour la robotique. Le problème de départ est connu du secteur : en simulation, le RL permet d'apprendre des comportements robotiques complexes, mais un déploiement réel en environnement ouvert exige des garanties de sécurité fortes pour éviter tout geste dangereux. Les méthodes de Safe RL existantes imposent des contraintes de sécurité issues de la connaissance du système ou apprises depuis les données, mais cette contrainte ralentit généralement l'apprentissage et dégrade les performances de la tâche, l'agent devant résoudre un problème d'optimisation contraint plus complexe qu'en configuration non contrainte. L'innovation proposée introduit des contraintes directionnelles qui distinguent les actions s'approchant d'une frontière de sécurité de celles qui s'en éloignent, n'activant l'enforcement de la contrainte que lorsque c'est réellement nécessaire. Les auteurs évaluent leur méthode sur plusieurs tâches de contrôle robotique complexes en simulation, en mesurant à la fois le coût de violation des contraintes et les performances de tâche obtenues. Code et matériel supplémentaire disponibles sur atacom-dc.robot-learning.net. Pour l'industrie robotique, l'enjeu dépasse la seule performance académique : le compromis sécurité/performance est justement ce qui bloque aujourd'hui le passage de nombreux systèmes RL de la simulation au déploiement réel, notamment pour des bras manipulateurs ou des robots mobiles opérant en environnement humain. Une méthode qui réduit ce compromis sans sacrifier les garanties de sécurité intéresse directement les intégrateurs et les équipes R&D qui cherchent à industrialiser des politiques apprises plutôt que programmées à la main. Cela dit, il s'agit ici de résultats en simulation uniquement, sur un ensemble de tâches de contrôle choisies par les auteurs, sans validation sur robot physique ni déploiement industriel : le gap sim-to-real reste entier, et la portée réelle du gain de performance annoncé demande à être confirmée hors laboratoire. ATACOM-DC s'inscrit dans la lignée d'ATACOM, une safety layer déjà reconnue comme référence pour intégrer des contraintes de sécurité à des algorithmes de RL existants sans les reconcevoir entièrement. Le positionnement se fait ainsi moins face à des concurrents commerciaux que face aux autres approches académiques de Safe RL, généralement critiquées pour leur coût en vitesse d'apprentissage. Aucun acteur français ou européen n'est associé à ces travaux. Les auteurs annoncent la mise à disposition du code et de matériel complémentaire en ligne, ce qui ouvre la voie à une reproduction et une extension par d'autres équipes de recherche en robotique et RL sûr, sans toutefois qu'un calendrier de tests sur systèmes réels ne soit mentionné à ce stade.

RecherchePaper

1 source

2arXiv cs.RO

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

Une équipe de chercheurs a publié le 23 avril 2026 Web-Gewu (arXiv:2604.17050), une plateforme pédagogique de robotique conçue pour permettre l'entraînement par renforcement (RL) directement depuis un navigateur web, sans installation locale. L'architecture repose sur un modèle cloud-edge-client s'appuyant sur WebRTC : toute la simulation physique et l'entraînement RL sont déportés sur un nœud edge, tandis que le serveur cloud ne joue qu'un rôle de relais de signalisation léger. La communication entre l'apprenant et le nœud de calcul s'effectue en pair-à-pair (P2P), avec une latence bout-en-bout annoncée comme faible, sans que des chiffres précis soient fournis dans le préprint. Les apprenants visualisent en temps réel les courbes de récompense RL et interagissent avec plusieurs formes de robots simulés, le tout via un protocole de communication de commandes prédéfini. L'intérêt de cette approche est structurel : elle attaque directement les deux verrous qui freinent l'enseignement de la robotique incarnée à grande échelle. D'un côté, les solutions cloud centralisées existantes entraînent des coûts GPU et de bande passante prohibitifs pour un déploiement massif en contexte éducatif. De l'autre, le calcul purement local bute sur les limitations matérielles des apprenants, souvent sans GPU dédié. En déplaçant la charge vers un nœud edge mutualisé et en réduisant le cloud à un simple relais, Web-Gewu réduit significativement le coût marginal par apprenant. Pour les institutions qui cherchent à former des ingénieurs au RL appliqué à la robotique, c'est un argument concret, même si la robustesse à l'échelle reste à démontrer hors environnement de laboratoire. Ce travail s'inscrit dans une tendance plus large de démocratisation des outils de simulation robotique, portée notamment par des environnements comme Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google) ou encore Genesis, tous nécessitant des ressources locales ou des accès cloud coûteux. Web-Gewu se positionne dans un créneau différent, celui de la formation et de l'expérimentation accessible, plutôt que de la recherche haute performance. Le code source n'est pas encore public au moment de la soumission, et la plateforme reste au stade de prototype académique avec une instance de démonstration exposée à l'adresse IP indiquée dans le papier. Les prochaines étapes naturelles seraient une évaluation quantitative de la latence, une montée en charge sur plusieurs dizaines d'apprenants simultanés, et une ouverture du code pour permettre un déploiement institutionnel autonome.

RecherchePaper

1 source

3arXiv cs.RO

Assistax : un benchmark multi-agents accéléré par matériel pour l'apprentissage par renforcement en robotique assistive

Une équipe de chercheurs a publié Assistax, un benchmark open-source dédié à l'apprentissage par renforcement (RL) pour la robotique d'assistance aux personnes. Disponible sur GitHub (assistive-autonomy/assistax), la bibliothèque exploite JAX et l'accélération matérielle GPU pour atteindre des vitesses d'entraînement jusqu'à 370 fois supérieures aux alternatives CPU en temps réel (open-loop wall-clock time) lors de la vectorisation des runs d'entraînement. Le framework modélise l'interaction entre un robot d'assistance et un patient humain actif via l'apprentissage par renforcement multi-agent (MARL) : une population d'agents partenaires aux comportements variés est générée pour évaluer la capacité de coordination zero-shot d'un agent robotique embarqué face à des co-agents inconnus. L'enjeu est à la fois méthodologique et pratique. Les benchmarks RL ont jusqu'ici été dominés par les jeux vidéo et de plateau (Atari, Go), des environnements peu coûteux mais structurellement éloignés des contraintes de l'interaction physique réelle. Assistax comble ce fossé en proposant des scénarios de contrôle continu en simulation physique, représentatifs des défis concrets de la robotique d'assistance : gestion de la variabilité humaine, coordination en temps réel, robustesse à des comportements partenaires non vus à l'entraînement. Pour les équipes R&D développant des robots de soin, des exosquelettes ou des bras manipulateurs de service, le benchmark fournit des baselines fiables sur les algorithmes RL et MARL courants, réduisant le temps de comparaison et de validation algorithmique. Le contexte est celui d'une lacune reconnue dans l'écosystème RL : les environnements physiquement réalistes adaptés aux scénarios humain-robot restent rares et coûteux à exécuter. JAX, développé par Google DeepMind, s'impose progressivement comme infrastructure de référence pour la simulation massivement parallèle, en concurrence avec Isaac Lab (NVIDIA) et les frameworks basés sur MuJoCo. Assistax s'inscrit dans un mouvement plus large de spécialisation des benchmarks, BEHAVIOR, HumanoidBench ou SMPL-based environments ciblent des niches similaires, mais positionne explicitement l'assistance à la personne, segment encore peu couvert. Aucune timeline de déploiement réel n'est annoncée : Assistax reste un outil de recherche académique, et ses gains de vitesse annoncés (370x) méritent d'être contextualisés selon les configurations matérielles et les tâches testées.

UELe benchmark open-source pourrait réduire le temps de validation algorithmique pour les équipes R&D françaises développant des robots d'assistance ou des exosquelettes (Wandercraft, CEA-List), mais aucun acteur européen n'est impliqué directement dans la publication.

RecherchePaper

1 source

4arXiv cs.RO

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08610) HARBOR, un framework agentique conçu pour automatiser les pipelines d'apprentissage par renforcement (RL) appliqués à la robotique. Partant d'une spécification de tâche et d'une base de code simulateur, le système prend en charge l'ensemble du workflow : configuration de l'environnement, conception des fonctions de récompense, entraînement de la politique et tuning des hyperparamètres. HARBOR décompose ces objectifs de haut niveau en étapes bornées confiées à des agents spécialisés, coordonnés via des commandes standardisées, des artefacts persistants et des portes d'exécution vérifiables. Il scale l'itération par essais parallèles décentralisés et capitalise sur l'expérience accumulée entre les runs. Le framework a été évalué sur 6 benchmarks couvrant 16 tâches de manipulation, locomotion et contrôle bimanuel dextère. Les politiques entraînées en simulation ont ensuite été transférées sur de vrais robots. L'intérêt principal de HARBOR tient à ce qu'il attaque directement le principal frein à l'adoption du RL en robotique industrielle : la charge d'ingénierie experte requise pour chaque nouvelle tâche. Reward shaping, sélection d'algorithmes, tuning fin des hyperparamètres représentent aujourd'hui des semaines de travail spécialisé avant d'obtenir une politique viable. En automatisant ce cycle de bout en bout à un coût pratique en tokens et en temps de calcul, HARBOR abaisse concrètement la barrière d'entrée pour les intégrateurs et les équipes R&D industrielles. Le fait que les politiques se transfèrent au robot réel adresse le "sim-to-real gap", un verrou persistant du secteur. Les résultats publiés indiquent que le framework égale ou surpasse les configurations par défaut sur les benchmarks testés, bien que les conditions exactes d'évaluation méritent d'être examinées dans le papier complet avant d'en tirer des conclusions généralisées. HARBOR s'inscrit dans une tendance émergente qui consiste à utiliser des LLMs comme orchestrateurs de pipelines ML complexes, dans la lignée de travaux comme Eureka (NVIDIA, 2023), qui utilisait GPT-4 pour générer automatiquement des reward functions via evolutionary search, ou des approches AutoRL de Berkeley et Google DeepMind. HARBOR semble aller plus loin en couvrant l'intégralité du workflow plutôt que le seul reward design. Les auteurs ne sont pas identifiés dans l'abstract disponible, et aucune affiliation institutionnelle ni application industrielle spécifique n'est mentionnée : il s'agit d'un preprint de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles concerneront l'intégration avec des simulateurs standards (Isaac Sim, MuJoCo), des validations sur des plateformes humanoïdes complexes, et une éventuelle ouverture du code.

RecherchePaper

1 source