Aller au contenu principal
MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS
RecherchearXiv cs.RO1h

MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié MineXplore, un benchmark open-source basé sur MuJoCo pour entraîner des agents d'exploration autonome dans des mines souterraines en environnement GNSS-dénié. L'environnement reconstitue un réseau de tunnels de 104 423 m² à partir du relevé d'une mine de cuivre chilienne (dataset Leung et al., 2017), via un pipeline en six étapes (contour-to-MJCF) générant des sections de galeries octogonales, une géométrie de parois irrégulières issue de données LiDAR, trois zones de friction au sol distinctes, une inclinaison globale de 5 degrés et un éclairage ponctuel périodique. La fidélité géométrique est validée à un IoU de 0,9538 par rapport à la carte de relevé source, et la similarité de texture de surface atteint 79,4 % sur six dimensions structurelles. Un agent PPO entraîné via RLlib sur cinq graines aléatoires indépendantes atteint une couverture roulante maximale de 88,89 %, trois des cinq runs franchissant le seuil cible de 90 %.

L'apport principal est de combler un vide concret dans l'écosystème open-source : aucun benchmark compatible avec les pipelines d'apprentissage accélérés par GPU n'existait pour des environnements miniers souterrains à géométrie réaliste. Les mines constituent des cas extrêmes pour la navigation autonome, sans GNSS, éclairage dégradé, topologie en boucle non convexe, qui mettent en défaut les approches développées en terrain ouvert. La reproductibilité des résultats sur cinq seeds indépendantes valide la stabilité du benchmark pour des comparaisons inter-méthodes rigoureuses, un critère essentiel pour les publications futures. Pour les équipes développant des robots d'inspection ou de cartographie minière, MineXplore réduit le sim-to-real gap dans des environnements où les tests terrain sont coûteux, longs à organiser et potentiellement dangereux.

Le benchmark s'ancre dans des données de terrain réelles plutôt qu'une géométrie synthétique, ce qui lui confère une crédibilité sectorielle plus solide que les environnements procéduraux courants. La communauté avait déjà travaillé le problème souterrain via le challenge DARPA SubT (2019-2021), qui a produit des résultats notables avec des plateformes comme Boston Dynamics Spot ou ANYbotics ANYmal, mais favorisait les architectures modulaires classiques. MineXplore occupe un espace complémentaire, centré explicitement sur l'apprentissage par renforcement et les politiques end-to-end. Les extensions naturelles concernent les scénarios multi-agents, les capteurs additionnels (RGB, thermique) et des topologies de mines plus variées. Le code est disponible publiquement sur arXiv, ce qui devrait accélérer les contributions de la communauté autour de la robotique en milieu confiné.

À lire aussi

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique
1arXiv cs.RO 

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

Une équipe de chercheurs a publié le 23 avril 2026 Web-Gewu (arXiv:2604.17050), une plateforme pédagogique de robotique conçue pour permettre l'entraînement par renforcement (RL) directement depuis un navigateur web, sans installation locale. L'architecture repose sur un modèle cloud-edge-client s'appuyant sur WebRTC : toute la simulation physique et l'entraînement RL sont déportés sur un nœud edge, tandis que le serveur cloud ne joue qu'un rôle de relais de signalisation léger. La communication entre l'apprenant et le nœud de calcul s'effectue en pair-à-pair (P2P), avec une latence bout-en-bout annoncée comme faible, sans que des chiffres précis soient fournis dans le préprint. Les apprenants visualisent en temps réel les courbes de récompense RL et interagissent avec plusieurs formes de robots simulés, le tout via un protocole de communication de commandes prédéfini. L'intérêt de cette approche est structurel : elle attaque directement les deux verrous qui freinent l'enseignement de la robotique incarnée à grande échelle. D'un côté, les solutions cloud centralisées existantes entraînent des coûts GPU et de bande passante prohibitifs pour un déploiement massif en contexte éducatif. De l'autre, le calcul purement local bute sur les limitations matérielles des apprenants, souvent sans GPU dédié. En déplaçant la charge vers un nœud edge mutualisé et en réduisant le cloud à un simple relais, Web-Gewu réduit significativement le coût marginal par apprenant. Pour les institutions qui cherchent à former des ingénieurs au RL appliqué à la robotique, c'est un argument concret, même si la robustesse à l'échelle reste à démontrer hors environnement de laboratoire. Ce travail s'inscrit dans une tendance plus large de démocratisation des outils de simulation robotique, portée notamment par des environnements comme Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google) ou encore Genesis, tous nécessitant des ressources locales ou des accès cloud coûteux. Web-Gewu se positionne dans un créneau différent, celui de la formation et de l'expérimentation accessible, plutôt que de la recherche haute performance. Le code source n'est pas encore public au moment de la soumission, et la plateforme reste au stade de prototype académique avec une instance de démonstration exposée à l'adresse IP indiquée dans le papier. Les prochaines étapes naturelles seraient une évaluation quantitative de la latence, une montée en charge sur plusieurs dizaines d'apprenants simultanés, et une ouverture du code pour permettre un déploiement institutionnel autonome.

RecherchePaper
1 source
Assistax : un benchmark multi-agents accéléré par matériel pour l'apprentissage par renforcement en robotique assistive
2arXiv cs.RO 

Assistax : un benchmark multi-agents accéléré par matériel pour l'apprentissage par renforcement en robotique assistive

Une équipe de chercheurs a publié Assistax, un benchmark open-source dédié à l'apprentissage par renforcement (RL) pour la robotique d'assistance aux personnes. Disponible sur GitHub (assistive-autonomy/assistax), la bibliothèque exploite JAX et l'accélération matérielle GPU pour atteindre des vitesses d'entraînement jusqu'à 370 fois supérieures aux alternatives CPU en temps réel (open-loop wall-clock time) lors de la vectorisation des runs d'entraînement. Le framework modélise l'interaction entre un robot d'assistance et un patient humain actif via l'apprentissage par renforcement multi-agent (MARL) : une population d'agents partenaires aux comportements variés est générée pour évaluer la capacité de coordination zero-shot d'un agent robotique embarqué face à des co-agents inconnus. L'enjeu est à la fois méthodologique et pratique. Les benchmarks RL ont jusqu'ici été dominés par les jeux vidéo et de plateau (Atari, Go), des environnements peu coûteux mais structurellement éloignés des contraintes de l'interaction physique réelle. Assistax comble ce fossé en proposant des scénarios de contrôle continu en simulation physique, représentatifs des défis concrets de la robotique d'assistance : gestion de la variabilité humaine, coordination en temps réel, robustesse à des comportements partenaires non vus à l'entraînement. Pour les équipes R&D développant des robots de soin, des exosquelettes ou des bras manipulateurs de service, le benchmark fournit des baselines fiables sur les algorithmes RL et MARL courants, réduisant le temps de comparaison et de validation algorithmique. Le contexte est celui d'une lacune reconnue dans l'écosystème RL : les environnements physiquement réalistes adaptés aux scénarios humain-robot restent rares et coûteux à exécuter. JAX, développé par Google DeepMind, s'impose progressivement comme infrastructure de référence pour la simulation massivement parallèle, en concurrence avec Isaac Lab (NVIDIA) et les frameworks basés sur MuJoCo. Assistax s'inscrit dans un mouvement plus large de spécialisation des benchmarks, BEHAVIOR, HumanoidBench ou SMPL-based environments ciblent des niches similaires, mais positionne explicitement l'assistance à la personne, segment encore peu couvert. Aucune timeline de déploiement réel n'est annoncée : Assistax reste un outil de recherche académique, et ses gains de vitesse annoncés (370x) méritent d'être contextualisés selon les configurations matérielles et les tâches testées.

UELe benchmark open-source pourrait réduire le temps de validation algorithmique pour les équipes R&D françaises développant des robots d'assistance ou des exosquelettes (Wandercraft, CEA-List), mais aucun acteur européen n'est impliqué directement dans la publication.

RecherchePaper
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
3arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
Exploration planétaire en faible gravité par apprentissage par renforcement : marche, saut et contrôle d'attitude en vol
4arXiv cs.RO 

Exploration planétaire en faible gravité par apprentissage par renforcement : marche, saut et contrôle d'attitude en vol

Des chercheurs ont publié sur arXiv (ref. 2605.24643) un ensemble de politiques d'apprentissage par renforcement conçues pour la locomotion quadrupède dans des conditions de gravité martienne (soit environ 3,72 m/s², contre 9,81 sur Terre). Le robot cible, baptisé Olympus, repose sur une architecture de jambes à mécanisme cinq-barres optimisée pour les sauts dynamiques. Les politiques entraînées couvrent quatre comportements : marche, saut vertical, saut horizontal et contrôle d'attitude en vol. Les résultats annoncés indiquent des sauts verticaux de 3,1 mètres et des sauts horizontaux de 3,9 mètres en simulation, ainsi qu'une réorientation angulaire de 90° en 2,6 secondes, ce dernier résultat ayant été validé sur le robot physique via un test mono-axe. Les politiques de locomotion (marche et saut) restent, elles, exclusivement validées en simulation à ce stade. Ce travail est notable car il aborde un verrou concret de l'exploration planétaire : les rovers à roues actuels (Curiosity, Perseverance) ne peuvent franchir que des obstacles inférieurs à quelques dizaines de centimètres, là où un robot sauteur pourrait en théorie enjamber des blocs de plusieurs mètres. La combinaison saut + reorientation en vol pour des atterrissages contrôlés est une nouveauté architecturale sur quadrupède. Il faut toutefois noter que la majorité des métriques présentées proviennent de simulation, et le gap sim-to-real pour les dynamiques de saut complet reste non résolu expérimentalement, ce que les auteurs reconnaissent explicitement. Dans le paysage de la robotique legged appliquée à l'espace, ce travail s'inscrit dans la continuité des recherches d'ETH Zürich sur ANYmal et des travaux du JPL/NASA sur des concepts de robots sauteurs lunaires. Côté industrie, Boston Dynamics et Unitree fournissent les plateformes quadrupèdes de référence pour la recherche académique, mais aucun d'eux n'est explicitement dimensionné pour la faible gravité. L'ESA et la NASA financent activement des études sur les robots à pattes pour les missions post-2030 sur la Lune et Mars. Les prochaines étapes logiques pour cette équipe sont la validation hardware des politiques de locomotion et de saut complet, et l'évaluation sur terrain analogique (lits de sable, rochers simulés), sans timeline annoncée à ce jour.

UECes travaux s'inscrivent dans le périmètre de financement actif de l'ESA pour les robots à pattes dans les missions lunaires et martiennes post-2030, sans application industrielle immédiate pour l'Europe.

RecherchePaper
1 source