Aller au contenu principal
RecherchearXiv cs.RO2h

Exploration multi-étages pour robots terrestres via un graphe atteignable incrémental et des priors structurels

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2605.23350) un framework d'exploration autonome multi-étages pour robots terrestres, baptisé "incremental reachable graph". Le problème adressé est concret : les cartes 2D et 2.5D classiques, qui constituent la base de la quasi-totalité des systèmes SLAM embarqués aujourd'hui, sont incapables de représenter des surfaces traversables superposées comme les escaliers, les rampes ou les paliers intermédiaires. La méthode propose de construire un graphe clairsemé sur les surfaces d'appui atteignables, avec des éléments "tentatives" permettant de maintenir une connectivité plausible même en conditions d'observation sparse. Pour franchir un étage inexploré, le système projette des "task-zone priors" depuis le niveau déjà cartographié afin d'initialiser un graphe hypothétique sur l'étage cible, puis le réconcilie progressivement avec les observations réelles. Un planificateur hiérarchique raisonne ensuite conjointement sur les structures confirmées et hypothétiques pour guider l'exploration globale. Les expériences rapportées combinent simulation et validation embarquée en conditions réelles, avec des gains mesurés en efficacité d'exploration et en complétude de cartographie face aux baselines évaluées.

L'enjeu industriel est direct pour les intégrateurs d'AMR (Autonomous Mobile Robots) opérant dans des environnements multi-niveaux : entrepôts à mezzanines, hôpitaux, usines avec niveaux de production distincts. La majorité des flottes commerciales actuelles, y compris celles de MiR, Locus Robotics ou Exotec, restent confinées à un seul niveau ou nécessitent une cartographie manuelle de chaque étage. Un système capable d'auto-explorer et de transférer des connaissances topologiques entre niveaux réduirait significativement le coût de déploiement initial. La contribution théorique clé est la notion de graphe hypothétique initialisé par prior structurel, qui évite le problème classique de l'exploration "à l'aveugle" d'un étage inconnu.

Cette problématique de navigation multi-étages est étudiée depuis une dizaine d'années, notamment via les cartes d'élévation 2.5D et les volumes OctoMap 3D, mais ces approches peinent à produire des frontières d'exploration exploitables dans des environnements cloisonnés. Le preprint ne mentionne pas d'affiliation institutionnelle explicite dans l'abstract disponible, ni de plateforme robotique précise utilisée pour les tests réels. Il s'agit à ce stade d'un résultat de recherche, pas d'un système commercialisé ou en pilote industriel. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes comme Spot (Boston Dynamics) ou des robots à roues avec capacité de franchissement d'escaliers, un segment encore émergent sur lequel des acteurs comme ANYbotics ou Ascento positionnent leurs offres.

Impact France/UE

Impact indirect : la problématique adressée concerne des opérateurs AMR comme Exotec dont les flottes restent aujourd'hui confinées à un seul niveau, mais le travail reste un preprint sans affiliation ou partenariat européen identifié.

À lire aussi

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs
1arXiv cs.RO 

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (arXiv:2605.18611) un framework d'apprentissage par renforcement unifié permettant à un seul contrôleur de faire marcher, courir et se relever après une chute le robot humanoïde Unitree G1, sans commande explicite de changement de mode au déploiement. L'approche étend les Adversarial Motion Priors (AMP) en remplaçant la distribution de référence globale par un mécanisme de routage conditionné à l'état : un seuil fixe sur la gravité projetée (|gz+1| > 0,6, soit environ 37° d'inclinaison du torse par rapport à la verticale) aiguille chaque transition d'entraînement soit vers un discriminateur dédié à la récupération, soit vers un discriminateur de locomotion conditionné par la vitesse commandée, qui couvre à la fois la marche et la course. Seuls trois clips de motion capture extraits du jeu de données LAFAN1 sont nécessaires pour régulariser l'ensemble du comportement. Sur hardware réel, la politique tourne à 50 Hz sous forme d'un fichier ONNX figé, sans aucune logique de mode à l'exécution, et valide des relevés réussis depuis les positions ventrale et dorsale ainsi que des transitions fluides marche-course. Ce résultat s'attaque directement à un problème d'intégration récurrent dans la robotique humanoïde commerciale : la fragmentation en contrôleurs spécialisés par mode, reliés par des automates à états qui génèrent des zones de transition fragiles et coûteuses à maintenir. Démontrer qu'une politique apprise par RL couvre ces régimes de façon continue sur hardware réel, et non uniquement en simulation, affaiblit l'argument du sim-to-real gap rédhibitoire pour les comportements complexes. Le coût d'annotation est lui aussi remarquablement bas : trois clips de reference suffisent là où d'autres travaux en exigent des dizaines, ce qui rend la méthode potentiellement transférable à d'autres plateformes avec un effort de données limité, qu'il s'agisse du PAL Robotics TALOS, du MIROKAÏ d'Enchanted Tools, ou de tout humanoïde léger à faible budget de motion capture. La publication s'inscrit dans une course dense à la locomotion humanoïde robuste, où Boston Dynamics (Atlas), Figure (Figure 03), Agility Robotics (Digit) et Tesla (Optimus Gen 3) investissent massivement, mais publient peu. Sur le plan académique, des approches concurrentes comme les VLA (Vision-Language-Action models) de Physical Intelligence ou les travaux de Berkeley visent des politiques encore plus générales, mais sacrifient souvent la robustesse physique au profit de la flexibilité sémantique. L'utilisation du Unitree G1, disponible à environ 16 000 dollars et largement répandu dans les laboratoires, confère à ces travaux une reproductibilité pratique supérieure aux publications sur plateformes fermées. L'article ne précise pas de timeline de déploiement industriel, mais la compatibilité ONNX et l'absence de logique embarquée à l'exécution réduisent la barrière à l'intégration pour un OEM ou un intégrateur souhaitant évaluer la méthode sur sa propre plateforme.

UELa méthode, compatible ONNX et nécessitant seulement 3 clips de motion capture, est explicitement identifiée comme transférable au MIROKAÏ d'Enchanted Tools (FR) et au TALOS de PAL Robotics (EU), réduisant le coût d'adaptation pour les équipes de recherche et les intégrateurs européens.

RecherchePaper
1 source
RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique
2arXiv cs.RO 

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Une équipe de chercheurs a publié RoboEval (arXiv:2507.00435), un cadre d'évaluation structuré et un benchmark dédié à la manipulation robotique. L'outil propose huit tâches bimanuelles assorties de variantes systématiquement contrôlées, plus de trois mille démonstrations expertes, et une plateforme de simulation modulaire conçue pour garantir la reproductibilité des expériences. Chaque tâche est instrumentée avec des métriques standardisées couvrant l'efficacité d'exécution, la coordination entre les deux bras, et la stabilité ou sécurité du mouvement. Le cadre inclut également des mesures de progression par étapes qui permettent de localiser précisément où et pourquoi une politique échoue, plutôt que de simplement enregistrer un échec global. Les expériences ont été conduites sur des politiques visuomotrices de l'état de l'art, en évaluant la stabilité des métriques face aux variations de conditions et leur pouvoir discriminant entre politiques affichant des taux de succès similaires. L'enjeu est méthodologique autant qu'industriel. Aujourd'hui, la majorité des benchmarks de manipulation robotique réduisent la performance à un comptage binaire succès/échec, ce qui efface les différences réelles de qualité d'exécution. Deux politiques peuvent afficher le même taux de réussite tout en présentant des comportements radicalement différents en termes de fluidité, de robustesse aux perturbations, ou de coordination interdigitale. Pour un intégrateur ou un décideur industriel qui doit choisir entre plusieurs VLA (Vision-Language-Action policies) pour déployer un robot en production, cette granularité est critique. RoboEval tente de combler ce fossé en fournissant des métriques intermédiaires qui corrèlent avec le succès final mais révèlent aussi la structure des défaillances, un prérequis pour itérer efficacement sur l'entraînement. Ce travail s'inscrit dans une dynamique plus large de maturation de l'évaluation en robotique apprenable, un domaine qui souffre depuis des années d'une fragmentation des protocoles. Des initiatives comparables comme LIBERO ou RoboVerse ont tenté de standardiser les conditions expérimentales, mais restaient souvent limitées aux tâches unimanuelles ou aux métriques de haut niveau. RoboEval se distingue par son focus bimanuel, directement pertinent pour les applications industrielles d'assemblage ou de logistique, et par la richesse de ses métriques comportementales. La page projet est accessible sur robo-eval.github.io. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit pour l'instant d'une contribution académique, sans validation en environnement réel annoncée.

UEContribution académique ouverte utilisable par tout labo ou intégrateur européen souhaitant évaluer et comparer des politiques VLA bimanuelles sans dépendre de benchmarks propriétaires.

RecherchePaper
1 source
KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative
3arXiv cs.RO 

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative

Des chercheurs ont publié KGLAMP (Knowledge Graph-guided Language Model for Adaptive Multi-robot Planning and Replanning), un framework de planification combinant graphes de connaissances et grands modèles de langage pour coordonner des équipes de robots hétérogènes sur des missions longues. La contribution centrale est une architecture en deux couches : un graphe de connaissances structuré encode en temps réel les relations entre objets, la portée spatiale de chaque robot et leurs capacités spécifiques, tandis qu'un LLM s'appuie sur ce graphe pour générer automatiquement des spécifications PDDL (Planning Domain Definition Language) correctes. Quand l'environnement évolue, un obstacle déplacé, un robot en panne, le graphe détecte l'incohérence et déclenche un replanification automatique. Sur le benchmark MAT-THOR (un environnement simulé de type habitat domestique conçu pour tester la coordination multi-agents), KGLAMP surpasse de 25,3 % au minimum les deux approches de référence : planificateurs PDDL classiques seuls et LLM seuls. Ce résultat est significatif parce qu'il attaque un problème structurel bien documenté dans la littérature : les planificateurs symboliques PDDL exigent des modèles du monde construits manuellement, coûteux à maintenir dans des environnements dynamiques, tandis que les LLM utilisés seuls tendent à ignorer l'hétérogénéité des agents et à produire des plans invalides face à l'incertitude. KGLAMP propose une mémoire persistante et mise à jour dynamiquement qui sert d'interface entre perception et raisonnement symbolique. Pour un intégrateur déployant des flottes mixtes (AMR, bras manipulateurs, drones), la promesse d'un replanning automatique sans re-modélisation manuelle représente un gain opérationnel concret, notamment dans les entrepôts à géométrie variable ou la logistique hospitalière. L'article s'inscrit dans la tendance des approches dites "neuro-symboliques" qui tentent de corriger les faiblesses des LLM par des représentations explicites du monde. Les travaux concurrents incluent SayPlan (Rana et al., 2023) et les variantes LLM+PDDL de Meta AI, Google DeepMind ou CMU. Il reste à noter que les expériences sont conduites exclusivement en simulation sur MAT-THOR : aucune validation physique n'est rapportée, ce qui laisse ouverte la question du sim-to-real gap pour des flottes réelles. La prochaine étape naturelle serait un déploiement sur des plateformes matérielles hétérogènes pour mesurer la robustesse du graphe de connaissances face au bruit sensoriel du monde réel.

RecherchePaper
1 source
Asservissement visuel à événements bio-inspiré pour robots terrestres
4arXiv cs.RO 

Asservissement visuel à événements bio-inspiré pour robots terrestres

Des chercheurs ont publié sur arXiv (référence 2603.23672v2) un framework de servoing visuel événementiel 1D pour robots terrestres évoluant en environnements structurés. L'approche repose sur un capteur de vision dynamique (DVS), une caméra bio-inspirée qui ne génère des signaux, appelés "événements", qu'en réponse à des variations locales de luminance logarithmique, contrairement aux caméras classiques à trame fixe. En appliquant un noyau spatial fixe au flux d'événements asynchrones produit par des motifs d'intensité structurés, les auteurs montrent analytiquement que le flux d'événements net isole des combinaisons spécifiques d'états cinématiques : un profil spatial linéaire extrait la vitesse du robot, un profil quadratique extrait le produit position-vitesse. En combinant plusieurs motifs simultanément, le système synthétise directement un terme de retour d'état non linéaire, sans passer par une estimation d'état traditionnelle (pas de filtre de Kalman, pas d'odométrie). Pour contourner la perte d'observabilité linéaire à l'équilibre, problème inhérent aux capteurs événementiels qui cessent de générer des signaux en l'absence de mouvement, les auteurs proposent un contrôleur en cycle limite actif, directement inspiré des comportements de fixation oculaire observés chez les animaux. Le tout a été validé expérimentalement sur un véhicule autonome à l'échelle 1/10. L'intérêt principal de ce travail réside dans l'élimination de l'estimation d'état explicite du pipeline de contrôle, ce qui réduit structurellement la latence et la charge computationnelle, deux contraintes critiques pour les robots mobiles rapides ou embarqués sur matériel contraint. Le fait que la séparation des états cinématiques soit obtenue analytiquement, et non par apprentissage, constitue un avantage de robustesse : le comportement est prédictible et formellement borné. L'approche adresse aussi un angle mort connu des capteurs DVS : leur insensibilité à l'état statique, qui rend le contrôle à l'équilibre difficile avec des méthodes classiques. Le cycle limite bio-inspiré contourne ce problème sans injection de bruit artificiel. Les capteurs DVS (commercialisés notamment par Prophesee en France et iniVation en Suisse) suscitent un intérêt croissant en robotique mobile depuis une décennie, portés par leur latence sub-milliseconde et leur dynamique de 120 dB, mais leur intégration dans des boucles de contrôle fermées reste un défi algorithmique non trivial. Ce papier s'inscrit dans un courant de recherche actif sur le "event-based control" qui tente de dépasser le stade de la démonstration perceptive pour atteindre le contrôle en boucle fermée robuste. Les concurrents conceptuels incluent les approches par flot optique événementiel (groupes de Davide Scaramuzza à Zurich, Tobi Delbruck à ETH) et les méthodes de servoing visuel classique accélérées par GPU. La validation sur véhicule 1/10 reste modeste en échelle ; les prochaines étapes naturelles seraient une extension à la navigation 2D et des tests sur plateformes de taille réelle en conditions non structurées.

UEProphesee (France) et iniVation (Suisse), principaux fabricants commerciaux de capteurs DVS, bénéficient directement de l'intérêt croissant pour ces architectures de contrôle événementiel en boucle fermée, consolidant la position de l'écosystème EU dans la chaîne de valeur de la robotique mobile embarquée.

RecherchePaper
1 source