Aller au contenu principal
TravExplorer : exploration incarnée inter-niveaux par planification 3D sensible à la traversabilité
RecherchearXiv cs.RO6sem

TravExplorer : exploration incarnée inter-niveaux par planification 3D sensible à la traversabilité

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent TravExplorer, un framework de navigation autonome multi-étages publié en mai 2026 sur arXiv (arXiv:2605.19958). Le système s'attaque à la navigation zero-shot par objets (ZSON, Zero-Shot Object Navigation), soit la capacité à localiser une cible désignée en langage naturel dans un environnement inconnu, sans carte préalable. Validé sur 4 195 épisodes simulés dans les benchmarks HM3D (Habitat-Matterport 3D) et Matterport3D (MP3D), puis sur 50 essais réels avec un robot quadrupède Unitree Go2, TravExplorer opère sur escaliers, paliers et espaces à chevauchements verticaux. Le système maintient une carte volumétrique unifiée distinguant structures occupées et surfaces accessibles au robot, extrait des frontières traversables sur sols, escaliers et paliers, et s'appuie sur un planificateur hiérarchique couplant une recherche 3D guidée par points d'appui (foothold-guided) à une optimisation de trajectoire localement contrainte en vertical.

Presque tous les systèmes ZSON existants supposent un environnement mono-étage et une représentation plane, une hypothèse qui casse dans tout bâtiment réel comportant escaliers ou mezzanines. TravExplorer comble ce fossé avec deux apports concrets : un module sémantique allégé qui aligne une carte d'instances probabiliste (segmentation open-vocabulary en ligne) avec une carte de valeur spatiale via image-to-text rapide, réduisant la latence de raisonnement ; et une stratégie de perception active FOV-aware pour résoudre les zones partiellement observées lors des transitions d'étages. Les résultats sur HM3D et MP3D sont supérieurs aux baselines ObjectNav de référence, et les 50 essais sur Go2 sans carte ni intervention humaine constituent une validation sim-to-real concrète, même si elle reste limitée à une seule plateforme et à des intérieurs contraints.

Le champ du ZSON multi-étages émerge dans un contexte plus large d'ambition robotique pour les environnements non structurés. HM3D (Meta) et MP3D sont les benchmarks standards du domaine ; y surpasser les méthodes ObjectNav actuelles est un signal de maturité technique. Le Unitree Go2, quadrupède de recherche commercialisé autour de 8 700 euros, est devenu une plateforme de référence en navigation académique. Le code source sera mis à disposition sur GitHub. Les extensions logiques incluent des bâtiments plus complexes, des espaces semi-ouverts et l'intégration sur robots humanoïdes ou à roues. Aucun acteur européen n'est impliqué dans cette publication.

Dans nos dossiers

À lire aussi

RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée
1arXiv cs.RO 

RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée

Une équipe de recherche a publié fin mai 2026 un preprint arXiv (2605.25851) présentant RePlan-Bot, un agent conçu pour l'exécution d'instructions en langage naturel dans des environnements 3D interactifs, un champ désigné sous le terme Embodied Instruction Following (EIF). Le système repose sur trois couches complémentaires : un auditeur de haut niveau basé sur un LLM, qui ajuste dynamiquement les sous-objectifs en fonction des retours de l'environnement ; un mécanisme de recherche guidé par le sens commun, s'appuyant sur une carte d'instances multi-couches pour localiser précisément les objets ; et un correcteur léger basé sur un Vision Transformer (ViT), chargé de détecter et corriger les actions bas niveau à risque avant qu'elles ne causent des erreurs irréversibles. Évalué sur le benchmark ALFRED (Action Learning From Realistic Environments and Directives), RePlan-Bot revendique des performances à l'état de l'art dans les environnements vus et non vus, bien que l'abstract ne fournisse aucun chiffre précis de taux de succès ni comparaisons numériques explicites. L'intérêt de cette architecture pour les équipes d'IA embarquée réside dans sa gestion du replanning continu face aux changements d'état irréversibles, un point de défaillance classique des systèmes de planification hiérarchique. En robotique de service ou en manipulation d'objets, une action mal exécutée (déplacer un objet au mauvais endroit, ouvrir un conteneur prématurément) peut invalider l'ensemble du plan en cours. RePlan-Bot adresse ce problème via un audit permanent pendant l'exécution, ce qui le distingue des approches plan-then-execute qui supposent un environnement statique. La combinaison LLM haute-décision et ViT basse-exécution reflète une tendance structurante dans les architectures VLA (Vision-Language-Action) actuelles : déléguer la supervision sémantique à un modèle de langage, et la correction réactive à un modèle vision plus léger et plus rapide. Le benchmark ALFRED, publié par l'Allen Institute for AI en 2020, reste la référence dominante pour l'EIF en simulation (environnement iTHOR), mais son écart avec les conditions réelles (manipulation physique, bruit sensoriel, variabilité des objets) est bien documenté dans la littérature. RePlan-Bot s'inscrit dans un champ de recherche concurrentiel qui inclut des travaux comme FILM et HLSM, ainsi que des approches VLA plus récentes comme OpenVLA ou Pi-0 de Physical Intelligence. Aucun déploiement matériel ni partenariat industriel n'est mentionné dans le preprint : il s'agit d'une contribution académique en environnement simulé, et la question du transfert sim-to-real, centrale pour tout intégrateur, reste entière.

RechercheOpinion
1 source
HAVEN : navigation hiérarchique sensible aux adversaires, visibilité et couverts par réseaux Q à transformeurs profonds
2arXiv cs.RO 

HAVEN : navigation hiérarchique sensible aux adversaires, visibilité et couverts par réseaux Q à transformeurs profonds

Des chercheurs ont publié sur arXiv (arXiv:2512.00592v2) un framework de navigation autonome baptisé HAVEN, Hierarchical Adversary-aware Visibility-Enabled Navigation, conçu pour faire évoluer des agents robotiques dans des environnements partiellement observables, c'est-à-dire là où les capteurs ne voient pas tout et où des obstacles occultent une partie de la scène. L'architecture combine un réseau de neurones de type Deep Transformer Q-Network (DTQN) pour la sélection de sous-objectifs à haut niveau, et un contrôleur bas niveau à champs de potentiel pour l'exécution des waypoints. Le DTQN ingère des historiques courts de features contextuelles, odométrie, direction de l'objectif, proximité des obstacles, indices de visibilité, et produit des Q-values qui classent les sous-objectifs candidats. Une génération de candidats dite "visibility-aware" introduit des pénalités d'exposition et récompense l'utilisation des couverts, favorisant un comportement anticipatoire plutôt que réactif. Le système a été validé en simulation 2D puis transféré sans modification architecturale vers un environnement 3D Unity-ROS, en projetant la perception point-cloud dans le même schéma de features. Ce travail s'attaque à un problème concret dans les déploiements robotiques réels : les planificateurs classiques (A*, RRT) et les politiques de reinforcement learning sans mémoire peinent dès que le champ de vision est limité, générant des manœuvres sous-optimales ou dangereuses dans des espaces encombrés. L'apport du Transformer réside dans sa capacité à exploiter l'historique temporel pour inférer l'état caché de l'environnement, là où un réseau feedforward réagirait à l'instant présent. Les résultats montrent des améliorations mesurées sur le taux de succès, les marges de sécurité et le temps jusqu'à l'objectif par rapport aux baselines RL et aux planificateurs classiques, bien que les expériences restent en simulation, sans banc d'essai sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap. HAVEN s'inscrit dans une tendance de recherche qui applique les architectures Transformer, initialement conçues pour le NLP, au contrôle séquentiel de robots en environnements incertains. Le champ de l'autonomie sous occlusion est particulièrement actif : des travaux comme Decision Transformer ou GTrXL ont posé les bases de l'usage de la mémoire contextuelle en RL. Les domaines d'application cités par les auteurs couvrent la logistique entrepôt (AMR en environnement dynamique), la conduite urbaine et la surveillance, un positionnement qui rejoint les problématiques des acteurs de la navigation indoor comme Exotec ou Balyo côté français. La prochaine étape naturelle serait une validation sur plateforme physique et des benchmarks en environnements réels avec adversaires mobiles, conditions non encore adressées dans cette version.

UELes acteurs français de la navigation indoor comme Exotec et Balyo pourraient être concernés par cette approche de planification sous occlusion, mais le travail reste entièrement en simulation sans validation matérielle.

RecherchePaper
1 source
SeeTraceAct : planification latente par visibilité à partir de vidéos de démonstration multi-corps
3arXiv cs.RO 

SeeTraceAct : planification latente par visibilité à partir de vidéos de démonstration multi-corps

Des chercheurs ont publié en juin 2026 SeeTraceAct, une architecture de politique robotique de type VLA (vision-language-action model) conçue pour exécuter des tâches inédites à partir d'une seule vidéo de démonstration, sans nécessiter de nouvelles données de téléopération spécifiques à la tâche. Le système conditionne la politique du robot sur cette unique vidéo de référence, puis génère de manière anticipée la trajectoire future de l'effecteur terminal en tenant compte de sa visibilité dans la scène, une technique baptisée "visibility-aware latent planning". Sur le benchmark RoboCasa-DC, que les auteurs publient en parallèle, SeeTraceAct obtient le meilleur taux de succès sur les quatre configurations testées. Sur un banc réel où un bras Franka Panda est guidé par des démonstrations humaines (cross-embodiment), le gain moyen atteint 12,5 points de pourcentage par rapport aux approches de référence. Le problème central que SeeTraceAct cherche à résoudre est le "demo-to-execution gap" : les VLA bout-en-bout existants échouent fréquemment dès que la tâche exige de localiser précisément une petite zone cible, visser un bouchon, saisir un connecteur miniature, aligner un composant. En forçant le modèle à prédire explicitement la trace spatiale de l'effecteur avant d'agir, le framework impose un ancrage géométrique qui manque aux approches purement end-to-end. Le fait que cela fonctionne en cross-embodiment (démonstrations humaines → bras industriel) réduit concrètement la barrière à l'entrée pour les intégrateurs : pas besoin d'un opérateur expert pour collecter des données de téléopération sur chaque nouvelle variante de tâche, une vidéo de référence suffit. RoboCasa-DC s'appuie sur RoboCasa, un simulateur de tâches domestiques développé à l'Université du Texas à Austin et publié fin 2024, étendu ici avec des vidéos humanoïdes appariées par épisode pour permettre une évaluation reproductible en cross-embodiment. SeeTraceAct s'inscrit dans une tendance de fond qui voit émerger des VLA généralisables, Pi-0 chez Physical Intelligence, GR00T N2 chez NVIDIA, OpenVLA à Berkeley, tous cherchant à réduire le coût de la collecte de données. La prochaine étape logique est l'extension à des manipulations multi-étapes et à des environnements moins contrôlés ; les auteurs ne mentionnent pas de déploiement industriel imminent, ce travail restant pour l'heure une contribution de recherche.

RechercheOpinion
1 source
L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques
4arXiv cs.RO 

L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques

Des chercheurs ont publié le 24 avril 2026 sur arXiv (arXiv:2604.18463) un benchmark nommé DESPITE, conçu pour évaluer systématiquement la sécurité des grands modèles de langage (LLM) utilisés comme planificateurs robotiques. Le jeu de données comprend 12 279 tâches couvrant à la fois des dangers physiques (collisions, manipulation de charges) et normatifs (violation de règles de sécurité industrielles), avec une validation entièrement déterministe. Testé sur 23 modèles, le résultat le plus frappant est le suivant : le meilleur modèle en termes de planification n'échoue à produire un plan valide que dans 0,4 % des cas, mais génère des plans dangereux dans 28,3 % des situations. Parmi les 18 modèles open-source évalués, allant de 3 milliards à 671 milliards de paramètres, la capacité de planification s'améliore fortement avec la taille (de 0,4 % à 99,3 % de réussite), tandis que la conscience du danger reste remarquablement plate (38 à 57 %). Trois modèles propriétaires dotés de capacités de raisonnement explicite atteignent des niveaux de sécurité nettement supérieurs, entre 71 % et 81 %, alors que les modèles propriétaires sans raisonnement et les modèles open-source restent sous le seuil des 57 %. Ces résultats contredisent directement l'hypothèse, implicite dans de nombreux projets d'intégration, selon laquelle un modèle plus capable est automatiquement plus sûr. Les auteurs identifient une relation multiplicative entre capacité de planification et conscience du danger : un LLM qui planifie mieux complète davantage de tâches en toute sécurité, mais uniquement parce qu'il génère plus de plans valides, pas parce qu'il évite mieux les situations à risque. Pour un intégrateur robotique ou un COO industriel qui envisage de déployer un LLM comme cerveau d'un AMR ou d'un bras manipulateur, cela signifie concrètement que la saturation des performances de planification, déjà proche pour les modèles frontier, déplace le goulot d'étranglement vers la sécurité, un axe que les recettes de scaling habituelles ne résolvent pas. Ce travail s'inscrit dans un débat actif autour des architectures VLA (Vision-Language-Action) et de l'utilisation des LLM comme planificateurs de haut niveau dans des systèmes comme ceux développés par Physical Intelligence (pi0), Figure AI ou Boston Dynamics. Le benchmark DESPITE comble un vide méthodologique : jusqu'ici, les évaluations de sécurité reposaient sur des scénarios ad hoc ou des métriques de performance générale. L'absence de tout modèle open-source dépassant les 57 % de conscience du danger soulève des questions directes pour les acteurs européens qui misent sur des modèles ouverts pour des raisons de souveraineté ou de coût, notamment dans les secteurs logistique et manufacturier. Les prochaines étapes logiques incluent l'intégration de DESPITE dans les pipelines de fine-tuning orientés sécurité et la collaboration avec des organismes de normalisation comme l'ISO ou l'IEC pour ancrer ces métriques dans des référentiels de certification robotique.

UELes acteurs européens qui misent sur des modèles open-source pour des raisons de souveraineté se retrouvent plafonnés à 57 % de conscience du danger, bien en dessous des modèles propriétaires à raisonnement explicite (71–81 %), ce qui fragilise directement les déploiements LLM-as-planner dans la logistique et le manufacturier européens.

RechercheOpinion
1 source