Aller au contenu principal
HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques
RecherchearXiv cs.RO5h

HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié HA-VLN 2.0, un benchmark unifié pour évaluer la navigation guidée par le langage et la vision (VLN) dans des environnements peuplés d'humains en mouvement. Le jeu de données associé, HAPS 2.0, couvre 16 844 instructions socialement contextualisées et modélise des interactions multi-humains en intérieur comme en extérieur, dans des espaces discrets et continus. Le système introduit des métriques explicites mesurant simultanément la précision de navigation vers l'objectif et le respect de l'espace personnel des personnes croisées. Des expériences en conditions réelles sur robot physique ont complété l'évaluation simulée, et un leaderboard ouvert permet des comparaisons reproductibles entre équipes.

Les résultats sont sans appel pour les agents VLN actuels : dès que des humains dynamiques et une observabilité partielle entrent en jeu, leurs performances chutent significativement. Ce constat remet en question une hypothèse répandue dans la recherche VLN, à savoir que les agents entraînés en environnements statiques généraliseraient correctement au monde réel. Les expériences sim-to-real confirment en revanche que la modélisation explicite des contraintes sociales améliore la robustesse de navigation et réduit les collisions, ce qui valide l'approche. Pour les intégrateurs déployant des robots mobiles en milieu professionnel (entrepôts partagés, hôpitaux, espaces de bureau), cela signifie que les benchmarks sans humains surestiment substantiellement les capacités réelles des systèmes.

La navigation guidée par langage est un champ actif depuis les travaux fondateurs sur R2R (Room-to-Room, 2018), mais la majorité des benchmarks existants, dont R2R, REVERIE ou SOON, supposent des environnements vides ou quasi-statiques. HA-VLN 2.0 s'inscrit dans une tendance récente incluant les travaux sur SocNavBench et HuNavSim, qui cherchent à intégrer la dynamique humaine dans l'évaluation de la navigation sociale. Le benchmark est entièrement open-source (datasets, simulateurs, baselines, protocoles). Les prochaines étapes probables incluent l'intégration de modèles VLA (Vision-Language-Action) plus récents comme pi-0 ou RT-2 dans le leaderboard, ainsi que des évaluations dans des scènes extérieures plus complexes.

Dans nos dossiers

À lire aussi

IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites
1arXiv cs.RO 

IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites

Un groupe de chercheurs a publié fin mai 2026 IntentionNav, un benchmark diagnostique conçu pour évaluer la navigation d'agents incarnés à partir d'instructions humaines implicites. Contrairement aux benchmarks classiques d'ObjectNav (MP3D, HM3D), qui fournissent à l'agent une catégorie cible explicite ("trouve un micro-ondes"), IntentionNav formule des intents en langage naturel non directif : "j'ai besoin de quelque chose pour réchauffer ce plat" ou "la pièce me semble étouffante". Le benchmark couvre 500 épisodes distribués sur 176 scènes Isaac Sim et 64 catégories d'objets cibles. Chaque intent est reformulé en quatre styles linguistiques contrôlés et annoté selon quatre modes sémantiques distincts (script d'événement, état physique, affordance, usage contextuel), ce qui permet d'isoler les erreurs de reformulation linguistique des erreurs d'inférence sémantique. Trois modèles VLM (Vision-Language Models) ont été évalués avec un agent de navigation fixe. Les résultats sont sans ambiguïté : les modèles identifient correctement l'objet cible dans 48,3 % des épisodes, atteignent son voisinage à 2 mètres dans 68,7 % des cas, mais ne terminent avec succès que dans 24,9 % des épisodes et n'atteignent un succès ancré à 1 mètre que dans 5,5 % des cas. Ces chiffres révèlent que le bottleneck principal dans la navigation incarnée réelle n'est pas la navigation proprement dite, mais l'inférence d'intention, la vérification visuelle de l'instance correcte, et la décision de terminaison. Les intents de type "script d'événement" (ex : préparer le dîner) obtiennent les meilleurs scores (28,7 % de succès terminal), tandis que les intents fondés sur l'état physique (19,2 %) ou l'affordance (18,5 %) restent en deçà. Pour un COO industriel ou un intégrateur robotique, ce résultat est critique : un robot opérant en environnement humain doit recevoir des instructions naturelles, rarement formulées en termes de catégories d'objets précises. Les VLMs actuels échouent précisément sur ce que l'interaction humaine génère le plus souvent. Le benchmark s'inscrit dans la continuité des travaux sur l'embodied AI et le grounding langage-perception (SQA3D, EQA, R2R), mais comble un angle mort : la déconnexion entre succès agrégé et succès ancré dans la géométrie réelle. L'utilisation d'Isaac Sim comme environnement de simulation soulève la question du sim-to-real gap, non adressée dans cette publication. Aucun acteur industriel (Boston Dynamics, Figure, Agility, ni d'acteurs FR/EU comme Enchanted Tools ou Wandercraft) n'est impliqué dans cette étude académique. Les suites naturelles incluent l'extension à des scènes réelles captées en RGB-D, l'évaluation de modèles VLA (Vision-Language-Action) de bout en bout, et l'intégration de mécanismes de clarification active quand l'intent est ambigu, une direction encore peu explorée dans la littérature.

RecherchePaper
1 source
Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert
2arXiv cs.RO 

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.15814) un framework d'étalonnage main-oeil continu (continual hand-eye calibration) destiné aux robots manipulateurs déployés dans des environnements ouverts et changeants. Le problème adressé est précis : les modèles de calibration basés sur le deep learning perdent leur précision sur les scènes précédemment apprises dès qu'ils s'adaptent à un nouvel environnement, un phénomène connu sous le nom d'oubli catastrophique (catastrophic forgetting). Le framework proposé repose sur deux composants distincts. Le premier, SARS (Spatial-Aware Replay Strategy), construit un buffer de rejeu géométriquement uniforme qui couvre l'espace de poses de chaque scène sans redondance, en sélectionnant les points de vue les plus informatifs plutôt que les frames adjacentes. Le second, SPDD (Structure-Preserving Dual Distillation), décompose la connaissance de localisation en deux niveaux, la structure grossière de la scène et la précision fine de pose, puis applique une distillation séparée pour préserver les deux dimensions lors des adaptations successives. Les expériences sur plusieurs datasets publics confirment que le modèle maintient la précision sur les scènes passées tout en s'adaptant aux nouvelles. L'enjeu industriel est réel : un bras manipulateur recalibré pour une nouvelle cellule de production ne devrait pas perdre sa précision sur les postes précédents. C'est le problème quotidien des intégrateurs qui déploient des robots dans des lignes flexibles ou multi-produits. La plupart des approches actuelles imposent soit un recalibrage complet à chaque changement de scène, soit acceptent une dégradation progressive des performances sur les configurations antérieures. Ce travail propose une voie intermédiaire via l'apprentissage continu structuré, sans recourir à un replay naïf qui ne suffit pas à enrayer l'oubli. L'approche par distillation duale est notamment pertinente car elle distingue deux types d'erreur, positionnement global et précision locale, ce que les méthodes monolithiques ne font pas. Ce travail s'inscrit dans un champ de recherche en forte activité depuis 2022, où la robustesse de la calibration visuelle en conditions réelles est identifiée comme l'un des goulots d'étranglement pour le passage à l'échelle des manipulateurs autonomes. La localisation visuelle pour la calibration main-oeil emprunte aux techniques de Visual Place Recognition (VPR) et de relocalisation utilisées en navigation mobile, mais les contraintes de précision sous-millimétrique propres à la manipulation y ajoutent une difficulté spécifique. Parmi les acteurs qui travaillent sur des problèmes adjacents figurent des équipes comme Physical Intelligence (pi) avec Pi-0, ou des laboratoires comme le Stanford AI Lab et ETH Zurich sur la sim-to-real calibration. En France, des acteurs comme Enchanted Tools et Pollen Robotics, qui développent des plateformes d'interaction physique, sont directement concernés par ce type de verrou. La prochaine étape naturelle pour ce framework serait une validation sur des données industrielles réelles et une intégration dans des pipelines de déploiement multi-cellules, que les auteurs n'ont pas encore annoncée.

UEEnchanted Tools et Pollen Robotics, qui développent des plateformes de manipulation physique en France, sont directement concernés par ce verrou de calibration continue, susceptible de réduire les coûts de redéploiement en production flexible.

RecherchePaper
1 source
Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque
3arXiv cs.RO 

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

Des chercheurs ont publié début mai 2026, via un preprint arXiv (2605.02862), un planificateur de navigation robotique baptisé SRAH (Semantic Risk-Aware Heuristic), conçu pour intégrer des principes de raisonnement issus des grands modèles de langage (LLM) dans le cadre classique de recherche de chemin A. L'algorithme encode des fonctions de coût sémantiques qui pénalisent les zones géométriquement encombrées ou identifiées comme à risque élevé, et déclenche un replanification en boucle fermée dès qu'un obstacle dynamique est détecté. Les auteurs l'ont évalué sur 200 essais randomisés dans un environnement grille 15x15 cases, avec 20% de densité d'obstacles statiques et des obstacles dynamiques stochastiques. SRAH atteint un taux de succès de 62,0%, contre 56,5% pour BFS avec replanification (soit +9,7% d'amélioration relative) et 4,0% pour une heuristique Greedy sans replanification. Une étude d'ablation sur la densité d'obstacles confirme que le façonnage sémantique des coûts améliore la navigation sur des environnements de difficulté variable. Ce travail s'inscrit dans un courant de recherche qui cherche à exploiter la capacité des LLM à encoder du raisonnement contextuel sans les déployer en inférence temps réel, ce qui réduirait la latence et les coûts de calcul embarqués. L'idée centrale, injecter une représentation sémantique du risque dans la fonction heuristique d'A, est pertinente pour les développeurs d'AMR (robots mobiles autonomes) industriels confrontés à des environnements semi-structurés changeants. Cela dit, les résultats doivent être nuancés : un taux de succès de 62% dans une grille 15x15 reste modeste pour une tâche de navigation, et la comparaison avec un Greedy sans replanification est méthodologiquement inégale. La valeur démontrée reste celle de principe, pas de déploiement à l'échelle. La navigation en environnement dynamique est un problème central depuis les travaux fondateurs sur A (Hart, Nilsson, Raphael, 1968) et les variantes D et D*-Lite des années 1990-2000. L'émergence des LLM a relancé l'intérêt pour des heuristiques fondées sur la sémantique plutôt que sur la pure géométrie, une piste explorée par des équipes comme celles de Stanford (SayCan, 2022) ou de Google DeepMind avec RT-2. Sur le segment de la navigation mobile, des acteurs comme Boston Dynamics, MiR ou Exotec (France) intègrent déjà des couches de replanification dynamique dans leurs flottes d'AMR industriels. Ce preprint n'annonce pas de produit ni de déploiement : c'est une contribution algorithmique à valider sur des benchmarks plus réalistes (ROS 2, Gazebo, environnements 3D) avant tout transfert industriel.

UECe preprint pourrait à terme informer les développeurs d'AMR industriels européens sur les heuristiques sémantiques LLM, mais les résultats restent trop préliminaires et le benchmark trop limité (grille 15x15) pour un transfert industriel immédiat.

RecherchePaper
1 source
NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques
4arXiv cs.RO 

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

NaviMaster (arXiv:2508.02046, version 4 du preprint) est un agent d'intelligence artificielle qui unifie dans un seul modèle deux types de navigation habituellement traités séparément : la navigation en interface graphique (GUI, pilotage d'applications et de menus) et la navigation embodied (déplacement d'un agent physique ou simulé dans un espace 3D). Le système repose sur l'observation que ces deux problèmes se formulent comme des Processus de Décision Markoviens (MDP), ce qui autorise une architecture et un entraînement communs. NaviMaster introduit trois contributions techniques : un pipeline de collecte de trajectoires à cible visuelle applicable aux deux domaines via une formulation unifiée, un cadre d'apprentissage par renforcement (RL) entraîné sur données mixtes pour améliorer la généralisation, et une récompense dite "distance-aware" conçue pour accélérer l'apprentissage à partir des trajectoires collectées. Évalué sur des benchmarks hors-domaine, il surpasse les agents spécialisés de l'état de l'art sur trois tâches : navigation GUI, prédiction d'affordance spatiale et navigation embodied. Les codes, données et checkpoints sont publiés en open source. L'intérêt de NaviMaster est moins dans ses performances brutes sur chaque tâche isolée que dans la démonstration que GUI et navigation physique peuvent partager une même représentation apprise. Jusqu'ici, ces deux domaines s'appuyaient sur des datasets distincts, des architectures incompatibles et des paradigmes d'entraînement divergents. Pour les équipes travaillant sur des modèles VLA (Vision-Language-Action) ou sur des systèmes multi-tâches, c'est une preuve de concept que la généralisation cross-domaine par RL mixte est faisable à cette échelle. Les études d'ablation publiées confirment que la stratégie de mélange de données et la récompense distance-aware contribuent toutes deux de manière mesurable aux gains finaux, ce qui renforce la crédibilité des choix architecturaux au-delà du résultat global. NaviMaster s'inscrit dans une dynamique de convergence croissante entre agents logiciels et agents physiques. Il se positionne face à des agents GUI spécialisés comme CogAgent ou SeeAct d'un côté, et à des modèles de navigation embodied comme RT-2 ou OpenVLA de l'autre. Les benchmarks de référence sont Web-Arena et OSWorld pour le versant GUI, Habitat pour le versant physique. La présence d'une version v4 sur arXiv signale un processus de révision actif, probablement en direction d'une conférence majeure (ICLR, NeurIPS ou ICRA). L'article ne mentionne aucun déploiement industriel ni partenariat, ce qui place NaviMaster au stade de la preuve de concept académique.

RechercheOpinion
1 source