
HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques
Une équipe de chercheurs a publié HA-VLN 2.0, un benchmark unifié pour évaluer la navigation guidée par le langage et la vision (VLN) dans des environnements peuplés d'humains en mouvement. Le jeu de données associé, HAPS 2.0, couvre 16 844 instructions socialement contextualisées et modélise des interactions multi-humains en intérieur comme en extérieur, dans des espaces discrets et continus. Le système introduit des métriques explicites mesurant simultanément la précision de navigation vers l'objectif et le respect de l'espace personnel des personnes croisées. Des expériences en conditions réelles sur robot physique ont complété l'évaluation simulée, et un leaderboard ouvert permet des comparaisons reproductibles entre équipes.
Les résultats sont sans appel pour les agents VLN actuels : dès que des humains dynamiques et une observabilité partielle entrent en jeu, leurs performances chutent significativement. Ce constat remet en question une hypothèse répandue dans la recherche VLN, à savoir que les agents entraînés en environnements statiques généraliseraient correctement au monde réel. Les expériences sim-to-real confirment en revanche que la modélisation explicite des contraintes sociales améliore la robustesse de navigation et réduit les collisions, ce qui valide l'approche. Pour les intégrateurs déployant des robots mobiles en milieu professionnel (entrepôts partagés, hôpitaux, espaces de bureau), cela signifie que les benchmarks sans humains surestiment substantiellement les capacités réelles des systèmes.
La navigation guidée par langage est un champ actif depuis les travaux fondateurs sur R2R (Room-to-Room, 2018), mais la majorité des benchmarks existants, dont R2R, REVERIE ou SOON, supposent des environnements vides ou quasi-statiques. HA-VLN 2.0 s'inscrit dans une tendance récente incluant les travaux sur SocNavBench et HuNavSim, qui cherchent à intégrer la dynamique humaine dans l'évaluation de la navigation sociale. Le benchmark est entièrement open-source (datasets, simulateurs, baselines, protocoles). Les prochaines étapes probables incluent l'intégration de modèles VLA (Vision-Language-Action) plus récents comme pi-0 ou RT-2 dans le leaderboard, ainsi que des évaluations dans des scènes extérieures plus complexes.
Dans nos dossiers




