Aller au contenu principal
Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente
RecherchearXiv cs.RO6sem

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs vient de publier OmniNavBench (arXiv:2505.09441), un nouveau benchmark conçu pour évaluer la navigation des agents incarnés dans des conditions proches du réel. Contrairement aux protocoles existants qui testent une compétence à la fois sur un seul type de robot, OmniNavBench impose des instructions composites enchaînant six catégories de sous-tâches au sein d'un même épisode : navigation vers un point cible (PointNav), navigation guidée par le langage (VLN), recherche d'objets (ObjectNav), navigation sociale (SocialNav), suivi de personne (Human Following) et question-réponse incarnée (EQA). La plateforme de simulation propose 170 environnements combinant assets synthétiques et scans de lieux réels, et couvre trois morphologies robotiques : humanoïdes, quadrupèdes et robots à roues. Le dataset comprend 1 779 trajectoires expertes collectées par télé-opération humaine, capturant des nuances comportementales comme les regards exploratoires et les évitements anticipatoires, au lieu des classiques plus courts chemins algorithmiques.

L'intérêt de ce travail est de révéler une faille systémique dans l'évaluation actuelle des agents navigants. Les méthodes publiées, même celles se réclamant d'une conception unifiée, peinent dès lors qu'on leur demande d'enchaîner des comportements hétérogènes dans un seul épisode continu. Ce résultat contredit implicitement les affirmations de généralité de plusieurs architectures récentes et met en évidence un écart réel entre les performances en benchmark isolé et les exigences d'un déploiement terrain. Pour un intégrateur ou un décideur industriel, cela signifie que les métriques publiées sur des benchmarks mono-tâche ne sont pas transposables à des scénarios opérationnels où un robot doit simultanément localiser un objet, éviter un humain et répondre à une consigne en langage naturel.

OmniNavBench s'inscrit dans une dynamique plus large d'unification des évaluations en robotique incarnée, un domaine où les benchmarks fragmentés ont longtemps permis aux équipes de revendiquer des SOTA partiels sans comparabilité réelle. Les benchmarks dominants comme R2R (Vision-and-Language Navigation) ou HM3D (Habitat) restent mono-morphologie et mono-tâche. La plateforme est disponible en open access avec dataset, code et leaderboard, ce qui facilitera l'adoption par la communauté. Les suites logiques incluent l'intégration de modèles VLA récents comme pi0 ou GR00T N2 dans le leaderboard, et potentiellement des évaluations en simulation-to-real pour tester si les scores obtenus se transfèrent sur hardware réel.

Dans nos dossiers

À lire aussi

Follow-Bench : un benchmark unifié de planification de mouvement pour la poursuite sociale de personnes par robot
1arXiv cs.RO 

Follow-Bench : un benchmark unifié de planification de mouvement pour la poursuite sociale de personnes par robot

Une équipe de chercheurs a publié sur arXiv (référence arXiv:2509.10796v4) Follow-Bench, le premier benchmark unifié consacré au "robot person following" (RPF), c'est-à-dire des robots mobiles capables de suivre et d'assister une personne cible dans un environnement peuplé. L'étude couvre les scénarios représentatifs identifiés dans la littérature (assistance personnelle, patrouille de sécurité, aide aux personnes âgées, logistique), propose un environnement de simulation standardisé reproduisant des configurations variées comme des trajectoires cibles multiples, des dynamiques de foule et des agencements spatiaux différents, et réimplémente huit planificateurs de mouvement RPF issus de travaux existants dans ce cadre commun. Les deux planificateurs les plus performants en simulation ont ensuite été déployés sur un robot réel à entraînement différentiel pour valider les résultats en conditions concrètes. L'absence d'un benchmark partagé rendait jusqu'ici toute comparaison rigoureuse entre méthodes RPF quasiment impossible : chaque équipe évaluait ses planificateurs sur ses propres scénarios avec ses propres métriques, rendant les comparaisons inter-équipes peu fiables. Follow-Bench comble ce vide en standardisant simultanément les scénarios, les métriques de sécurité et de confort, et les planificateurs de référence. Le résultat le plus instructif est la quantification du compromis sécurité-confort : les expériences montrent qu'optimiser la distance de sécurité vis-à-vis des piétons tend à dégrader le confort de la personne suivie, et inversement. Cette tension, souvent évoquée qualitativement dans la littérature, dispose désormais d'une base quantitative reproductible. Pour les intégrateurs travaillant sur des robots d'assistance ou de logistique en milieu humain, cela fournit enfin un cadre commun pour comparer des solutions et cibler des axes d'amélioration précis. Le RPF s'inscrit dans le domaine plus large de la navigation socialement acceptable (social robot navigation), en expansion rapide sous l'effet du vieillissement démographique et de la croissance des entrepôts automatisés. Des plateformes comme celles de Labrador Systems, Ohmni Labs ou certains AMR de Boston Dynamics intègrent des capacités de suivi de personne, mais sans référentiel objectif partagé. Follow-Bench ne livre pas de solution clé en main : les auteurs identifient des défis ouverts non résolus, notamment la robustesse en foule dense et la gestion des occlusions prolongées, qui restent des freins au déploiement industriel à grande échelle.

RecherchePaper
1 source
IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites
2arXiv cs.RO 

IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites

Un groupe de chercheurs a publié fin mai 2026 IntentionNav, un benchmark diagnostique conçu pour évaluer la navigation d'agents incarnés à partir d'instructions humaines implicites. Contrairement aux benchmarks classiques d'ObjectNav (MP3D, HM3D), qui fournissent à l'agent une catégorie cible explicite ("trouve un micro-ondes"), IntentionNav formule des intents en langage naturel non directif : "j'ai besoin de quelque chose pour réchauffer ce plat" ou "la pièce me semble étouffante". Le benchmark couvre 500 épisodes distribués sur 176 scènes Isaac Sim et 64 catégories d'objets cibles. Chaque intent est reformulé en quatre styles linguistiques contrôlés et annoté selon quatre modes sémantiques distincts (script d'événement, état physique, affordance, usage contextuel), ce qui permet d'isoler les erreurs de reformulation linguistique des erreurs d'inférence sémantique. Trois modèles VLM (Vision-Language Models) ont été évalués avec un agent de navigation fixe. Les résultats sont sans ambiguïté : les modèles identifient correctement l'objet cible dans 48,3 % des épisodes, atteignent son voisinage à 2 mètres dans 68,7 % des cas, mais ne terminent avec succès que dans 24,9 % des épisodes et n'atteignent un succès ancré à 1 mètre que dans 5,5 % des cas. Ces chiffres révèlent que le bottleneck principal dans la navigation incarnée réelle n'est pas la navigation proprement dite, mais l'inférence d'intention, la vérification visuelle de l'instance correcte, et la décision de terminaison. Les intents de type "script d'événement" (ex : préparer le dîner) obtiennent les meilleurs scores (28,7 % de succès terminal), tandis que les intents fondés sur l'état physique (19,2 %) ou l'affordance (18,5 %) restent en deçà. Pour un COO industriel ou un intégrateur robotique, ce résultat est critique : un robot opérant en environnement humain doit recevoir des instructions naturelles, rarement formulées en termes de catégories d'objets précises. Les VLMs actuels échouent précisément sur ce que l'interaction humaine génère le plus souvent. Le benchmark s'inscrit dans la continuité des travaux sur l'embodied AI et le grounding langage-perception (SQA3D, EQA, R2R), mais comble un angle mort : la déconnexion entre succès agrégé et succès ancré dans la géométrie réelle. L'utilisation d'Isaac Sim comme environnement de simulation soulève la question du sim-to-real gap, non adressée dans cette publication. Aucun acteur industriel (Boston Dynamics, Figure, Agility, ni d'acteurs FR/EU comme Enchanted Tools ou Wandercraft) n'est impliqué dans cette étude académique. Les suites naturelles incluent l'extension à des scènes réelles captées en RGB-D, l'évaluation de modèles VLA (Vision-Language-Action) de bout en bout, et l'intégration de mécanismes de clarification active quand l'intent est ambigu, une direction encore peu explorée dans la littérature.

RecherchePaper
1 source
Bench-Push : benchmark pour la navigation et la manipulation par poussée des robots mobiles
3arXiv cs.RO 

Bench-Push : benchmark pour la navigation et la manipulation par poussée des robots mobiles

Une équipe de chercheurs a publié Bench-Push (arXiv:2512.11736), le premier benchmark unifié dédié à l'évaluation des robots mobiles capables de pousser et de manipuler des objets dans leur environnement immédiat. La suite comprend quatre environnements de simulation aux niveaux de complexité variables : navigation en labyrinthe avec obstacles mobiles, navigation autonome de navire en eaux glacées, livraison de caisses, et nettoyage de zones encombrées. Bench-Push intègre également un jeu de métriques originales conçues pour mesurer l'efficacité, l'effort d'interaction mécanique et la complétion partielle des tâches, ainsi que des démonstrations de baselines établies. La bibliothèque est open-source, distribuée sous Python avec une architecture modulaire, et disponible sur GitHub (IvanIZ/BenchNPIN). L'absence de référentiel commun dans ce domaine constitue un frein réel : jusqu'ici, chaque équipe évaluait ses approches sur des configurations ad hoc, rendant toute comparaison inter-laboratoires impossible et la reproductibilité aléatoire. Or la question est loin d'être académique. Les robots mobiles autonomes (AMR) déployés en logistique, en entrepôt ou en milieu industriel se retrouvent régulièrement dans des espaces encombrés d'objets déplaçables que les algorithmes classiques d'évitement d'obstacles ne savent tout simplement pas gérer. Les stratégies de poussée (pushing, nudging) constituent une compétence clé pour ces environnements réels, et Bench-Push offre désormais un terrain de comparaison structuré pour les évaluer. La métrique de complétion partielle est notamment utile pour les décideurs B2B, qui ont besoin de quantifier la dégradation progressive des performances plutôt qu'un simple succès ou échec binaire. Le champ dit NAMO (Navigation Among Movable Obstacles) connaît une croissance soutenue, mais restait fragmenté faute d'outil fédérateur. Bench-Push s'inscrit dans la continuité des efforts de standardisation observés ailleurs en robotique, à l'image de ce que RoboSuite ou Isaac Gym ont apporté à la manipulation. L'inclusion d'un scénario de navigation en eaux glacées témoigne d'une ambition d'élargissement au-delà de la robotique d'entrepôt stricte, vers des domaines comme la navigation maritime autonome. Il n'existe à ce stade aucune annonce de déploiement industriel : Bench-Push est un outil de recherche, mais sa conception modulaire et son accessibilité via pip en font un candidat sérieux à une adoption rapide par les équipes travaillant sur la planification en environnements dynamiques.

RecherchePaper
1 source
ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)

Une équipe de recherche a publié sur arXiv (réf. 2606.27079) un benchmark diagnostique baptisé ForesightSafety-VLA, conçu pour évaluer spécifiquement la sécurité des modèles vision-langage-action (VLA) en robotique incarnée. Le système propose une taxonomie de 13 catégories réparties en trois blocs : Safe-Core (sécurité lors des interactions physiques), Safe-Lang (sécurité côté instruction) et Safe-Vis (sécurité côté perception). Les évaluations portent sur 66 scénarios de base augmentés de contraintes de sécurité, déployés dans le simulateur RoboTwin sur 5 morphologies robotiques distinctes. Les politiques sont testées selon trois axes de variation contrôlée : structure de la scène, commande en langage naturel et observation visuelle. Au-delà du simple taux de succès binaire, le benchmark mesure le risque au niveau processus via deux métriques : le coût de sécurité cumulatif (CC) et le temps d'exposition au risque (RET), complétés par une décomposition en quatre quadrants distinguant succès et échecs sûrs ou dangereux. Les résultats révèlent une lacune structurelle dans l'évaluation des VLA actuels : même les politiques les plus performantes accumulent des coûts de sécurité non négligeables et réussissent des tâches nominales via des trajectoires dangereuses. Plus significatif encore, les variations de structure de scène et d'observation visuelle dégradent la sécurité beaucoup plus fortement que les variations de commandes en langage naturel. Ce résultat contredit l'hypothèse implicite selon laquelle la sécurité serait avant tout un problème de compréhension d'instructions : elle est en réalité étroitement couplée à la perception, à l'ancrage sensorimoteur et à la compétence de contrôle bas niveau. Cela suggère que les filtres de sécurité post-hoc ne suffisent pas à compenser les déficits de perception et de planification. Ce travail s'inscrit dans un contexte où les VLA progressent rapidement vers des capacités généralistes, portés par des modèles comme pi-zéro (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind), dont les limites de sécurité restent mal documentées dans la littérature. ForesightSafety-VLA tente de combler ce vide méthodologique en imposant la sécurité comme cible principale d'évaluation, plutôt qu'un indicateur secondaire. La publication reste au stade de benchmark de recherche, sans déploiement industriel ni partenariat annoncé. Les suites naturelles concernent l'extension à des environnements réels, à des robots mobiles, et l'intégration du benchmark dans les pipelines d'entraînement pour orienter l'apprentissage vers des comportements intrinsèquement sûrs.

RecherchePaper
1 source