
OSMa-Bench++ : vers une évaluation ouverte de la cartographie sémantique pour la manipulation via des scènes synthétiques générées par prompt
Des chercheurs du laboratoire be2rlab publient OSMa-Bench++, une extension du framework d'évaluation OSMa-Bench, déposée sur arXiv en mai 2026. L'objectif est de pallier une limite structurelle des benchmarks actuels pour la cartographie sémantique appliquée à la manipulation robotique : leur dépendance à des jeux de données fixes, insuffisamment couverts en cas limites pertinents pour la manipulation. Le nouveau pipeline génère automatiquement des descriptions de scènes d'intérieur à partir de prompts textuels, synthétise les environnements correspondants via SceneSmith, puis les adapte dans un format de simulation compatible avec OSMa-Bench. Cette adaptation requiert une couche intermédiaire non triviale incluant la normalisation sémantique, la réparation de matériaux et textures, des politiques de fallback pour les shaders, la gestion des sols, la configuration de la navigation et un contrôle de l'éclairage. Le composant VQA (Visual Question Answering) est étendu avec une catégorie de questions ancrée sur le prompt d'origine, exploitant le fait que la spécification de la scène est connue à l'avance pour servir de référence sémantique vérifiable. Le code est disponible publiquement sur github.com/be2rlab/OSMa-Bench-v2.
L'apport principal est de rendre le benchmarking de la cartographie sémantique extensible et contrôlable, deux propriétés absentes des benchmarks à scènes figées comme ScanNet ou Replica. Pour un intégrateur ou un équipe R&D travaillant sur des bras manipulateurs avec perception 3D, cela signifie pouvoir évaluer un modèle sur des conditions ciblées : objets de petite taille, occlusions partielles, encombrement variable, ou éclairage dégradé, sans avoir à constituer manuellement de nouveaux datasets. Le mécanisme de question-réponse ancré sur le prompt original permet une vérification objective contre une vérité terrain sémantique définie à la génération, ce qui réduit l'ambiguïté d'évaluation typique des VQA sur scènes non contraintes.
OSMa-Bench, le framework d'origine, était déjà positionné sur l'évaluation de méthodes de cartographie sémantique pour la manipulation, un segment moins couvert que la navigation pure. SceneSmith, utilisé ici comme générateur de scènes, est un outil de synthèse procédurale d'environnements intérieurs. Dans le paysage des benchmarks pour la perception robotique, les approches à génération procédurale restent minoritaires face aux scènes scannées (HM3D, Matterport3D), mais gagnent du terrain pour leur capacité à couvrir des distributions hors-domaine. be2rlab n'annonce pas de déploiement industriel ni de partenariat : il s'agit d'une contribution de recherche académique, sous forme de pre-print non encore évalué par les pairs, avec mise à disposition du code comme principal livrable.
Dans nos dossiers




