RecherchearXiv cs.RO6sem

OSMa-Bench++ : vers une évaluation ouverte de la cartographie sémantique pour la manipulation via des scènes synthétiques générées par prompt

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs du laboratoire be2rlab publient OSMa-Bench++, une extension du framework d'évaluation OSMa-Bench, déposée sur arXiv en mai 2026. L'objectif est de pallier une limite structurelle des benchmarks actuels pour la cartographie sémantique appliquée à la manipulation robotique : leur dépendance à des jeux de données fixes, insuffisamment couverts en cas limites pertinents pour la manipulation. Le nouveau pipeline génère automatiquement des descriptions de scènes d'intérieur à partir de prompts textuels, synthétise les environnements correspondants via SceneSmith, puis les adapte dans un format de simulation compatible avec OSMa-Bench. Cette adaptation requiert une couche intermédiaire non triviale incluant la normalisation sémantique, la réparation de matériaux et textures, des politiques de fallback pour les shaders, la gestion des sols, la configuration de la navigation et un contrôle de l'éclairage. Le composant VQA (Visual Question Answering) est étendu avec une catégorie de questions ancrée sur le prompt d'origine, exploitant le fait que la spécification de la scène est connue à l'avance pour servir de référence sémantique vérifiable. Le code est disponible publiquement sur github.com/be2rlab/OSMa-Bench-v2.

L'apport principal est de rendre le benchmarking de la cartographie sémantique extensible et contrôlable, deux propriétés absentes des benchmarks à scènes figées comme ScanNet ou Replica. Pour un intégrateur ou un équipe R&D travaillant sur des bras manipulateurs avec perception 3D, cela signifie pouvoir évaluer un modèle sur des conditions ciblées : objets de petite taille, occlusions partielles, encombrement variable, ou éclairage dégradé, sans avoir à constituer manuellement de nouveaux datasets. Le mécanisme de question-réponse ancré sur le prompt original permet une vérification objective contre une vérité terrain sémantique définie à la génération, ce qui réduit l'ambiguïté d'évaluation typique des VQA sur scènes non contraintes.

OSMa-Bench, le framework d'origine, était déjà positionné sur l'évaluation de méthodes de cartographie sémantique pour la manipulation, un segment moins couvert que la navigation pure. SceneSmith, utilisé ici comme générateur de scènes, est un outil de synthèse procédurale d'environnements intérieurs. Dans le paysage des benchmarks pour la perception robotique, les approches à génération procédurale restent minoritaires face aux scènes scannées (HM3D, Matterport3D), mais gagnent du terrain pour leur capacité à couvrir des distributions hors-domaine. be2rlab n'annonce pas de déploiement industriel ni de partenariat : il s'agit d'une contribution de recherche académique, sous forme de pre-print non encore évalué par les pairs, avec mise à disposition du code comme principal livrable.

Dans nos dossiers

Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

Navigation par objectif à vocabulaire ouvert : généraliser la cartographie sémantique avec CLIP dense

Des chercheurs ont publié une nouvelle version (v2) de l'article arXiv 2407.09016, qui présente OVExp, un framework d'exploration en vocabulaire ouvert pour la navigation robotique vers des objets-cibles non catégorisés au préalable. Le système s'appuie sur des modèles Dense CLIP pour généraliser la cartographie sémantique, sans recourir à l'inférence coûteuse de grands modèles de langage (LLM) ni à un entraînement intensif par apprentissage par renforcement (RL) de bout en bout. L'innovation centrale est une stratégie de transfert cross-modal sur cartographie sémantique : le réseau apprend d'abord uniquement à partir de texte, puis transfère ces représentations, au moment du test, vers une cartographie multimodale combinant localisation spatiale précise des objets et représentations visuelles généralisables. Les auteurs annoncent une généralisation robuste vers des objets-cibles inédits, validée sur les benchmarks établis d'ObjectNav, malgré un entraînement reposant sur des mises en page textuelles limitées en nombre d'objets. Pour l'industrie robotique et les intégrateurs, ce travail cible un problème concret de coût et de latence : les approches actuelles de navigation en vocabulaire ouvert, qui appellent un LLM à chaque décision ou nécessitent des heures d'entraînement RL par environnement, restent difficiles à déployer à grande échelle sur des robots mobiles autonomes (AMR) ou des plateformes d'inspection. En montrant qu'un réseau de prédiction d'objectifs basé sur une carte sémantique peut généraliser sans réentraînement lourd ni appel LLM en boucle, OVExp propose une alternative aux architectures VLA gourmandes en ressources, ce qui intéresse directement tout acteur cherchant à doter des robots de capacités de recherche d'objets flexibles sans exploser les coûts d'inférence en production. Ce travail s'inscrit dans la lignée des recherches sur ObjectNav, la tâche de navigation vers un objet-cible désigné par catégorie ou par image dans un environnement inconnu, un benchmark phare de la navigation embarquée depuis plusieurs années. Il se positionne face à deux familles de méthodes concurrentes : celles qui exploitent des LLM sans entraînement supplémentaire pour raisonner sur la scène, coûteuses en inférence, et celles qui affinent des politiques par RL de bout en bout, limitées en généralisation hors distribution. En s'appuyant sur CLIP, déjà largement utilisé pour l'ancrage vision-langage, et sur un entraînement texte-seul transférable au moment du test, les auteurs proposent une voie plus économe en ressources. Publié en v2 sur arXiv, l'article reste à ce stade une contribution académique évaluée en simulation, sans annonce de déploiement matériel ni de partenariat industriel.

RecherchePaper

1 source

2arXiv cs.RO

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Une équipe de recherche a publié le 9 mai 2026 un nouveau benchmark de simulation dédié à l'évaluation des politiques de manipulation robotique, sous le nom VISER (Visually Realistic Simulation for Robot Manipulation Evaluation). Le système repose sur une bibliothèque de plus de 1 000 assets 3D équipés de matériaux PBR (Physically-Based Rendering), intégrés dans des scènes générées automatiquement. Pour constituer cette base à grande échelle, les auteurs ont développé un pipeline automatisé combinant des modèles de langage multimodaux (MLLMs) pour la segmentation des pièces et la récupération des matériaux. Les tâches d'évaluation couvrent la saisie, le placement et des séquences longue durée (long-horizon tasks), permettant de tester des modèles Vision-Language-Action (VLA) dans des conditions reproductibles. Résultat clé : un coefficient de corrélation de Pearson moyen de 0,92 entre les performances en simulation et les performances réelles, mesuré sur plusieurs politiques distinctes. Ce score de 0,92 est le chiffre le plus structurant de la publication. La grande majorité des benchmarks existants génèrent un écart domaine (domain gap) significatif parce qu'ils négligent deux variables décisives : l'éclairage et les propriétés de matériaux. VISER montre expérimentalement que ces deux facteurs pèsent directement sur le raisonnement géométrique et l'ancrage spatial des modèles VLA, deux capacités centrales pour toute manipulation physique fiable. Pour les équipes qui développent des politiques robotiques, un proxy simulation fiable à 0,92 réduit massivement le coût et le temps des cycles d'itération réel, notamment pour des architectures VLA dont le fine-tuning reste coûteux en déploiement physique. Le problème du sim-to-real gap structure la robotique de manipulation depuis plus d'une décennie. Les benchmarks de référence comme RLBench ou MetaWorld sont largement utilisés mais construits sur des rendus bas fidélité qui limitent leur valeur prédictive pour les approches VLA modernes, dont pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. VISER positionne explicitement ses actifs PBR comme une réponse à cette insuffisance, en automatisant la génération via MLLMs pour éviter le goulot d'artisanat manuel qui freinait les benchmarks précédents. La prochaine étape naturelle sera de mesurer si cette corrélation de 0,92 tient sur des robots à morphologies variées et des scénarios de manipulation industrielle hors laboratoire.

RechercheOpinion

1 source

3arXiv cs.RO

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (identifiant 2606.16935) les travaux relatifs à CrossMaps, un pipeline de cartographie sémantique en temps réel conçu pour la navigation de rovers autonomes. Le système exploite des données RGB-D pour construire des cartes interrogeables en langage naturel, en s'appuyant sur des embeddings CLIP multi-échelles fusionnés avec un mécanisme de pondération par confiance. L'architecture repose sur une mémoire duale : une mémoire court terme (STM) qui agrège les observations visuelles bruitées en combinant des métriques de confiance géométrique, sémantique et temporelle, et une mémoire long terme (LTM) dans laquelle sont promus les points d'intérêt stables et cohérents, constituant ainsi des repères sémantiques persistants. Le système est dimensionné pour fonctionner sur un UGV équipé d'un module Jetson Orin de NVIDIA, couplé à un pipeline SLAM, et génère des cartes de chaleur sémantiques interrogeables par requêtes en langage naturel. L'intérêt de CrossMaps réside dans sa gestion explicite de la qualité perceptive, fiabilité du capteur de profondeur, artefacts d'éclairage, densité des données, directement intégrée dans la représentation spatiale, un aspect souvent traité de façon ad hoc dans les systèmes concurrents. En distinguant observations transitoires et connaissances consolidées via la dualité STM/LTM, l'architecture vise à réduire le gap sim-to-real classique des systèmes de navigation sémantique déployés en conditions dégradées. Pour un intégrateur ou un responsable de flotte robotique, cela signifie potentiellement une navigation plus robuste dans des environnements industriels non-structurés sans nécessiter un réentraînement des modèles pour chaque nouveau vocabulaire d'objets. CrossMaps s'inscrit dans la lignée directe des VLMaps (travaux de Huang et al., 2023), qui ont popularisé la fusion de caractéristiques CLIP dans des cartes spatiales 3D pour la navigation en langage naturel. La différence revendiquée ici est la couche de gestion de la confiance et la séparation mémoire court/long terme, absentes dans VLMaps. L'article reste un preprint non encore évalué par les pairs, et les performances réelles sur un UGV physique en dehors de conditions contrôlées ne sont pas détaillées dans l'abstract, un point à vérifier dans le corps du papier avant toute extrapolation industrielle. Les suites naturelles incluent une comparaison quantitative face à ConceptFusion ou LERF, et un déploiement en environnements extérieurs non-structurés.

RecherchePaper

1 source

4arXiv cs.RO

RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage

Des chercheurs ont publié le 16 juin 2026 sur arXiv (référence 2606.13040) RoboProcessBench, un benchmark conçu pour évaluer la compréhension processuelle des modèles vision-langage (VLM) appliqués à la manipulation robotique. L'outil décompose cette capacité en deux axes complémentaires : la surveillance statique (static monitoring) et le raisonnement dynamique (dynamic reasoning), déclinés en 12 familles de questions diagnostiques couvrant la phase d'exécution, le contact physique, le mouvement, la coordination, la progression locale, l'ordre temporel, les résultats et les transitions entre primitives. Le corpus associé, ProcessData, regroupe environ 58 000 paires questions-réponses extraites de 260 tâches de manipulation physiquement simulées, divisé en deux sous-ensembles : ProcessData-SFT pour le fine-tuning et ProcessData-Eval pour l'évaluation. Appliqué à plusieurs VLM représentatifs du marché, le benchmark révèle des lacunes systématiques sur la quasi-totalité des 12 familles de tâches. Toutefois, après fine-tuning sur ProcessData-SFT, les modèles Qwen2.5-VL-7B (Alibaba) et InternVL-3-8B (Shanghai AI Lab) affichent des gains mesurables sur la détection d'état local, de mouvement, de progression et de primitives. Ce travail pointe une faille structurelle dans l'usage croissant des VLM comme critiques visuels, générateurs de récompenses et détecteurs d'échecs dans les pipelines de contrôle robotique : ces modèles sont habituellement évalués sur le succès final d'une tâche, pas sur la qualité de son déroulement. Or, pour un intégrateur ou un COO industriel qui déploie un bras manipulateur en production, la capacité d'un modèle à détecter un contact mal positionné en milieu de séquence ou un désalignement temporel entre deux primitives est aussi critique que le résultat terminal. RoboProcessBench fournit un cadre d'évaluation granulaire là où les benchmarks existants restaient aveugles à cette dimension intermédiaire. Les résultats montrent que les gains obtenus après fine-tuning ciblé sont réels mais localisés, ce qui suggère que la compréhension processuelle fine n'émerge pas spontanément à partir des données d'entraînement généralistes actuels. L'initiative s'inscrit dans une tendance de fond : depuis 2024, les laboratoires de robotique cherchent à intégrer les VLM comme modules de supervision autonomes, à la suite des travaux sur les Visual Language Action models (VLA) comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Le benchmark comble un angle mort laissé par des suites comme RoboSuite, LIBERO ou BehaviorBench, qui mesurent principalement les taux de succès end-to-end. Côté compétiteurs directs dans l'espace des benchmarks de compréhension robotique, on citera MECCANO et ProcTHOR, mais aucun n'adresse explicitement le suivi de primitives en contexte de manipulation physique. La page projet est publiquement accessible, et les données ProcessData sont présentées comme réutilisables pour l'entraînement, ce qui pourrait accélérer leur adoption dans les pipelines de RL basés sur des récompenses apprises. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'un preprint académique.

RecherchePaper

1 source