
PInVerify : un benchmark incarné hors-ligne pour la vérification active d'instances
Des chercheurs publient sur arXiv (référence 2605.30639) PInVerify, un benchmark pour la vérification d'instance active (AIV), tâche dans laquelle un agent embarqué sélectionne activement ses angles d'observation autour d'un objet candidat pour décider s'il correspond à une description textuelle précise, par exemple "floral blanc" contre "rayé blanc". Le dispositif comprend 3 000 épisodes couvrant 18 catégories d'objets, structurés en topologie à six secteurs avec des vues-pièges (positions navigables mais non informatives) et des secteurs inaccessibles. Quatre familles de modèles sont évaluées dans la contrainte embarquée de moins de 8 milliards de paramètres : Qwen3-VL en versions 4B et 8B, SenseNova-SI-1.2-InternVL3-8B, CLIP et SigLIP2. Le meilleur agent basé sur un grand modèle multimodal (MLLM) dépasse la meilleure baseline d'embeddings de 4,9 points de pourcentage, et un agent affiné via LoRA (combinant SFT et GSPO) atteint 85,6 %.
Ce travail formalise une lacune documentée mais peu traitée dans la navigation robotique : atteindre la proximité d'un objet cible ne garantit pas la bonne identification de l'instance, problème critique dans des entrepôts ou environnements industriels où des objets visuellement similaires coexistent. L'enjeu est direct pour les intégrateurs de robots mobiles autonomes (AMR) ou de bras manipulateurs qui s'appuient sur des pipelines vision-langage pour le picking. Résultat contre-intuitif : les trois stratégies de sélection du prochain point de vue (NBV, next-best-view) testées ne produisent pas de gains fiables, indiquant que l'exploration active reste un problème ouvert même avec des MLLMs performants. Les ablations sur les boîtes de détection (GT-box) révèlent en outre un écart de +3,1 points, pointant la qualité de détection en amont comme verrou non négligeable.
PInVerify s'inscrit dans la lignée des benchmarks d'IA incarnée comme EmbodiedScan ou les suites Habitat de Meta, mais se concentre sur la vérification sémantique fine plutôt que sur la navigation globale. Les modèles retenus pour l'évaluation proviennent quasi exclusivement d'acteurs asiatiques (Qwen3 d'Alibaba, SenseNova de SenseTime), GPT-4V et Gemini étant absents du banc de test, ce qui limite la portée comparative. Le code est publié en open source sur GitHub, positionnant PInVerify comme potentielle référence commune pour les équipes travaillant sur les agents VLA (Vision-Language-Action) à déploiement embarqué, avec comme prochaines étapes identifiées l'amélioration des stratégies NBV et l'extension vers des scènes dynamiques.
Dans nos dossiers




