
VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots
Une équipe de chercheurs a présenté VISOR, un oracle de test automatisé pour la robotique basé sur des modèles vision-langage (VLM). Publiée sur arXiv (2605.10408), la méthode vise à résoudre ce que le domaine nomme le "problème de l'oracle de test" : déterminer automatiquement si un robot a accompli une tâche de manière correcte et avec une qualité suffisante. Jusqu'ici, deux approches coexistaient : les oracles symboliques, limités à des jugements binaires pass/fail et spécifiques à chaque tâche, et l'évaluation humaine manuelle, coûteuse, subjective et sujette aux erreurs. VISOR s'appuie sur GPT (OpenAI) et Gemini (Google) pour évaluer à la fois la correction et la qualité d'exécution, et pour quantifier son propre niveau d'incertitude lors des assessments. Le système a été validé sur plus de 1 000 vidéos couvrant quatre tâches robotiques distinctes.
Les résultats montrent des profils contrastés : Gemini obtient un meilleur rappel (recall), identifiant davantage de vraies défaillances, tandis que GPT affiche une meilleure précision avec moins de faux positifs. Ces résultats nuancent l'idée d'un VLM universellement fiable comme juge de comportements robotiques. Plus problématique : les deux modèles présentent une faible corrélation entre leur score d'incertitude auto-déclaré et la correction réelle de leurs jugements. L'incertitude ne peut donc pas servir d'indicateur fiable pour filtrer les erreurs d'évaluation, ce qui est une limite directe pour tout déploiement en pipeline de test continu, où un tel signal de fiabilité serait précieux.
Le "problème de l'oracle de test" est une problématique classique du génie logiciel, qui prend une dimension particulière en robotique physique : les comportements y sont continus, bruités et difficiles à formaliser symboliquement. L'approche VLM-as-judge, popularisée dans l'évaluation des LLMs textuels via des benchmarks comme MT-Bench ou AlpacaEval, est ici transposée à des sorties vidéo de robots, ce qui constitue une extension non triviale. Des travaux concurrents explorent des métriques spécifiques aux tâches ou des simulateurs avec vérification formelle, mais VISOR mise sur la généralité au détriment d'une calibration encore insuffisante. La prochaine étape identifiée par les auteurs est précisément d'améliorer cette corrélation incertitude-correction, condition nécessaire avant toute intégration dans un pipeline CI/CD robotique.
Dans nos dossiers




