
MANGO : génération automatisée d'oracles de test multi-agents pour les modèles vision-langage-action
Des chercheurs ont publié fin juin 2026 sur arXiv (2606.24815) un framework nommé MANGO, pour Multi-Agent test oracle GENeration for Vision-Language-Action models. Les modèles VLA constituent la nouvelle génération de systèmes de contrôle robotique : ils intègrent dans une architecture unifiée la perception visuelle, la compréhension du langage naturel et la génération d'actions motrices. L'approche dominante pour les tester repose sur des oracles symboliques écrits manuellement, des fonctions qui évaluent si un robot a accompli sa tâche à partir de l'état final de l'environnement. MANGO automatise cette étape via un pipeline de trois agents LLM collaboratifs : un Generator qui produit une bibliothèque d'actions atomiques réutilisables, un Assessor qui ancre ces définitions dans le simulateur, et un Judge qui arbitre et affine les artefacts par feedback itératif. Le système a été évalué sur les benchmarks LIBERO_10 et RoboCasa Humanoid Tabletop.
L'intérêt principal est de supprimer le goulot d'étranglement humain dans la qualification des robots VLA. Les oracles symboliques actuels exigent une expertise domaine significative et restent couplés à une tâche précise, ce qui limite fortement leur réutilisation dès qu'on change de scénario ou de cellule de travail. MANGO génère des oracles à grain fin capables d'évaluer des étapes intermédiaires, pas seulement l'état final, ce qui améliore la localisation des pannes : au lieu de constater qu'un robot a échoué, on identifie quelle action atomique a dévié. Les résultats montrent une détection de défauts comparable aux oracles symboliques manuels avec une couverture diagnostique plus riche, un levier direct pour les équipes QA qui valident des flottes de robots VLA en production.
Les modèles VLA ont connu une accélération marquée depuis 2024 avec Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure AI et plusieurs variantes issues des laboratoires académiques. Tous partagent le même point faible : leur validation reste artisanale, peu reproductible, et difficile à passer à l'échelle. MANGO s'inscrit dans un effort croissant pour combler le fossé entre démos en laboratoire et déploiement industriel, en dotant les pipelines CI/CD robotiques d'outils d'évaluation automatisés. L'article demeure un preprint non relu par les pairs et le code n'est pas encore publié, ce qui invite à nuancer les résultats avant toute adoption. La prochaine étape naturelle serait une validation sur environnements physiques réels, au-delà des scénarios de manipulation sur table couverts par les benchmarks actuels.
Dans nos dossiers




