Aller au contenu principal
VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots
RecherchearXiv cs.RO6sem

VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a présenté VISOR, un oracle de test automatisé pour la robotique basé sur des modèles vision-langage (VLM). Publiée sur arXiv (2605.10408), la méthode vise à résoudre ce que le domaine nomme le "problème de l'oracle de test" : déterminer automatiquement si un robot a accompli une tâche de manière correcte et avec une qualité suffisante. Jusqu'ici, deux approches coexistaient : les oracles symboliques, limités à des jugements binaires pass/fail et spécifiques à chaque tâche, et l'évaluation humaine manuelle, coûteuse, subjective et sujette aux erreurs. VISOR s'appuie sur GPT (OpenAI) et Gemini (Google) pour évaluer à la fois la correction et la qualité d'exécution, et pour quantifier son propre niveau d'incertitude lors des assessments. Le système a été validé sur plus de 1 000 vidéos couvrant quatre tâches robotiques distinctes.

Les résultats montrent des profils contrastés : Gemini obtient un meilleur rappel (recall), identifiant davantage de vraies défaillances, tandis que GPT affiche une meilleure précision avec moins de faux positifs. Ces résultats nuancent l'idée d'un VLM universellement fiable comme juge de comportements robotiques. Plus problématique : les deux modèles présentent une faible corrélation entre leur score d'incertitude auto-déclaré et la correction réelle de leurs jugements. L'incertitude ne peut donc pas servir d'indicateur fiable pour filtrer les erreurs d'évaluation, ce qui est une limite directe pour tout déploiement en pipeline de test continu, où un tel signal de fiabilité serait précieux.

Le "problème de l'oracle de test" est une problématique classique du génie logiciel, qui prend une dimension particulière en robotique physique : les comportements y sont continus, bruités et difficiles à formaliser symboliquement. L'approche VLM-as-judge, popularisée dans l'évaluation des LLMs textuels via des benchmarks comme MT-Bench ou AlpacaEval, est ici transposée à des sorties vidéo de robots, ce qui constitue une extension non triviale. Des travaux concurrents explorent des métriques spécifiques aux tâches ou des simulateurs avec vérification formelle, mais VISOR mise sur la généralité au détriment d'une calibration encore insuffisante. La prochaine étape identifiée par les auteurs est précisément d'améliorer cette corrélation incertitude-correction, condition nécessaire avant toute intégration dans un pipeline CI/CD robotique.

Dans nos dossiers

À lire aussi

MANGO : génération automatisée d'oracles de test multi-agents pour les modèles vision-langage-action
1arXiv cs.RO 

MANGO : génération automatisée d'oracles de test multi-agents pour les modèles vision-langage-action

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.24815) un framework nommé MANGO, pour Multi-Agent test oracle GENeration for Vision-Language-Action models. Les modèles VLA constituent la nouvelle génération de systèmes de contrôle robotique : ils intègrent dans une architecture unifiée la perception visuelle, la compréhension du langage naturel et la génération d'actions motrices. L'approche dominante pour les tester repose sur des oracles symboliques écrits manuellement, des fonctions qui évaluent si un robot a accompli sa tâche à partir de l'état final de l'environnement. MANGO automatise cette étape via un pipeline de trois agents LLM collaboratifs : un Generator qui produit une bibliothèque d'actions atomiques réutilisables, un Assessor qui ancre ces définitions dans le simulateur, et un Judge qui arbitre et affine les artefacts par feedback itératif. Le système a été évalué sur les benchmarks LIBERO_10 et RoboCasa Humanoid Tabletop. L'intérêt principal est de supprimer le goulot d'étranglement humain dans la qualification des robots VLA. Les oracles symboliques actuels exigent une expertise domaine significative et restent couplés à une tâche précise, ce qui limite fortement leur réutilisation dès qu'on change de scénario ou de cellule de travail. MANGO génère des oracles à grain fin capables d'évaluer des étapes intermédiaires, pas seulement l'état final, ce qui améliore la localisation des pannes : au lieu de constater qu'un robot a échoué, on identifie quelle action atomique a dévié. Les résultats montrent une détection de défauts comparable aux oracles symboliques manuels avec une couverture diagnostique plus riche, un levier direct pour les équipes QA qui valident des flottes de robots VLA en production. Les modèles VLA ont connu une accélération marquée depuis 2024 avec Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure AI et plusieurs variantes issues des laboratoires académiques. Tous partagent le même point faible : leur validation reste artisanale, peu reproductible, et difficile à passer à l'échelle. MANGO s'inscrit dans un effort croissant pour combler le fossé entre démos en laboratoire et déploiement industriel, en dotant les pipelines CI/CD robotiques d'outils d'évaluation automatisés. L'article demeure un preprint non relu par les pairs et le code n'est pas encore publié, ce qui invite à nuancer les résultats avant toute adoption. La prochaine étape naturelle serait une validation sur environnements physiques réels, au-delà des scénarios de manipulation sur table couverts par les benchmarks actuels.

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action
3arXiv cs.RO 

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Des chercheurs ont publié le 2 juin 2026 FATE-VLA (arXiv:2606.02307), une méthode active de génération de tests pour évaluer les modèles VLA (Vision-Language-Action), ces politiques robotiques généralisées qui combinent perception visuelle, compréhension linguistique et commande motrice. Plutôt que de tester ces modèles sur des benchmarks statiques à échantillonnage aléatoire, FATE-VLA reformule l'évaluation comme un problème de découverte active de défaillances : un algorithme couple exploration guidée par la diversité et modèles surrogate appris sur les exécutions observées, afin d'orienter les tests vers les régions de scène à haut risque. Appliqué à quatre modèles VLA de référence, dont GR00T-N1.6 de NVIDIA, le système identifie jusqu'à 29,7 % de défaillances supplémentaires par rapport aux baselines retenus et expose des modes d'échec plus variés. Sur GR00T-N1.6 spécifiquement, le taux de succès chute de 64,4 % à 34,7 % lorsque les scènes de test ciblent les zones problématiques de l'espace de configuration. Ce résultat soulève une question directe pour quiconque envisage de déployer des VLA en production industrielle : les performances communiquées par les fabricants sont mesurées sur des benchmarks à tirage aléatoire qui, par construction, sous-représentent les configurations critiques. Si les défaillances sont rares mais concentrées dans certaines régions de l'espace de tâche, ce que FATE-VLA confirme empiriquement, un benchmark classique peut afficher 64 % de succès là où un intégrateur confronté à ces configurations limites observera des performances nettement inférieures. Le paradigme proposé s'inspire du fuzzing et du test adversarial déjà standards en sécurité logicielle, deux pratiques absentes des protocoles de validation robotique actuels. Les modèles VLA ont connu une accélération marquée depuis 2023-2024, avec des architectures comme pi-zero (Physical Intelligence), GR00T N1/N1.6 (NVIDIA), OpenVLA et Octo. Leur évaluation s'appuie encore sur des benchmarks fixes comme LIBERO, Calvin ou MetaWorld, tous vulnérables au biais d'échantillonnage décrit ici. FATE-VLA s'inscrit dans une tendance plus large de stress-testing adaptatif des modèles de fondation robotiques, en parallèle des travaux sur la robustesse sim-to-real et le domain randomization. Il s'agit d'un preprint arXiv sans déploiement ni pilote industriel annoncé, mais ses recommandations ciblent directement les équipes de validation chez les fabricants de bras manipulateurs et les intégrateurs qui ne disposent pas encore de standards formels pour certifier des politiques neuronales généralisables avant mise en production.

UELes intégrateurs et fabricants européens évaluant ou déployant des modèles VLA en production industrielle sont directement concernés : les benchmarks standards sur lesquels reposent les performances annoncées (dont celles de GR00T-N1.6 de NVIDIA) sous-représentent par construction les configurations critiques, exposant ces équipes à des taux de défaillance réels nettement supérieurs aux chiffres publiés.

RechercheOpinion
1 source
Revue des grands modèles de langage pour les systèmes multi-robots
4arXiv cs.RO 

Revue des grands modèles de langage pour les systèmes multi-robots

Une équipe de chercheurs a publié sur arXiv (référence 2502.03814, version 5) la première revue systématique dédiée à l'intégration des grands modèles de langage (LLM) dans les systèmes multi-robots (MRS). Le survey catégorise les usages en trois niveaux d'abstraction : allocation de tâches de haut niveau (décomposition d'objectifs, planification globale), planification de trajectoire au niveau intermédiaire, et génération d'actions bas niveau, auxquels s'ajoute une quatrième dimension couvrant l'intervention humaine et la collaboration homme-robot. Les domaines d'application recensés incluent la robotique domestique, la construction, le contrôle de formation, le suivi de cibles mobiles et les jeux multi-agents robotiques. Les auteurs maintiennent un dépôt GitHub open source mis à jour en continu pour suivre l'évolution rapide des publications. Le principal apport de ce travail est de combler un angle mort : la littérature sur les LLM en robotique se concentrait jusqu'ici sur les systèmes mono-robot, ignorant les défis propres à la coordination distribuée. Passer à plusieurs robots soulève des problèmes structurels distincts : scalabilité des communications, cohérence des plans entre agents, gestion des conflits de ressources. Les auteurs documentent des gains réels en compréhension du langage naturel et en décomposition de tâches complexes, mais identifient trois obstacles majeurs à l'adoption industrielle : les lacunes en raisonnement mathématique (planification géométrique, optimisation multi-agents), les hallucinations pouvant propager des erreurs à l'échelle d'une flotte entière, et la latence d'inférence, incompatible avec les boucles de contrôle temps réel des systèmes industriels. Ce survey arrive dans un contexte où plusieurs acteurs tentent d'industrialiser la coordination robotique fondée sur les LLM : Google DeepMind avec RT-2 et SayCan, Physical Intelligence avec Pi-0, et Figure AI ont chacun démontré des capacités de planification langage-vers-action sur des robots individuels ou en nombre limité. L'extension à des flottes hétérogènes reste un problème ouvert, en particulier sur le sim-to-real : les benchmarks actuels, souvent conduits en simulation, ne reflètent pas fidèlement les contraintes de déploiement réel. Les auteurs identifient le fine-tuning sur des données multi-robots spécifiques, le développement de modèles de raisonnement dédiés aux tâches, et la création de benchmarks standardisés comme priorités de recherche à venir. Aucun calendrier de déploiement commercial n'est évoqué dans le document.

RecherchePaper
1 source