BOKBO : abstention calibrée pour les politiques de modèles vision-langage-action (VLA)
Une équipe de chercheurs publie BOKBO (Best of K Bad Options), décrit comme la première couche d'abstention conforme pour l'inférence VLA à K échantillons. Le problème adressé est précis : les méthodes de scaling à l'inférence telles que RoboMonkey, SEAL, MG-Select et V-GPS génèrent K chunks d'actions candidates et exécutent celle validée comme la meilleure par un vérificateur. Mais lorsque les K candidates sont toutes non sûres, le système en exécute une sans aucun avertissement. BOKBO s'interpose en amont pour garantir, sans hypothèse sur la distribution des données, un taux maximal de violations exécutées. Deux variantes sont proposées : une globale et une par tâche dite Mondrian, cette dernière étant plus robuste sur les tâches les plus difficiles. Évalué sur le benchmark LIBERO avec OpenVLA-OFT à un seuil de risque ε=0,05, le bound conditionnel CRC tient sur 86% des splits bootstrap, avec une couverture de 78% et un taux de réussite nette de 70%. La variante Mondrian-BOKBO relève la fraction minimale de tenue conditionnelle par tâche de 0,71 à 0,93, sur 5 graines d'entraînement.
Le résultat le plus saillant n'est pas la méthode elle-même mais l'échec structurel qu'elle expose. Les scores de non-conformité internes aux politiques VLA, utilisés comme proxies de sécurité dans les approches existantes, corrèlent à 0,98 avec l'hyperparamètre de bruit d'action σ, et pratiquement pas avec les violations réelles. Autrement dit, les filtres de sécurité actuels mesurent un réglage de bruit, non un risque réel. Pour les intégrateurs industriels et les équipes d'homologation, c'est un signal d'alarme : les garanties de sécurité des pipelines VLA déployés en production reposent peut-être sur un proxy invalide. Les auteurs montrent que l'échec est partiellement atténué avec un sampling stochastique au niveau des tokens plutôt que perturbation-based, mais le problème reste mécanisme-spécifique. Ils corrigent aussi un biais méthodologique courant : des seuils de force fixés globalement bien en dessous des forces typiques d'un expert humain gonflent artificiellement les taux de violation jusqu'à un facteur 5.
Sur le plan du contexte, les VLA comme OpenVLA-OFT et π₀-FAST, testés tous deux dans l'étude, incarnent la convergence entre foundation models et contrôle robotique temps réel. Le benchmark LIBERO, utilisé comme terrain d'évaluation, est devenu une référence dans l'espace manipulation. BOKBO s'inscrit dans la théorie de la prédiction conforme, appliquée ici pour la première fois à l'abstention calibrée dans ce contexte. Les prochaines étapes logiques seraient une validation sur des environnements réels et des tâches hors distribution plus sévères, LIBERO restant un benchmark simulé aux distributions relativement contrôlées. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade.
Les équipes d'homologation et intégrateurs industriels européens déployant des pipelines VLA en production devraient auditer leurs mécanismes de sécurité : cette étude montre que les scores de non-conformité utilisés comme proxies de sécurité mesurent un réglage de bruit, pas un risque réel.
Dans nos dossiers




