Aller au contenu principal
RecherchearXiv cs.RO1h

BOKBO : abstention calibrée pour les politiques de modèles vision-langage-action (VLA)

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie BOKBO (Best of K Bad Options), décrit comme la première couche d'abstention conforme pour l'inférence VLA à K échantillons. Le problème adressé est précis : les méthodes de scaling à l'inférence telles que RoboMonkey, SEAL, MG-Select et V-GPS génèrent K chunks d'actions candidates et exécutent celle validée comme la meilleure par un vérificateur. Mais lorsque les K candidates sont toutes non sûres, le système en exécute une sans aucun avertissement. BOKBO s'interpose en amont pour garantir, sans hypothèse sur la distribution des données, un taux maximal de violations exécutées. Deux variantes sont proposées : une globale et une par tâche dite Mondrian, cette dernière étant plus robuste sur les tâches les plus difficiles. Évalué sur le benchmark LIBERO avec OpenVLA-OFT à un seuil de risque ε=0,05, le bound conditionnel CRC tient sur 86% des splits bootstrap, avec une couverture de 78% et un taux de réussite nette de 70%. La variante Mondrian-BOKBO relève la fraction minimale de tenue conditionnelle par tâche de 0,71 à 0,93, sur 5 graines d'entraînement.

Le résultat le plus saillant n'est pas la méthode elle-même mais l'échec structurel qu'elle expose. Les scores de non-conformité internes aux politiques VLA, utilisés comme proxies de sécurité dans les approches existantes, corrèlent à 0,98 avec l'hyperparamètre de bruit d'action σ, et pratiquement pas avec les violations réelles. Autrement dit, les filtres de sécurité actuels mesurent un réglage de bruit, non un risque réel. Pour les intégrateurs industriels et les équipes d'homologation, c'est un signal d'alarme : les garanties de sécurité des pipelines VLA déployés en production reposent peut-être sur un proxy invalide. Les auteurs montrent que l'échec est partiellement atténué avec un sampling stochastique au niveau des tokens plutôt que perturbation-based, mais le problème reste mécanisme-spécifique. Ils corrigent aussi un biais méthodologique courant : des seuils de force fixés globalement bien en dessous des forces typiques d'un expert humain gonflent artificiellement les taux de violation jusqu'à un facteur 5.

Sur le plan du contexte, les VLA comme OpenVLA-OFT et π₀-FAST, testés tous deux dans l'étude, incarnent la convergence entre foundation models et contrôle robotique temps réel. Le benchmark LIBERO, utilisé comme terrain d'évaluation, est devenu une référence dans l'espace manipulation. BOKBO s'inscrit dans la théorie de la prédiction conforme, appliquée ici pour la première fois à l'abstention calibrée dans ce contexte. Les prochaines étapes logiques seraient une validation sur des environnements réels et des tâches hors distribution plus sévères, LIBERO restant un benchmark simulé aux distributions relativement contrôlées. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade.

Impact France/UE

Les équipes d'homologation et intégrateurs industriels européens déployant des pipelines VLA en production devraient auditer leurs mécanismes de sécurité : cette étude montre que les scores de non-conformité utilisés comme proxies de sécurité mesurent un réglage de bruit, pas un risque réel.

À lire aussi

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action
2arXiv cs.RO 

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

Des chercheurs ont publié en mai 2026 sur arXiv (2605.19580) PAPO-VLA, une méthode d'optimisation pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique guidée par le langage naturel. L'observation centrale est qu'une politique VLA opère en boucle fermée : chaque action modifie l'état de la scène et conditionne toutes les décisions suivantes, ce qui rend une erreur de planification particulièrement coûteuse. Les auteurs distinguent donc deux rôles dans une politique VLA : le planificateur, qui prend des décisions orientées tâche susceptibles de rediriger l'exécution, et l'exécuteur, qui les traduit en actions continues denses. PAPO-VLA identifie les "actions de planification" en croisant variation d'action et issue de trajectoire, estime leur importance causale via deux critères formels (suffisance et nécessité causales), puis intègre ces poids dans l'estimation d'avantage du GRPO (Group Relative Policy Optimization), de sorte que les moments critiques reçoivent une emphase d'optimisation plus forte sans abandonner le signal de trajectoire globale. Des améliorations sont rapportées sur plusieurs benchmarks de manipulation robotique, sans chiffres précis disponibles dans le résumé public. L'apport clé est de combler un angle mort des approches existantes : l'imitation de trajectoires et l'optimisation par retour de trajectoire entière traitent toutes les actions avec la même importance, alors que certains instants de décision ont un impact causal disproportionné sur le succès de la tâche. Quantifier cet impact via des métriques causales formelles plutôt qu'heuristiques est une avancée méthodologique notable. Pour les équipes déployant des VLA en environnement réel, sur des plateformes comme pi-0 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA), la méthode promet d'améliorer la fiabilité sans données de démonstration supplémentaires. Depuis RT-2 (Google DeepMind, 2023), le secteur des VLA cherche à combler l'écart entre performance en démonstration contrôlée et robustesse en déploiement réel. Le GRPO, popularisé par DeepSeek-R1 pour le raisonnement en LLM, est ici adapté à la robotique via une pondération causale des actions, dans un axe de recherche croissant autour du renforcement causal appliqué aux robots. PAPO-VLA est un preprint non encore revu par les pairs ; la validation expérimentale complète, avec benchmarks précis et comparaisons contrôlées, reste à confirmer via publication.

RechercheOpinion
1 source
Entraînement hybride pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Entraînement hybride pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.00600, version 2) un framework nommé Hybrid Training (HyT), conçu pour les modèles Vision-Language-Action (VLA) utilisés en robotique de manipulation. Le problème central est le suivant : le raisonnement par chaîne de pensée (Chain-of-Thought, CoT), qui consiste à générer des "pensées" intermédiaires avant chaque action, améliore les performances des VLA mais allonge mécaniquement le temps d'inférence. Dans des tâches requérant de longues séquences d'actions successives, ce délai compromet l'utilisabilité réelle du système. HyT découple la phase d'apprentissage de la phase d'exécution : le modèle s'entraîne en intégrant les pensées intermédiaires, acquiert les gains de performance associés, puis peut les omettre entièrement lors du déploiement. Le framework supporte trois modes à l'inférence selon le contexte : prédiction directe d'actions, génération CoT complète, ou suivi d'instructions. Les auteurs ont validé l'approche sur plusieurs benchmarks simulés et sur des expériences en conditions réelles. Ce découplage entraînement/inférence répond à l'une des tensions fondamentales dans le déploiement industriel des VLA : les techniques qui améliorent la fiabilité dégradent souvent la réactivité. Pour un intégrateur ou un COO industriel, un système qui "réfléchit" trop longtemps avant d'agir est difficilement intégrable sur une ligne de production cadencée. HyT avance que les bénéfices du raisonnement explicite peuvent être distillés dans les poids du modèle et activés implicitement, sans générer de tokens supplémentaires au runtime. Si ce résultat se confirme à plus grande échelle, il simplifierait le compromis latence/performance qui freine aujourd'hui le déploiement de bras manipulateurs VLA en environnement non structuré. C'est également une réponse indirecte au "demo gap" fréquemment reproché à ces modèles : de bonnes performances en simulation ne garantissent pas une vitesse d'exécution acceptable sur le terrain. L'essor des VLA s'est accéléré depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (UC Berkeley), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), qui combinent vision, langage et prédiction d'actions dans un seul réseau. L'application du CoT à la robotique prolonge les travaux fondateurs sur les LLMs, mais se heurte aux contraintes temps-réel absentes du traitement de texte. HyT s'inscrit dans un courant de recherche orienté déployabilité, aux côtés de la distillation de politiques et des architectures à flux de tokens réduit. La publication est une preprint arXiv non peer-reviewed, et les résultats en conditions réelles restent à confirmer à plus grande échelle industrielle. Aucun acteur européen n'est impliqué dans ces travaux ; les laboratoires cités opèrent principalement depuis les États-Unis.

RechercheOpinion
1 source
Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence. Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles. Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

UELe benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

RechercheOpinion
1 source