Aller au contenu principal
Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage
RecherchearXiv cs.RO2h

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié début juin 2026 (arXiv:2606.02735) un framework baptisé S2, pour "See Less, Specify More", destiné à améliorer la généralisation des modèles vision-langage-action (VLA). S2 repose sur deux mécanismes complémentaires : "Specify More" reformule chaque trajectoire d'entraînement avec des instructions affinées au niveau de la sous-tâche, tout en préservant l'objectif global original, tandis que "See Less" impose un budget explicite de preuves visuelles, forçant le modèle à agir à partir d'un contexte visuel suffisant pour la tâche plutôt que d'un champ de vision non contraint. Le système a été évalué sur huit tâches réelles de manipulation sur deux plateformes robotiques : le TX-G2, une variante compatible AgiBot G2, et le Toyota HSR. Le résultat principal : le taux de succès moyen par sous-tâche passe de 54,2 % à 79,0 % par rapport au modèle de référence pi0.5 de Physical Intelligence.

Ces résultats s'attaquent à l'un des verrous les plus documentés du domaine VLA : la dégradation des performances sous distracteurs visuels, changements d'apparence ou tâches sémantiquement similaires. Le problème identifié est ce que les auteurs nomment "supervision aliasing" : des instructions trop grossières créent une ambiguïté que le modèle doit résoudre seul, dégradant l'apprentissage. S2 contourne ce problème sans annotation de régions ou de masques, ce qui est notable en termes de coût de labellisation. La compatibilité avec des planificateurs VLM standards via le mécanisme d'in-context learning facilite également l'intégration dans des pipelines existants, sans refonte architecturale.

S2 s'inscrit dans une course serrée autour des VLA généralisables. pi0.5, développé par Physical Intelligence (ex-startup fondée par des chercheurs de Google DeepMind et Stanford), constitue ici la baseline battue. La plateforme AgiBot G2, produite par la startup chinoise éponyme, gagne en visibilité comme banc d'essai de référence pour la manipulation humanoïde. Les concurrents directs incluent les approches OpenVLA (Stanford), Octo (Berkeley), et les travaux VLA de Google DeepMind autour de RT-2 et ses successeurs. L'absence de déploiement industriel annoncé maintient S2 dans la catégorie "résultat de recherche prometteur" plutôt que "produit embarqué", mais le gain de 25 points de succès sur des tâches réelles justifie une attention soutenue de la part des intégrateurs robotiques.

À lire aussi

Pré-entraînement universel sur les poses pour des politiques VLA généralisables
1arXiv cs.RO 

Pré-entraînement universel sur les poses pour des politiques VLA généralisables

Des chercheurs ont publié Pose-VLA (arXiv:2602.19710, 2026), un nouveau paradigme d'entraînement pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'approche sépare l'entraînement en deux phases distinctes: une phase de pré-entraînement qui extrait des prior spatiaux 3D universels dans un espace centré sur la caméra, puis une phase de post-entraînement pour l'alignement propre à l'embodiment du robot cible. Le mécanisme central repose sur l'introduction de "discrete pose tokens", une représentation intermédiaire universelle qui combine des données de grounding spatial issues de datasets 3D hétérogènes avec des trajectoires géométriques issues de démonstrations robotiques. Sur le benchmark RoboTwin 2.0, Pose-VLA revendique l'état de l'art avec 79,5% de taux de succès moyen, et atteint 96,0% sur LIBERO. En conditions réelles, le modèle généralise à des objets variés avec seulement 100 démonstrations par tâche. Le problème structurel que Pose-VLA cherche à résoudre est bien documenté dans la littérature: les backbones VLM classiques, optimisés pour le Visual Question Answering, excellent à identifier sémantiquement des objets mais restent relativement insensibles aux variations 3D fines qui dictent des stratégies de préhension différentes. Ce phénomène, qualifié de "feature collapse" par les auteurs, dégrade l'efficacité d'entraînement et limite la généralisation inter-tâches. En découplant explicitement la perception spatiale 3D de la supervision d'action, l'approche vise à réduire significativement le nombre de démonstrations nécessaires pour adapter une politique à un nouveau contexte, ce qui représente aujourd'hui l'un des principaux freins à l'industrialisation des VLA. À noter que les tâches réelles testées ne sont pas détaillées dans l'article, et les performances sur benchmarks simulés ne préjugent pas du comportement en environnement industriel non contrôlé. Les VLA sont au coeur d'une compétition de recherche intense depuis RT-2 de Google DeepMind en 2023, et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA ont chacun tenté d'adresser le sim-to-real gap et la dépendance aux larges corpus de démonstrations. RoboTwin 2.0 et LIBERO sont devenus des références de facto pour comparer ces politiques en manipulation. Pose-VLA s'inscrit dans une tendance plus large de découplage des phases d'entraînement, parallèlement à des approches comme UniSim ou RoboVLMs. Cette publication reste au stade académique: aucun déploiement industriel, partenariat commercial ni timeline de mise en production ne sont mentionnés, et les expériences réelles se limitent à un contexte laboratoire avec des objets courants.

RechercheOpinion
1 source
Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence. Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles. Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

UELe benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

RechercheOpinion
1 source
Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques
3arXiv cs.RO 

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.02274) un article décrivant Dexterity-BEV, un cadre méthodologique visant à corriger deux limitations structurelles des politiques de manipulation robotique basées sur des modèles de vision-langage (VLM) pré-entraînés à grande échelle. La première limitation : ces modèles héritent d'une représentation purement 2D de la vision par ordinateur, inadaptée à la nature intrinsèquement tridimensionnelle de la manipulation. La seconde : il n'existe pas d'alignement spatial cohérent entre les espaces d'entrée et de sortie des politiques, ni entre différents robots, configurations de caméras et jeux de données de trajectoires. Pour y remédier, les auteurs introduisent deux représentations inédites : l'aligned vertex map et le vertex spectrum, des cartes pixel-à-pixel qui élèvent les entrées RGB en coordonnées 3D via la calibration de caméra et la profondeur optionnelle. Ils proposent ensuite un cadre canonique Bird's-Eye-View (BEV), une vue du dessus invariante aux variations de pose de caméra, dans lequel les informations 3D de chaque vue et les actions du robot sont exprimées dans un repère commun. Un pipeline de traitement de données à grande échelle et un schéma d'alignement temporel pour des trajectoires provenant de robots hétérogènes, d'opérateurs humains et de datasets variés complètent l'approche. L'enjeu industriel est direct : les VLA (Vision-Language-Action models) de type π0, OpenVLA ou GR00T N2 souffrent précisément de ce décalage spatio-temporel quand on les déploie sur des robots différents de ceux utilisés à l'entraînement, ou avec des caméras repositionnées. Dexterity-BEV tente de combler ce gap sans abandonner la généralisation offerte par les VLM entraînés sur des données web. La vue BEV, empruntée à l'industrie automobile (perception de véhicules autonomes), est ici réinterprétée pour la manipulation, ce qui constitue un transfert conceptuel non trivial. Si les gains de généralisation annoncés se confirment à l'évaluation réelle, cela réduirait le coût de redéploiement d'une politique sur un nouveau site industriel ou une nouvelle configuration de cellule robotique, une friction majeure pour les intégrateurs. L'article s'inscrit dans une dynamique de recherche intense autour des politiques de manipulation end-to-end, portée par des laboratoires comme Physical Intelligence (π0), Google DeepMind (RT-2, GR00T), et des équipes académiques chinoises et américaines. L'approche BEV pour la robotique terrestre est par ailleurs explorée en parallèle par des groupes travaillant sur les robots mobiles et les AMR d'entrepôt. Les auteurs rendent disponibles le checkpoint pré-entraîné, le code source et le pipeline de données sur leur page projet, ce qui facilite la réplication et l'adoption par la communauté. Aucun partenariat industriel ni déploiement réel n'est mentionné : il s'agit à ce stade d'une contribution de recherche, pas d'un produit commercialisé.

RechercheOpinion
1 source
Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA
4arXiv cs.RO 

Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.22283) SOMA, un framework de mémoire spatiale conçu pour résoudre un angle mort structurel des modèles Vision-Language-Action (VLA) : leur incapacité à manipuler des objets hors du champ visuel. Le système s'appuie sur une caméra de tête mobile pour acquérir des observations multi-vues, qu'il agrège en une représentation spatiale et sémantique persistante. SOMA repose sur trois modules : une construction de mémoire spatiale par balayage angulaire, un raffinement dynamique pour maintenir la cohérence globale au fil du temps, et une récupération contextuelle qui active les indices spatiaux pertinents à l'instruction en cours d'exécution. Les chercheurs l'ont évalué sur cinq tâches réelles de manipulation hors champ, incluant des scénarios multi-étapes et à deux bras où les objets cibles sont initialement invisibles. Les résultats montrent une amélioration du taux de succès, une localisation plus rapide des cibles, moins de recherche de point de vue, et un comportement proche du "one-shot grasping" en conditions d'observabilité partielle. Des expériences complémentaires sur les benchmarks RoboCasa GR1 et SimplerEnv confirment l'efficacité du design mémoire en contexte pleinement observable. Ce travail s'attaque à un verrou souvent ignoré dans la littérature VLA : l'hypothèse implicite que tous les objets pertinents sont dans le champ de vision au moment de l'action. Cette hypothèse rend les systèmes actuels fragiles dès qu'on sort des configurations de démonstration. Le fait que SOMA induise des comportements qualitativement différents, et non de simples gains de score, est notable : une localisation en quasi-une-passe sous observabilité partielle est un résultat concret pour tout intégrateur robotique travaillant en environnement non structuré. Cela suggère que la mémoire spatiale persistante peut s'ajouter comme couche modulaire à un VLA existant, sans refonte complète de l'architecture, ce qui abaisse le seuil d'adoption. Les VLAs ont émergé comme approche dominante en robotique de manipulation depuis fin 2023, portés par Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et OpenVLA issu de Stanford et Berkeley. Ces modèles héritent de l'architecture vision-langage mais restent fondamentalement réactifs : ils traitent un flux visuel instantané sans mémoire de scène. Des travaux parallèles sur la mémoire épisodique existent en navigation mobile (méthodes SLAM-like, NeRF tactique), mais leur intégration dans des pipelines VLA de manipulation reste peu explorée. SOMA comble ce gap sur une plateforme à bras réel. Le code n'est pas encore disponible au moment de la publication, ce qui limite la reproductibilité immédiate ; son déploiement sur d'autres plateformes humanoïdes, au-delà de GR1, constituera l'étape de validation industrielle clé.

RechercheOpinion
1 source