Aller au contenu principal
Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites
IA physiquearXiv cs.RO7sem

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une étude publiée sur arXiv (référence 2505.03500, version 5, mai 2026) expose une limitation structurelle des modèles VLA (Vision-Language-Action) : leur incapacité à combiner des compétences apprises séparément pour exécuter des tâches inédites. L'exemple présenté est parlant, un VLA peut réussir à placer du fromage frais dans un bol et à poser ce bol sur une armoire, mais échoue à placer directement le fromage sur l'armoire. Pour quantifier ce déficit, les chercheurs ont créé libero-ood, un benchmark de 20 tâches extrapolées depuis les suites standards LIBERO. Résultat net : l'ensemble des VLA état-de-l'art testés plafonnent à moins de 15 % de succès. En appliquant leur technique d'interpolation de latents textuels au modèle π0 de Physical Intelligence, les auteurs atteignent 83 % sans aucun réentraînement. Autre découverte préoccupante : des prompts illisibles pour un humain, obtenus par décodage du latent textuel, suffisent à piloter le VLA à 70 % de succès sur LIBERO standard, ouvrant la voie à des attaques de type backdoor ou à des instructions privées non auditables.

La méthode repose sur l'extraction d'un "latent textuel" par tâche de base, en moyennant les états cachés des tokens textuels sur l'ensemble des trajectoires démontrées. Pour exécuter une tâche composite inédite, les chercheurs interpolent temporellement les latents de deux tâches sources et les réinjectent dans le modèle à l'inférence, activant séquentiellement les sous-comportements correspondants. Ce résultat remet en question l'hypothèse d'une compréhension sémantique robuste dans les VLA actuels : l'analyse qualitative révèle un phénomène de surapprentissage spatial, les modèles associant les noms d'objets à des emplacements démontrés plutôt qu'à des entités abstraites. Pour les intégrateurs et décideurs industriels, cela signifie que les benchmarks standards ne détectent pas ces angles morts compositionnels, et que la qualification de systèmes autonomes en production devrait systématiquement inclure des tâches out-of-distribution.

LIBERO est depuis plusieurs années une référence en manipulation robotique tabletop ; libero-ood comble un angle mort important sur la généralisation hors distribution. π0, développé par Physical Intelligence (fondée en 2023 par d'anciens chercheurs de Google et DeepMind, dont Sergey Levine et Chelsea Finn), s'est imposé comme l'un des VLA les plus performants du marché via son architecture flow-matching. Les modèles concurrents testés ici, notamment OpenVLA (Berkeley) et Octo, affichent les mêmes limites compositionnelles. Ce travail, encore au stade preprint, pose les bases d'un nouveau critère d'évaluation pour les VLA et soulève des questions de sécurité concrètes qui devraient alerter les équipes déployant ces modèles en environnement industriel non supervisé.

Impact France/UE

Les équipes R&D et industriels européens déployant des VLA en production doivent revoir leurs protocoles de qualification pour y intégrer des tâches hors-distribution, les benchmarks standards ne détectant pas les angles morts compositionnels exposés ici.

À lire aussi

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse
1arXiv cs.RO 

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse

Une étude publiée sur arXiv (référence 2603.22078) compare les performances de deux familles d'architectures pour la planification d'actions robotiques : les modèles vision-langage-action (VLA), aujourd'hui dominants dans la recherche, et les world action models (WAM), une approche plus récente fondée sur la prédiction d'états futurs. Les chercheurs ont soumis plusieurs systèmes à des perturbations visuelles et linguistiques sur deux bancs d'essai standardisés, LIBERO-Plus et RoboTwin 2.0-Plus. Les résultats chiffrés montrent que LingBot-VA, un WAM, atteint 74,2 % de taux de succès sur RoboTwin 2.0-Plus, tandis que Cosmos-Policy, développé dans l'écosystème NVIDIA, obtient 82,2 % sur LIBERO-Plus. Le VLA pi-0.5, produit par Physical Intelligence, parvient à des niveaux de robustesse comparables sur certaines tâches, mais au prix d'un entraînement sur des jeux de données robotiques très diversifiés et avec des objectifs d'apprentissage multiples. L'enjeu central de cette comparaison est la généralisation hors distribution : les systèmes robotiques déployés en environnement industriel réel rencontrent des variations d'éclairage, de fond visuel et de formulations d'instructions que leurs données d'entraînement ne couvrent pas. Les WAM tirent leur robustesse de préentraînements massifs sur des vidéos web, qui leur confèrent des priors spatiotemporels sur la dynamique du monde physique. L'étude confirme que cette capacité de prédiction explicite des états futurs améliore effectivement la tenue aux perturbations, sans nécessiter autant de données de démonstration robotique que les VLA. Elle identifie également une classe intermédiaire, les approches hybrides qui intègrent partiellement la prédiction vidéo, et montre qu'elles obtiennent une robustesse intermédiaire, soulignant que la manière d'intégrer ces priors vidéo est aussi importante que leur présence. Les VLA comme pi-0 et pi-0.5 (Physical Intelligence), OpenVLA ou RoboVLMs ont dominé la recherche en manipulation robotique depuis 2023, profitant de la maturité des grands modèles vision-langage. Les WAM s'inscrivent dans un courant plus récent, porté notamment par NVIDIA avec sa famille Cosmos et par plusieurs laboratoires académiques, qui revisitent les world models comme substrat d'action plutôt que comme outil de simulation. Cette étude apporte une validation empirique contrôlée à une hypothèse jusqu'ici surtout théorique, et devrait peser dans les choix d'architecture pour les prochaines générations de systèmes robotiques polyvalents, notamment dans les contextes industriels où la robustesse aux variations non anticipées est un critère de qualification prioritaire.

IA physiqueOpinion
1 source
IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique
2arXiv cs.RO 

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.07496) PathPainter, un système de navigation autonome pour robots terrestres et aériens à basse altitude. Le principe central consiste à utiliser des images en vue aérienne (BEV, Bird's-Eye-View) comme prior global de l'environnement. Un modèle génératif d'images interprète une instruction en langage naturel, identifie la destination cible, puis génère automatiquement un masque de traversabilité indiquant les zones navigables. Pendant l'exécution, un module de localisation croisée (cross-view localization) aligne l'odométrie du robot sur la carte BEV pour compenser la dérive à long terme, défaut classique des systèmes odométriques conventionnels. Le système a été validé sur un drone UAV qui a complété une navigation extérieure de 160 mètres en environnement réel, en s'appuyant uniquement sur un planificateur de mouvement local standard. Ce travail illustre une tendance de fond dans la robotique : extraire la capacité de généralisation des grands modèles de fondation (ici un modèle de génération d'images) pour l'injecter dans des pipelines embarqués, sans les réentraîner de zéro. Le transfert de compréhension du monde vers la navigation incarnée (embodied navigation) est l'un des verrous techniques les plus discutés dans le secteur. PathPainter montre qu'un modèle génératif peut jouer le rôle de module de perception sémantique et de planification de haut niveau, réduisant la dépendance à des capteurs 3D coûteux ou à des cartes métriques préconstruites. La validation sur 160 mètres en extérieur reste modeste et les conditions précises du test ne sont pas détaillées dans l'abstract, ce qui invite à relativiser les conclusions avant une évaluation sur benchmarks standardisés. PathPainter s'inscrit dans l'essor des architectures VLA (Vision-Language-Action) appliquées à la navigation, un domaine où plusieurs groupes travaillent simultanément, notamment autour de modèles comme RT-2 (Google DeepMind), OpenVLA ou des travaux issus de Carnegie Mellon et Berkeley sur la navigation en langage naturel. L'usage de la vue aérienne comme prior global rappelle les approches de navigation par carte sémantique de haut niveau, mais ici la carte n'est pas fournie par un opérateur humain : elle est générée à la demande par le modèle. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks de navigation intérieure (Habitat, R2R) et une extension à des plateformes terrestres en environnement industriel ou logistique.

IA physiqueOpinion
1 source
IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA
3arXiv cs.RO 

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Une équipe de chercheurs a publié le 1er mai 2026 (arXiv:2605.00321) un travail introduisant deux outils de diagnostic pour les politiques de type Vision-Langage-Action (VLA) : l'Interventional Significance Score (ISS) et le Nuisance Mass Ratio (NMR). L'ISS est une procédure de masquage interventionnel qui estime l'influence causale de régions visuelles spécifiques sur les prédictions d'action d'un agent robotique. Le NMR est une métrique scalaire qui quantifie dans quelle mesure un modèle s'appuie sur des caractéristiques visuelles non pertinentes pour la tâche plutôt que sur des causes réelles. La méthode reformule l'attribution visuelle comme un problème d'estimation interventionnelle, au sens de la causalité de Pearl, et non comme une simple corrélation statistique. Des expériences sur des tâches de manipulation variées confirment que le NMR prédit le comportement de généralisation, et que l'ISS produit des attributions plus fidèles que les méthodes d'interprétabilité existantes. À noter : le preprint ne publie ni code ni benchmark public, et les métriques de performance sur tâches spécifiques restent peu détaillées dans l'abstract. L'enjeu est direct pour les intégrateurs et les décideurs industriels : les modèles VLA actuellement déployés, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Sanctuary AI, échouent régulièrement hors de leur distribution d'entraînement. Jusqu'ici, identifier pourquoi restait largement empirique. ISS et NMR offrent un test diagnostique pré-déploiement : un NMR élevé signale que le modèle prend ses décisions sur la base de corrélations visuelles parasites (couleur de fond, éclairage, texture du sol) plutôt que sur la structure causale de la tâche. C'est une avancée concrète vers l'analyse formelle du sim-to-real gap, l'un des verrous les plus cités par les équipes d'intégration robotique industrielle, et cela ouvre la voie à des critères de certification hors-distribution avant mise en production. Le problème de l'interprétabilité des politiques robotiques apprises restait largement ouvert. Les méthodes existantes, cartes de saillance par gradient ou rollout d'attention, reposent sur des observations corrélationnelles et ont tendance à surestimer l'importance de features visuelles non causales. Ce travail se positionne explicitement contre ces approches en adoptant un cadre interventionnel rigoureux. Aucune affiliation institutionnelle n'est mentionnée dans le preprint. Les suites naturelles incluent l'application systématique de ces métriques sur des architectures établies comme OpenVLA, Octo ou RoboVLMs, et potentiellement leur intégration comme signal de régularisation pendant l'entraînement. Le papier arrive au moment où Figure AI, 1X Technologies et Agility Robotics intensifient leurs déploiements en environnements industriels réels, rendant la robustesse hors-distribution critique pour la crédibilité commerciale du secteur.

UECes outils de diagnostic pourraient aider les intégrateurs industriels européens à évaluer la robustesse hors-distribution des modèles VLA avant déploiement, et à terme nourrir des critères de certification conformes à l'AI Act.

IA physiquePaper
1 source
INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA
4arXiv cs.RO 

INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA

Des chercheurs ont publié INSIGHT (INference-time Sequence Introspection for Generating Help Triggers), un framework d'apprentissage conçu pour doter les modèles Vision-Language-Action (VLA) d'un mécanisme d'introspection en temps réel. Construit sur π₀-FAST, le modèle de Physical Intelligence, INSIGHT extrait trois types de signaux d'incertitude au niveau du token : l'entropie, la log-probabilité, et des estimations bayésiennes de l'incertitude aléatoire et épistémique via une distribution de Dirichlet. Ces signaux sont ensuite injectés dans des classificateurs transformer compacts, entraînés à prédire le bon moment pour déclencher une demande d'aide vers un superviseur humain. Les auteurs ont comparé deux régimes de supervision : supervision forte (étiquettes denses, annotées finement) et supervision faible (étiquettes bruitées, plus scalables), en évaluant les deux sur des tâches in-distribution et out-of-distribution. La contribution principale est d'ordre systémique : aujourd'hui, les VLA échouent silencieusement. Un robot guidé par ces modèles peut poursuivre une action mal engagée sans aucun signal d'alerte interne, ce qui est rédhibitoire pour un déploiement industriel réel. INSIGHT constitue la première évaluation systématique de l'introspection basée sur l'incertitude dans les VLA, et démontre qu'une modélisation temporelle des signaux token par token, via transformer, surpasse nettement les scores statiques agrégés sur la séquence entière. Le trade-off identifié est clair et opérationnellement utile : les labels forts produisent une détection plus précise des dynamiques d'incertitude fine, mais les labels faibles restent compétitifs lorsque les conditions d'entraînement et d'évaluation sont alignées, ouvrant une voie scalable là où l'annotation dense est impossible. π₀ (pi-zero), développé par Physical Intelligence, est l'un des modèles VLA généraux les plus avancés publiquement disponibles, capable de contrôler des robots manipulateurs sur des tâches dextres variées. INSIGHT se positionne comme une couche de sécurité cognitive au-dessus de tels modèles, distincte des approches classiques de détection d'anomalie ou de confiance par seuillage de softmax. Les concurrents directs dans cet espace incluent les travaux sur le "robot asking for help" chez Google DeepMind (RT-2, SayCan) et les mécanismes de safe exploration en reinforcement learning. Les suites naturelles de ces travaux pointent vers l'active learning adaptatif et l'intervention humaine sélective en boucle fermée, deux problèmes ouverts critiques avant tout déploiement autonome à grande échelle en environnement non contrôlé.

IA physiqueOpinion
1 source