Aller au contenu principal
IA physiquearXiv cs.RO2h

Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de chercheurs présente Agentic-VLA, un framework d'entraînement agentique pour modèles Vision-Langage-Action (VLA), publié sur arXiv (2605.22896) fin mai 2026. L'approche repose sur trois mécanismes : une synthèse adaptative de récompenses qui génère dynamiquement des fonctions de récompense en décomposant les tâches complexes en sous-objectifs progressifs pour un apprentissage par curriculum ; une exploration guidée par le langage via un modèle critique qui structure la recherche de politique plutôt que de procéder par échantillonnage aléatoire ; et une mémoire d'expériences qui stocke des poids de politique pour amorcer l'adaptation à de nouvelles tâches similaires. Évalué sur le benchmark LIBERO, le framework affiche +12,3% sur les tâches longue portée, +28,5% en apprentissage one-shot, et un transfert inter-tâches passant de 0% à 31,2% sans démonstrations spécifiques aux tâches cibles. La convergence est 2,4 fois plus rapide que les méthodes d'adaptation en ligne existantes. Les résultats tiennent également sur RoboTwin 2.0, benchmark dual-bras, y compris en mode difficile randomisé.

Ces performances s'attaquent à deux verrous bien identifiés du déploiement industriel des VLA : la mauvaise généralisation aux environnements non vus et la dépendance aux larges jeux de démonstrations coûteuses à collecter. Le chiffre de 31,2% de transfert sans démonstration est le plus significatif : il suggère qu'un système VLA pourrait s'adapter à une tâche inédite sans données étiquetées supplémentaires, cassant le cycle coûteux de collecte-retrain-validation. Le gain one-shot (+28,5%) est directement exploitable pour les intégrateurs robotiques qui opèrent dans des environnements variés avec peu de données disponibles. Si ces chiffres se confirment hors simulation, Agentic-VLA réduit le coût marginal de l'adaptation d'un robot à un nouveau cas d'usage, ce qui est le vrai goulot d'étranglement de la robotisation flexible.

Les VLA sont des modèles combinant un encodeur vision-langage (de type LLaVA ou similaire) et un générateur d'actions motrices. Les références actuelles sont π0 de Physical Intelligence, OpenVLA et Octo. Leur talon d'Achille commun est le demo-to-reality gap : les politiques entraînées sur démonstrations se dégradent rapidement en conditions opérationnelles réelles. Agentic-VLA répond par l'adaptation en ligne continue plutôt que par pré-entraînement massif, ce qui est une orientation différente des approches à grandes données comme π0. L'article reste un preprint non relu par les pairs, sans validation sur robot physique rapportée, ce qui limite la portée immédiate des conclusions. La prochaine étape naturelle est une démonstration hardware en environnement non contrôlé.

💬 Le point de vue du dev

Le chiffre qui m'intéresse, c'est le 31,2% de transfert sans démonstration. Si ça tient hors simulation, ça règle le vrai problème de la robotique flexible : tu n'as plus à reconstruire un dataset complet pour chaque nouveau cas d'usage, le robot s'adapte. Reste à voir sur du vrai hardware, mais sur le papier c'est le bon angle d'attaque.

À lire aussi

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 15 mai 2026 sur arXiv (2605.10925) PriorVLA, un framework d'adaptation pour les modèles Vision-Language-Action (VLA) destinés à la manipulation robotique généraliste. L'approche repose sur deux composants distincts : un Prior Expert gelé, utilisé en lecture seule pour conserver les représentations apprises lors du pré-entraînement, et un Adaptation Expert entraînable sur la tâche cible. Des Expert Queries extraient des priors de scène depuis le VLM pré-entraîné et des priors moteurs depuis le Prior Expert, puis les injectent dans l'Adaptation Expert pour guider la spécialisation. Résultat : PriorVLA ne met à jour que 25 % des paramètres modifiés par un fine-tuning complet. Sur le benchmark RoboTwin 2.0-Hard, il dépasse pi0.5 de 11 points ; sur LIBERO, il atteint 99,1 % de taux de succès moyen. Sur huit tâches réelles et deux plateformes embarquées, le modèle affiche 81 % de succès en distribution et 57 % hors distribution. En régime few-shot à 10 démonstrations par tâche, il atteint respectivement 48 % et 32 %, surpassant pi0.5 de 24 et 22 points. Le problème central que PriorVLA attaque est bien documenté : le fine-tuning complet d'un VLA pré-entraîné sur de grandes quantités de données tend à écraser les priors larges au profit de patterns étroits propres à la distribution d'entraînement, dégradant la généralisation hors distribution. C'est précisément le noeud du déploiement industriel, un robot doit fonctionner dans des environnements légèrement différents de ceux vus à l'entraînement. Les gains OOD de PriorVLA, conjugués à ses performances few-shot, suggèrent une voie plus efficace en données et en calcul pour adapter des fondations générales à des cellules de production spécifiques, sans réentraîner l'intégralité du modèle. PriorVLA s'inscrit dans la course à l'adaptation des VLA généralistes, un segment dominé par Physical Intelligence avec pi0 et pi0.5, et par NVIDIA avec GR00T N2 côté infrastructure. L'article utilise pi0.5 comme baseline principale, ce qui positionne PriorVLA explicitement comme une amélioration de l'état de l'art issu de Physical Intelligence. L'approche par expert gelé rappelle des techniques issues du PEFT (Parameter-Efficient Fine-Tuning) en NLP, ici transposées à l'action robotique. Les benchmarks RoboTwin 2.0 et LIBERO sont des standards académiques simulés ; les résultats sur tâches réelles, bien que prometteurs, restent limités à un contexte de laboratoire. Aucun déploiement industriel ni partenariat industriel n'est mentionné dans la publication.

UELes laboratoires de robotique européens (CEA-List, INRIA) pourraient appliquer cette méthode pour adapter des VLA généraux à leurs plateformes avec moins de données et de calcul, mais aucune entité française ou européenne n'est directement impliquée dans la publication.

IA physiqueOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
4arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

IA physiqueOpinion
1 source