Aller au contenu principal
Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel
IA physiquearXiv cs.RO2j

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet.

L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique.

Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

Impact France/UE

Impact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

💬 Le point de vue du dev

Le vrai verrou des robots en environnement réel, c'est pas la compréhension du langage, c'est la sémantique d'instance : distinguer "ma tasse" de "ta tasse" sans ré-entraîner le modèle pour chaque utilisateur. VAP règle exactement ça, avec quelques photos de référence et une surcouche légère compatible avec n'importe quel VLA existant. Reste à voir ce que ça donne hors tabletop, mais comme brique vers des robots vraiment personnalisables en déploiement réel, c'est ce qui manquait.

À lire aussi

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action
1arXiv cs.RO 

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Publiée en mars 2026 sur arXiv (référence 2603.22003v3), VP-VLA est une architecture à deux systèmes qui dissocie raisonnement de haut niveau et exécution motrice dans les modèles Vision-Language-Action. Le problème adressé est structurel : les VLA actuels effectuent un unique passage en avant (forward pass) censé gérer simultanément l'interprétation d'instructions, l'ancrage spatial et le contrôle moteur de bas niveau, ce qui dégrade la précision spatiale et la robustesse hors distribution. VP-VLA sépare ces responsabilités via une interface de prompts visuels : un "Planificateur Système 2" décompose les instructions en sous-tâches et localise objets et positions cibles, puis rend ces ancres spatiales directement dans l'espace RGB natif sous forme de réticules et boîtes englobantes. Un "Contrôleur Système 1", entraîné avec un objectif auxiliaire d'ancrage visuel, génère ensuite les trajectoires de bas niveau à partir de ces prompts. En simulation et en environnement réel, VP-VLA surpasse les baselines end-to-end QwenOFT (basé sur les modèles Qwen d'Alibaba) et GR00T-N1.6 (NVIDIA), les deux références industrielles les plus avancées du moment. L'intérêt architectural tient à l'évitement du mismatch de modalité que créent les représentations intermédiaires denses -- masques d'affordance, cartes de contrôle spécialisées -- qui obligent les modèles à jongler entre espaces de représentation hétérogènes. En substituant des annotations légères directement dans l'espace RGB natif, VP-VLA maintient une cohérence de modalité tout au long du pipeline. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela se traduit concrètement par une meilleure robustesse aux configurations non vues à l'entraînement et une précision spatiale accrue sur les tâches de manipulation. La séparation explicite planification/exécution faciliterait aussi la mise à jour ou le remplacement indépendant de chaque composant, un avantage non négligeable en contexte de déploiement itératif. VP-VLA s'inscrit dans un mouvement plus large de déconstruction des VLA monolithiques, après RT-2, OpenVLA, et les architectures GR00T de NVIDIA. La publication en version v3 indique des révisions successives, signe probable d'une soumission à une conférence de premier rang (IROS 2026, CoRL 2026 ou RSS 2026). Le choix de GR00T-N1.6 et QwenOFT comme baselines positionne explicitement VP-VLA face aux approches portées par des acteurs industriels majeurs. Aucun déploiement physique industriel ni partenariat de production n'est annoncé à ce stade : les expériences réelles restent en environnement de laboratoire. La page projet ouverte (visualprompt-vla.github.io) laisse présager une publication du code, ce qui favoriserait une adoption rapide et une validation indépendante par la communauté robotique.

UELes laboratoires européens actifs en VLA (INRIA, CEA-List) pourraient bénéficier d'une architecture open-source plus robuste hors distribution si le code est publié, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

IA physiqueOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
3arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
4arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

IA physiqueOpinion
1 source