Aller au contenu principal
IA physiquearXiv cs.RO2h

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.29384) Event-VLA, un framework combinant des caméras événementielles avec des modèles Vision-Language-Action (VLA) pour rendre la manipulation robotique robuste dans des conditions d'éclairage dégradées. L'approche repose sur l'intégration de flux d'événements, une modalité de capteur neuromorphique qui encode les variations de luminosité pixel par pixel avec une résolution temporelle de l'ordre de la microseconde, contrairement aux caméras RGB classiques qui acquièrent des images complètes à fréquence fixe. L'architecture introduit un mécanisme de routage par requêtes d'action : des requêtes apprenantes extraient la sémantique pertinente à la tâche depuis le raisonnement VLA, puis agrègent sélectivement les tokens événementiels via une cross-attention à portes (gated cross-attention), produisant des représentations d'action sensibles aux conditions lumineuses. Les expériences couvrent des scénarios de simulation et de déploiement réel en faible luminosité, voire en quasi-obscurité.

Ce travail s'attaque à une faille structurelle des VLA actuels, Pi-0, OpenVLA, GR00T N2 ou Helix inclus, qui sont entraînés et évalués quasi-exclusivement dans des environnements d'intérieur bien éclairés et stables. Le sim-to-real gap se double ici d'un lighting-to-real gap rarement quantifié dans les benchmarks publiés. Event-VLA démontre qu'on peut greffer une modalité événementielle sans détruire les priors sémantiques RGB-langage préentraînés, ce qui est non trivial : la plupart des fusions multimodales naïves dégradent la performance en conditions normales pour gagner en robustesse marginale. Le fait que le gain soit mesuré sans régression sur éclairage standard constitue le résultat le plus solide à retenir pour les intégrateurs industriels envisageant des déploiements en entrepôt, en extérieur ou en environnement à éclairage variable.

Les caméras événementielles (Prophesee, inivation, Sony IMX636) restent onéreuses et peu présentes dans les pipelines robotiques commerciaux, ce qui limite la portée immédiate du framework. Le travail s'inscrit dans un mouvement plus large d'hybridation sensorielle pour les VLA, en parallèle d'approches tactiles (GelSight) ou proprioceptives. Côté concurrent, Boston Dynamics, Figure et Agility travaillent sur la robustesse des politiques en conditions réelles mais publient peu sur la gestion de l'éclairage. Aucun acteur européen n'est mentionné dans ce papier. Les auteurs ne précisent pas de pipeline de déploiement à l'échelle ni de timeline industrielle : il s'agit d'un résultat de recherche, pas d'un produit shipé.

Impact France/UE

Prophesee, fabricant français de caméras événementielles, est explicitement cité comme fournisseur matériel clé, ce qui positionne l'écosystème européen du capteur neuromorphique comme brique potentielle des futurs pipelines VLA industriels robustes.

À lire aussi

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
1arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source
X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps
2arXiv cs.RO 

X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps

Des chercheurs ont publié le 26 mai 2026 sur arXiv un nouveau modèle d'action robotique baptisé X-DiffVLA, conçu pour opérer sur plusieurs morphologies de robots sans nécessiter de réentraînement complet par plateforme. L'architecture repose sur un modèle de type VLA (Vision-Language-Action) combiné à une tête d'action par diffusion unifiée, capable de piloter des robots partageant une base commune mais équipés d'effecteurs distincts, pinces classiques ou mains dexteères à plusieurs doigts. Les évaluations rapportent des gains de 15,3 % sur le benchmark RoboCasa et de 12,5 % sur Isaac Gym par rapport aux méthodes de l'état de l'art, avec des validations en environnement réel confirmant la tenue des performances hors simulation. Le défi central que X-DiffVLA tente de résoudre est le goulot d'étranglement du fine-tuning spécifique à chaque embodiment : aujourd'hui, les modèles VLA préentraînés sur de larges corpus doivent être adaptés séparément pour chaque configuration robotique, ce qui fragmente la capitalisation des données et freine le transfert de connaissances entre plateformes similaires. Les auteurs introduisent deux mécanismes pour contourner cela. L'« Embodiment Forcing » est une technique de guidage sans classificateur (classifier-free guidance, inspirée des modèles de diffusion générative) qui oriente implicitement la génération d'actions vers les composantes fonctionnelles propres à chaque effecteur, sans supervision explicite. La « Morphological Tree Diffusion » structure les corrélations comportementales entre effecteurs hétérogènes en exploitant leur parenté morphologique, maximisant ainsi le transfert de démonstrations entre configurations. Ce travail s'inscrit dans une compétition intense autour des politiques robotiques universelles : Physical Intelligence (pi.) avec Pi-0, Google DeepMind avec RT-2 et ses successeurs, ainsi que des équipes académiques comme celles derrière OpenVLA, explorent tous des approches de généralisation cross-embodiment. X-DiffVLA se distingue par son ancrage diffusion plutôt qu'autorégressif, une tendance confirmée par des travaux récents montrant que les modèles de diffusion capturent mieux la multimodalité des distributions d'actions robotiques. Les résultats restent pour l'instant confinés à des benchmarks simulés et à quelques validations réelles non détaillées quantitativement dans l'abstract ; la robustesse à l'échelle industrielle reste à démontrer.

IA physiqueActu
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes
4arXiv cs.RO 

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Une équipe du HCPLab de l'Université Sun Yat-sen (SYSU, Chine) a déposé fin mai 2026 sur arXiv (réf. 2605.19678) RoVLA, un cadre d'entraînement pour renforcer la robustesse des modèles Vision-Language-Action (VLA). Ces modèles, qui couplent perception visuelle, compréhension du langage et génération d'actions pour la manipulation robotique, sont reconnus pour leur fragilité face aux variations d'instructions ou aux perturbations visuelles. RoVLA introduit trois contraintes de cohérence appliquées lors de l'entraînement end-to-end : la cohérence instructionnelle (IC), qui stabilise l'ancrage sémantique sous des reformulations équivalentes d'une même commande ; la cohérence évolutive (EC), qui maintient une intention d'action consistante tout au long de la génération de trajectoire ; et la cohérence observationnelle (OC), qui force des prédictions stables avant et après perturbations visuelles ou proprioceptives. Les expériences sont conduites sur les benchmarks LIBERO-Plus et RoboTwin 2.0, ainsi que sur des tâches de manipulation réelles, avec des performances supérieures aux baselines testées. L'enjeu est bien documenté : les VLA actuels, qu'il s'agisse de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, souffrent d'un gap de robustesse distributionnelle avéré. Dès que les conditions visuelles changent, les instructions sont paraphrasées ou les perturbations s'accumulent, les performances chutent significativement, bloquant le déploiement dans des environnements industriels non contrôlés comme l'assemblage ou la logistique d'entrepôt. RoVLA propose une réponse architecturale en forçant explicitement l'invariance pendant l'entraînement, plutôt que d'augmenter le volume de données ou d'adapter post-hoc, deux stratégies courantes mais insuffisantes pour garantir la stabilité en conditions réelles. Si les résultats se confirment à plus grande échelle, cette approche pourrait réduire concrètement le sim-to-real gap pour des politiques incarnées en production. Ce travail s'inscrit dans une compétition dense entre laboratoires académiques et industriels autour de la robustesse des VLA. Google DeepMind (RT-2, RT-X), Physical Intelligence et NVIDIA ont tous investi massivement dans des architectures à grande échelle sans traiter explicitement l'invariance en cours d'entraînement, ce que RoVLA tente précisément de corriger. Le projet reste pour l'instant un article de recherche académique : aucun déploiement commercial n'est annoncé, et le code sera publié sur GitHub sous le compte HCPLab-SYSU/RoVLA. La prochaine étape crédible serait une validation sur robots physiques en environnement industriel non contrôlé, que les premiers résultats en manipulation réelle esquissent sans encore l'établir à l'échelle.

UELes équipes R&D françaises et européennes spécialisées en manipulation robotique industrielle pourront évaluer cette approche lors de la publication du code (HCPLab-SYSU/RoVLA), mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source