
E-VLA : modèle vision-langage-action augmenté par événements pour scènes sombres et floues
Voici l'article traduit et résumé en français, prêt à publier :
Des chercheurs présentent E-VLA, un modèle vision-langage-action (VLA) augmenté par caméra événementielle, conçu pour maintenir la fiabilité des robots manipulateurs dans des conditions de perception dégradées : lumière très faible, flou de mouvement, écrêtage des noirs. Contrairement aux approches classiques qui tentent de reconstruire une image à partir des flux d'événements, E-VLA exploite directement les indices de mouvement et de structure captés par la caméra événementielle pour préserver la cohérence perception-action. L'équipe a construit une plateforme de téléopération open source équipée d'une caméra événementielle DAVIS346 et collecté un jeu de données synchronisé RGB-événements-actions sur des tâches de manipulation variées et sous différents niveaux d'éclairage. Les résultats sont marqués : sur une tâche de type pick-and-place à 20 lux, le taux de réussite passe de 0% avec la seule image RGB à 60% avec une simple superposition des cartes d'événements accumulées, puis à 90% avec l'adaptateur événementiel dédié conçu par les auteurs. Sous flou de mouvement sévère (simulation d'un temps d'exposition de 1000 ms), le pick-and-place progresse de 0% à 20-25% de réussite, et une tâche de tri passe de 5% à 32,5%.
Ces résultats apportent une preuve concrète que la fusion événementielle, même dans sa version la plus simple et sans paramètres, comble un angle mort critique des modèles VLA actuels : leur dépendance à une caméra RGB classique les rend inutilisables dès que l'éclairage ou la stabilité de la scène se dégradent, un scénario fréquent en environnement industriel réel (entrepôts peu éclairés, bras robotiques en mouvement rapide). Pour les intégrateurs et les équipes robotique visant un déploiement en conditions réelles plutôt qu'en démonstration contrôlée, ce travail suggère qu'ajouter un capteur événementiel low-cost peut être plus efficace qu'un réentraînement massif du modèle de perception.
E-VLA s'inscrit dans la lignée des modèles VLA généralistes comme GR00T N2, Pi-0 ou Helix, qui ont démontré une bonne généralisation en manipulation mais restent peu testés hors des conditions de laboratoire. Les auteurs annoncent la publication du code et du jeu de données sur GitHub, ce qui devrait permettre à la communauté d'évaluer la robustesse de la méthode sur d'autres plateformes robotiques et d'autres capteurs événementiels.
Dans nos dossiers




