RecherchearXiv cs.RO 16 juin 2026

VL2Spike : distillation de modèles vision-langage vers des réseaux à impulsions pour la perception visuelle basse consommation dans l'IA incarnée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.15898) VL2Spike, un cadre de distillation de connaissances qui transfère les représentations multi-modales des grands modèles vision-langage (VLM) vers des réseaux de neurones impulsionnels (SNN), spécifiquement des architectures Spikformer. Les résultats annoncés sur trois jeux de données statiques indiquent un gain de précision de 6,81 points de pourcentage, avec une consommation énergétique réduite à 15,7 % de celle d'un modèle de référence classique. Sur la reconnaissance de lieu par vision (VPR), tâche directement applicable à la navigation robotique, le gain atteint 6,63 %. Deux contributions techniques sont mises en avant : une distillation visuo-temporelle (SVS) qui aligne les représentations spatiales et temporelles du VLM avec les tokens impulsionnels du Spikformer, et une distillation linguistique guidée par prototypes (SPL) qui synchronise les prototypes de classes du SNN avec les embeddings textuels du VLM.

L'enjeu de ce travail est réel pour la robotique embarquée. Les SNN sont architecturalement attractifs pour les systèmes edge (drones, robots mobiles, exosquelettes) car leur calcul événementiel consomme peu d'énergie, mais leurs performances en classification restaient structurellement inférieures aux transformers classiques, limitant leur adoption dans des pipelines de perception industriels. VL2Spike propose une voie pour combler cet écart sans sacrifier l'efficacité énergétique. La précision du chiffre "15,7 % de consommation" mérite toutefois d'être relativisée : il s'agit d'une estimation théorique en opérations synaptiques, pas d'une mesure sur silicium réel, ce que les auteurs reconnaissent implicitement en parlant de "modèles contraints en ressources".

Les réseaux impulsionnels ont connu un regain d'intérêt depuis 2020 avec l'émergence des Spiking Transformers (SpikFormer, Spikingformer, SDT), notamment portés par des groupes à Pékin Jiaotong University et Zhejiang University. Sur le front des VLM utilisés comme "professeurs" en distillation, les approches s'appuient généralement sur CLIP ou ses variantes. Le positionnement concurrentiel direct de VL2Spike se situe face aux méthodes de quantification et de pruning de transformers classiques, qui visent aussi la contrainte énergétique sans les propriétés biologiquement inspirées des SNN. Les suites naturelles incluent des validations sur hardware neuromorphique (Intel Loihi, SpiNNaker) et des tests intégrés dans des boucles de perception robotique complètes.

Dans nos dossiers

IA physique & VLA Exosquelettes arXiv cs.RO

À lire aussi

1arXiv cs.RO

ActiveFly-Bench : aligner la réponse à des questions incarnée avec un modèle vision-langage-action pour la perception aérienne incarnée

Une équipe de recherche publie ActiveFly-Bench, un nouveau benchmark visant à combler le fossé entre le raisonnement en environnement virtuel et l'interaction physique pour la perception active des drones. Décrit dans un article déposé sur arXiv (2607.10180v1), ce benchmark décompose la perception active en trois tâches hiérarchiques: le question-réponse incarné aérien (Air-EQA), la planification du comportement d'observation (OBP) et le contrôle fin du drone guidé par le langage (FLUC), reliant explicitement la compréhension de tâches de haut niveau, la planification comportementale et le contrôle bas niveau. Les jeux de données combinent des environnements extérieurs réels et simulés, utilisés à la fois pour l'entraînement et l'évaluation. Les auteurs ont aussi développé ActiveFly, un agent en boucle fermée qui associe raisonnement vision-langage et contrôle fin, effectivement déployé sur une plateforme UAV physique, et non testé uniquement en simulation. L'enjeu dépasse le simple exercice académique: les tests menés avec des modèles vision-langage (VLM) et des modèles vision-langage-action (VLA) représentatifs montrent que les agents actuels peinent encore sur la planification comportementale, l'ajustement de point de vue et l'accomplissement robuste de tâches en perception active. Autrement dit, la promesse des architectures VLA généralistes, popularisées au sol par des systèmes comme GR00T N2 ou Helix, ne se transpose pas automatiquement au domaine aérien: piloter un drone qui doit décider où regarder, comment se repositionner et quand agir reste un problème ouvert. Pour les intégrateurs de drones d'inspection, d'agriculture ou de surveillance, ce constat tempère l'enthousiasme autour des copilotes autonomes tout-en-un et souligne que le sim-to-real n'est pas résolu pour l'aérien comme il commence à l'être pour la manipulation au sol. Ce travail s'inscrit dans la lignée des benchmarks d'IA incarnée (embodied QA) déjà développés pour les robots terrestres et les bras manipulateurs, mais transposés pour la première fois de façon systématique au domaine UAV, où les contraintes de vol, de vent et de champ de vision changent la donne. Face à des acteurs commerciaux comme DJI ou Skydio qui vendent déjà de l'autonomie de vol assistée, ActiveFly-Bench propose un cadre d'évaluation académique standardisé plutôt qu'un produit, avec l'ambition de devenir une référence pour mesurer les progrès futurs des agents aériens embarquant du raisonnement multimodal.

RecherchePaper

1 source

2arXiv cs.RO

Force-based memory pour les modèles vision-langage-action dans la manipulation à contacts riches

Une équipe de recherche propose FM-VLA, un modèle vision-langage-action (VLA) doté d'une mémoire basée sur la force plutôt que sur l'image, décrit dans un article publié sur arXiv (référence 2607.18231v1) daté de juillet 2026. Le système encode l'historique des forces de contact captées par le robot dans des tokens de mémoire compacts, générés par un autoencodeur variationnel (VAE) pré-entraîné à reconstruire des séries temporelles de force. Ces représentations latentes sont ensuite injectées, avec un court historique d'état, comme tokens de conditionnement supplémentaires dans le module d'action du VLA. L'équipe a testé FM-VLA sur trois tâches nécessitant une mémoire temporelle : retrouver un bloc caché, appuyer plusieurs fois sur un bouton, et essuyer une vaisselle un nombre précis de fois. Résultat annoncé : plus de 80% de taux de réussite, avec un surcoût de calcul à l'inférence jugé minime, et des performances nettement supérieures aux approches de référence. L'enjeu dépassé le simple gain de précision : les VLA actuels reposent souvent sur une hypothèse markovienne, où l'action ne dépend que de l'observation présente, ce qui les rend aveugles à des événements répétitifs difficiles à distinguer visuellement, comme plusieurs pressions rapides sur un même bouton. Les approches existantes de mémoire visuelle, qui rééchantillonnent des images passées, sont coûteuses en calcul et échouent justement sur ces cas ambigus. En s'appuyant sur le signal de force, disponible nativement sur la plupart des bras manipulateurs équipés de capteurs, FM-VLA offre une alternative légère pour la manipulation en contact riche, un domaine clé pour l'assemblage industriel, l'insertion de pièces ou la manipulation fine où la vision seule ne suffit pas à lever l'ambiguïté temporelle. Ce travail s'inscrit dans la lignée des modèles VLA généralistes comme Pi-0 ou GR00T N2, qui ont démontré la capacité de ces architectures à généraliser sur des tâches de manipulation variées, mais peinent encore sur les scénarios non markoviens. FM-VLA se positionne comme une brique modulaire plutôt qu'un système complet, testée pour l'instant en conditions contrôlées sur un nombre restreint de tâches. Les auteurs mettent à disposition une page de projet dédiée pour les détails techniques et démonstrations, sans annoncer pour l'instant de déploiement industriel ou de partenariat commercial.

RechercheActu

1 source

3arXiv cs.RO

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion

1 source

4arXiv cs.RO

Vers des modèles vision-langage à faible latence avec prédictions doublement correctes pour la compréhension visuelle égocentrique

Des chercheurs ont publié sur arXiv (réf. 2606.25160v1) une étude sur l'élagage des modèles vision-langage (VLMs) appliqué à la compréhension visuelle égocentrique, c'est-à-dire depuis le point de vue d'un robot ou d'un humain équipé de capteurs embarqués. L'objectif est de réduire la latence d'inférence pour des tâches collaboratives homme-robot (HRC) en temps réel, où chaque milliseconde compte. Les auteurs introduisent le concept de "prédiction doublement correcte" : une sortie du modèle doit être à la fois précise dans sa réponse ET ancrée dans les bonnes preuves visuelles (localisation d'evidence correcte). Leurs expériences montrent un résultat surprenant : les méthodes d'élagage existantes (weight pruning) tendent à préserver la localisation des indices visuels pertinents, mais dégradent la précision de la prédiction finale. Pour corriger cela, ils proposent une stratégie d'élagage informée par le raisonnement (rationale-informed pruning), validée sur des jeux de données vidéo égocentrique, sur lesquels elle surpasse les approches concurrentes en précision et en taux de prédictions doublement correctes. Pour les intégrateurs robotiques et les équipes qui déploient des VLMs sur des robots collaboratifs, ce résultat a des implications directes. La sécurité en HRC exige non seulement que le robot prenne la bonne décision, mais qu'il la prenne pour les bonnes raisons, ce qui est essentiel pour l'auditabilité et la conformité dans des contextes industriels réglementés. La démonstration que les techniques d'élagage standards cassent silencieusement la chaîne preuve-décision est un signal d'alarme pour quiconque compresse des VLMs à des fins de déploiement embarqué sans valider ce couplage. Cette publication s'inscrit dans une vague de travaux visant à rendre les VLMs exploitables sur hardware contraint, en réponse à la montée en puissance des architectures vision-action comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), qui intègrent déjà des capacités de compréhension visuelle pour la manipulation. L'élagage structuré reste une voie active face à la distillation ou la quantification. La prochaine étape naturelle serait de tester cette approche sur des benchmarks de manipulation réelle ou des pipelines de type VLA (Vision-Language-Action), où le gap sim-to-real reste ouvert. Il s'agit pour l'instant d'un preprint non évalué par les pairs.

RechercheOpinion

1 source