VL2Spike : distillation de modèles vision-langage vers des réseaux à impulsions pour la perception visuelle basse consommation dans l'IA incarnée
Des chercheurs ont publié sur arXiv (référence 2606.15898) VL2Spike, un cadre de distillation de connaissances qui transfère les représentations multi-modales des grands modèles vision-langage (VLM) vers des réseaux de neurones impulsionnels (SNN), spécifiquement des architectures Spikformer. Les résultats annoncés sur trois jeux de données statiques indiquent un gain de précision de 6,81 points de pourcentage, avec une consommation énergétique réduite à 15,7 % de celle d'un modèle de référence classique. Sur la reconnaissance de lieu par vision (VPR), tâche directement applicable à la navigation robotique, le gain atteint 6,63 %. Deux contributions techniques sont mises en avant : une distillation visuo-temporelle (SVS) qui aligne les représentations spatiales et temporelles du VLM avec les tokens impulsionnels du Spikformer, et une distillation linguistique guidée par prototypes (SPL) qui synchronise les prototypes de classes du SNN avec les embeddings textuels du VLM.
L'enjeu de ce travail est réel pour la robotique embarquée. Les SNN sont architecturalement attractifs pour les systèmes edge (drones, robots mobiles, exosquelettes) car leur calcul événementiel consomme peu d'énergie, mais leurs performances en classification restaient structurellement inférieures aux transformers classiques, limitant leur adoption dans des pipelines de perception industriels. VL2Spike propose une voie pour combler cet écart sans sacrifier l'efficacité énergétique. La précision du chiffre "15,7 % de consommation" mérite toutefois d'être relativisée : il s'agit d'une estimation théorique en opérations synaptiques, pas d'une mesure sur silicium réel, ce que les auteurs reconnaissent implicitement en parlant de "modèles contraints en ressources".
Les réseaux impulsionnels ont connu un regain d'intérêt depuis 2020 avec l'émergence des Spiking Transformers (SpikFormer, Spikingformer, SDT), notamment portés par des groupes à Pékin Jiaotong University et Zhejiang University. Sur le front des VLM utilisés comme "professeurs" en distillation, les approches s'appuient généralement sur CLIP ou ses variantes. Le positionnement concurrentiel direct de VL2Spike se situe face aux méthodes de quantification et de pruning de transformers classiques, qui visent aussi la contrainte énergétique sans les propriétés biologiquement inspirées des SNN. Les suites naturelles incluent des validations sur hardware neuromorphique (Intel Loihi, SpiNNaker) et des tests intégrés dans des boucles de perception robotique complètes.
Dans nos dossiers




