Aller au contenu principal
RecherchearXiv cs.RO1h

VL2Spike : distillation de modèles vision-langage vers des réseaux à impulsions pour la perception visuelle basse consommation dans l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.15898) VL2Spike, un cadre de distillation de connaissances qui transfère les représentations multi-modales des grands modèles vision-langage (VLM) vers des réseaux de neurones impulsionnels (SNN), spécifiquement des architectures Spikformer. Les résultats annoncés sur trois jeux de données statiques indiquent un gain de précision de 6,81 points de pourcentage, avec une consommation énergétique réduite à 15,7 % de celle d'un modèle de référence classique. Sur la reconnaissance de lieu par vision (VPR), tâche directement applicable à la navigation robotique, le gain atteint 6,63 %. Deux contributions techniques sont mises en avant : une distillation visuo-temporelle (SVS) qui aligne les représentations spatiales et temporelles du VLM avec les tokens impulsionnels du Spikformer, et une distillation linguistique guidée par prototypes (SPL) qui synchronise les prototypes de classes du SNN avec les embeddings textuels du VLM.

L'enjeu de ce travail est réel pour la robotique embarquée. Les SNN sont architecturalement attractifs pour les systèmes edge (drones, robots mobiles, exosquelettes) car leur calcul événementiel consomme peu d'énergie, mais leurs performances en classification restaient structurellement inférieures aux transformers classiques, limitant leur adoption dans des pipelines de perception industriels. VL2Spike propose une voie pour combler cet écart sans sacrifier l'efficacité énergétique. La précision du chiffre "15,7 % de consommation" mérite toutefois d'être relativisée : il s'agit d'une estimation théorique en opérations synaptiques, pas d'une mesure sur silicium réel, ce que les auteurs reconnaissent implicitement en parlant de "modèles contraints en ressources".

Les réseaux impulsionnels ont connu un regain d'intérêt depuis 2020 avec l'émergence des Spiking Transformers (SpikFormer, Spikingformer, SDT), notamment portés par des groupes à Pékin Jiaotong University et Zhejiang University. Sur le front des VLM utilisés comme "professeurs" en distillation, les approches s'appuient généralement sur CLIP ou ses variantes. Le positionnement concurrentiel direct de VL2Spike se situe face aux méthodes de quantification et de pruning de transformers classiques, qui visent aussi la contrainte énergétique sans les propriétés biologiquement inspirées des SNN. Les suites naturelles incluent des validations sur hardware neuromorphique (Intel Loihi, SpiNNaker) et des tests intégrés dans des boucles de perception robotique complètes.

À lire aussi

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)
1arXiv cs.RO 

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion
1 source
DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique
2arXiv cs.RO 

DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique

Des chercheurs ont soumis sur arXiv (réf. 2605.17486) un nouveau framework d'optimisation pour les modèles VLA (Vision-Language-Action), baptisé DyGRO-VLA (Dynamic Grouped Residual Optimization for VLA). L'approche fonctionne en deux étapes : une phase de capture de représentations latentes inter-tâches fondée sur des principes de théorie de l'information, suivie d'un raffinement dynamique de la politique via un mécanisme de "mixture-of-RL-residuals". Les résultats sont évalués sur les benchmarks LIBERO et RoboTwin2, deux références standard en manipulation robotique multi-tâches, et validés sur robot réel. Les gains de performance sont présentés comme consistants face à des baselines solides, y compris sous distribution shift, c'est-à-dire face à des tâches absentes de l'ensemble d'entraînement. Le problème visé est structurel : lorsqu'on affine un modèle VLA généraliste avec du Reinforcement Learning, il finit généralement par ne bien performer que sur un sous-ensemble étroit de tâches, perdant la polyvalence qui le rendait intéressant. La plupart des optimiseurs RL actuels sont conçus pour une tâche unique, ce qui réduit ces modèles, pourtant pensés comme des contrôleurs généralistes, à des politiques spécialisées peu transférables. Pour un intégrateur ou un industriel déployant des robots sur des lignes à forte variabilité de tâches, ce phénomène est un frein opérationnel direct. DyGRO-VLA répond à ce problème en exploitant les représentations latentes partagées entre tâches tout en limitant les interférences lors de l'optimisation. Si ces résultats se confirment dans des conditions plus diversifiées, cela aurait des implications concrètes sur la viabilité du fine-tuning RL pour des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'essor des modèles VLA, qui combinent vision, langage et action dans un seul réseau de neurones, est l'une des tendances majeures de la robotique depuis 2023. Des acteurs comme Physical Intelligence (Pi-0, Pi-0.5), NVIDIA (GR00T N2), Google DeepMind (RT-2) ou des startups comme Figure AI et 1X Technologies s'appuient sur cette architecture. Le recours au RL pour dépasser les limites de l'imitation pure est une évolution naturelle, mais le maintien des performances sur plusieurs tâches reste un problème ouvert. DyGRO-VLA s'inscrit dans un courant de recherche actif qui inclut des approches comme ReinFT. L'absence de détails sur les conditions expérimentales exactes (nombre de tâches, hardware robot utilisé, comparaisons directes avec les VLA commerciaux) et l'absence de code public au moment de la soumission rendent difficile une évaluation indépendante, une limite fréquente des prépublications arXiv.

RechercheOpinion
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage
4arXiv cs.RO 

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

Une équipe de chercheurs a publié le 29 mai 2026 Embodied3DBench, un benchmark conçu pour évaluer les capacités de perception spatiale bas niveau des modèles de vision-langage (VLMs) dans des environnements 3D incarnés. Le benchmark couvre 6 catégories de tâches réparties en deux groupes : la compréhension structurelle spatiale (ancrage d'objets, prédiction de relations spatiales, correspondance multi-vues) et la perception orientée interaction (prédiction d'affordances, prédiction de points de saisie, prédiction de trajectoires). Il totalise 12 sous-catégories et plus de 21 000 paires questions-réponses annotées. Treize modèles de pointe ont été évalués sur ce corpus. En parallèle, les auteurs ont synthétisé un dataset d'entraînement à grande échelle de 1,3 million de paires QA pour tenter de combler les lacunes identifiées. Les résultats révèlent une dissociation nette dans les capacités des VLMs actuels : ces modèles affichent des performances raisonnables sur le raisonnement spatial de haut niveau, notamment les relations de position entre objets, mais restent très fragiles dès qu'il s'agit de perception orientée interaction, c'est-à-dire prédire où saisir un objet, anticiper une trajectoire de manipulation, ou estimer l'affordance d'une surface. Pour les équipes qui développent des modèles vision-langage-action (VLA) destinés à la manipulation robotique, ce résultat est structurant : il indique que les fondations perceptuelles nécessaires au déploiement réel restent insuffisantes dans les architectures actuelles, y compris les plus récentes. Le fine-tuning sur le dataset de 1,3M paires améliore significativement les scores bas niveau, ce qui suggère que le problème est en partie un déficit de données d'entraînement ciblées plutôt qu'une limite architecturale fondamentale. Ce travail s'inscrit dans un effort plus large de la communauté robotique pour doter les VLMs de capacités d'interaction physique, au-delà de la simple description de scènes. Des systèmes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) reposent sur ces mêmes briques perceptuelles pour passer de la compréhension sémantique à l'action motrice. Jusqu'ici, l'évaluation de ces capacités bas niveau manquait d'un cadre standardisé : la plupart des benchmarks existants (ScanQA, EmbodiedScan) ciblent la compréhension de scènes plutôt que la manipulation. Embodied3DBench comble ce vide méthodologique en proposant à la fois un protocole d'évaluation reproductible et un levier de progression via son dataset synthétique. L'article est disponible en preprint (arXiv:2605.29074) et le code devrait être rendu public prochainement.

RechercheActu
1 source