Lâcher-puis-récupérer : quelle est la redondance des modèles vision-langage-action (VLA) ?
Une équipe de chercheurs a publié fin juin 2026 une étude (arXiv:2606.27755) examinant la redondance architecturale des modèles Vision-Language-Action (VLA), ces modèles de contrôle robotique qui combinent un backbone de langage préentraîné avec des modules vision et action. Le protocole, baptisé Drop-Then-Recovery (DTR), consiste à supprimer des blocs transformer sélectionnés d'un VLA préentraîné, puis à le fine-tuner pour mesurer si la capacité retirée était réellement nécessaire au contrôle en boucle fermée. Pour prioriser quels blocs supprimer, les auteurs introduisent GateProbe, une métrique de sensibilité en un seul passage (one-shot) qui classe les blocs selon leur contribution à la perte d'action en aval. Les expériences couvrent plusieurs architectures VLA, des benchmarks de manipulation standard (dont LIBERO) et des scénarios industriels sur robot réel. Résultat chiffré marquant : supprimer la moitié des blocs LLM d'OpenVLA-OFT fait passer le score LIBERO de 95,0 % à 98,3 %, et ne conserver que deux blocs de langage suffit à retrouver les performances de référence.
Ce résultat remet en question un postulat implicite du domaine : que la profondeur des backbones de langage hérités des grands modèles (LLM) est nécessaire à la compréhension d'instructions robotiques. Les instructions typiques en manipulation sont courtes et peu compositionnelles ; le surcapacité linguistique ne sert pas le contrôle et peut même nuire via du bruit de gradient ou une compétition de capacité. En revanche, les voies vision et action se révèlent nettement moins tolérantes à la suppression, ce qui oriente clairement les priorités d'allocation pour les futures architectures VLA. Pour les intégrateurs industriels, cela ouvre la voie à des modèles plus légers, moins coûteux à inférer et à fine-tuner, sans dégradation de performance sur les tâches réelles.
Les VLA ont émergé comme paradigme dominant du contrôle robotique généraliste depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley, 2024), qui ont montré qu'un backbone VLM préentraîné pouvait être réutilisé pour la manipulation. OpenVLA-OFT, utilisé comme modèle de référence dans cette étude, est une variante fine-tunable publiée par l'Université de Stanford. Parmi les concurrents directs sur ce terrain architectural : Physical Intelligence avec pi0 (basé sur un flow matching), qui a déjà opté pour une architecture plus légère côté langage, et les travaux de pruning de transformers en NLP (SparseGPT, Sheared LLaMA) dont DTR s'inspire méthodologiquement. Le code est disponible sur GitHub (s1ghhh/VLADrop). Les prochaines étapes logiques seraient de tester DTR sur des modèles plus récents (GR00T N2 de NVIDIA, Helix de Figure) et sur des tâches à instructions longues ou hiérarchiques, où la profondeur linguistique pourrait enfin devenir un facteur limitant.




