
Un modèle fondation VLA pragmatique
LingBot-VLA est un modèle fondation de type Vision-Language-Action (VLA) publié en janvier 2026 sur arXiv (v3), conçu pour la manipulation robotique sur bras duals. Entraîné sur environ 20 000 heures de données réelles issues de 9 configurations distinctes de robots bi-bras, le modèle a été évalué sur 3 plateformes robotiques différentes, chacune complétant 100 tâches avec 130 épisodes de post-entraînement par tâche. Sur le plan de l'efficacité computationnelle, la codebase développée atteint un débit de 261 échantillons par seconde sur un cluster de 8 GPU, représentant une accélération de 1,5 à 2,8 fois selon le VLM de base choisi. Le code, le modèle de base et les données de benchmark sont publiés en open access.
Ce travail s'attaque à l'un des verrous structurels des VLA en production : la généralisation croisée entre tâches et entre plateformes, couplée à un coût d'adaptation acceptable en données et en GPU-heures. Le fait que le modèle surpasse ses concurrents sur 100 tâches distinctes par plateforme, avec seulement 130 épisodes de fine-tuning, indique que le sim-to-real gap et l'adaptation à de nouveaux morphologies de bras sont partiellement résolus dans ce cadre, du moins pour la manipulation bi-bras. Pour un intégrateur industriel ou un équipementier, c'est un signal concret : l'écart entre démo labo et déploiement réel se réduit sur des tâches structurées, même si les conditions de benchmark restent contrôlées et méritent d'être vérifiées en environnement ouvert.
La course aux VLA généralisables oppose aujourd'hui plusieurs approches : Pi-0 de Physical Intelligence sur des données hétérogènes multi-robots, OpenVLA et Octo comme baselines open-source établies, et GR00T N2 de NVIDIA ciblant l'humanoïde. LingBot-VLA se positionne sur le segment bi-bras industriel, avec une volumétrie de données réelles supérieure à la plupart des travaux publiés et un accent explicite sur l'efficacité d'entraînement, ce qui le rend pertinent pour des laboratoires sans infrastructure cloud massive. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une contribution académique avec ouverture du code, dont les suites dépendront de l'adoption communautaire et d'éventuels partenariats industriels non encore divulgués.
Les laboratoires et intégrateurs européens sans infrastructure cloud massive peuvent adopter directement le modèle et les données open-access pour accélérer leurs travaux de manipulation bi-bras.
130 épisodes pour adapter le modèle à un nouveau robot, c'est un seuil qu'on n'osait pas espérer il y a deux ans. L'open access complet du modèle, du code et des données, c'est ça la vraie nouvelle, parce que les labos sans infrastructure cloud massive peuvent maintenant entrer dans la course face à NVIDIA et Physical Intelligence. Reste à voir si ça tient hors benchmark.




