
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches.
L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D.
Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.
Le déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.



