
LLMPhy : un raisonnement physique à paramètres identifiables combinant grands modèles de langage et moteurs physiques
Des chercheurs du laboratoire MERL (Mitsubishi Electric Research Laboratories) ont publié LLMPhy, un framework d'optimisation en boîte noire couplant grands modèles de langage (LLM) et simulateurs physiques pour résoudre un problème rarement adressé : l'identification des paramètres physiques latents d'une scène, tels que la masse ou le coefficient de friction des objets. Le système décompose la construction d'un jumeau numérique en deux sous-problèmes distincts : l'estimation continue des paramètres physiques et l'estimation discrète de la disposition spatiale de la scène. À chaque itération, LLMPhy demande au LLM de générer des programmes encodant des estimations de paramètres, les exécute dans un moteur physique, puis utilise l'erreur de reconstruction résultante comme signal de rétroaction pour affiner ses prédictions. Les auteurs introduisent également trois nouveaux jeux de données conçus pour évaluer le raisonnement physique en contexte zéro-shot, comblant un vide dans les benchmarks existants qui ignorent systématiquement la question de l'identifiabilité des paramètres.
La quasi-totalité des méthodes d'apprentissage pour le raisonnement physique contournent cette identification, se contentant de prédire des comportements sans modéliser les propriétés intrinsèques des objets. Or, pour des applications critiques comme l'évitement de collision ou la manipulation robotique, connaître la masse exacte ou le frottement d'un objet est souvent non négociable. Sur ses trois benchmarks, LLMPhy revendique des performances à l'état de l'art, avec une récupération des paramètres plus précise et une convergence plus fiable que les méthodes en boîte noire antérieures, selon les résultats rapportés par les auteurs eux-mêmes. L'approche articule deux niveaux de connaissance complémentaires : le savoir physique textuel encodé dans les LLM et les modèles du monde implémentés dans les moteurs de simulation modernes.
LLMPhy s'inscrit dans un courant actif autour des world models et de la fermeture du fossé sim-to-real en robotique. MERL, filiale de recherche appliquée de Mitsubishi Electric, positionne ce travail face à des approches alternatives comme les world models neuronaux de type DreamerV3 ou UniSim, et aux modèles d'action-vision-langage (VLA) qui opèrent sans moteur physique explicite, gagnant en flexibilité au détriment de l'interprétabilité des paramètres. La version publiée (arXiv:2411.08027v3, troisième révision) ne mentionne pas d'intégration sur des systèmes robotiques physiques : les résultats restent confinés à la simulation, et aucune timeline de déploiement réel n'est annoncée.




