Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage
Des chercheurs de Google Research ont développé une nouvelle méthode d'entraînement qui apprend aux grands modèles de langage (LLMs) à approximer le raisonnement bayésien, en s'appuyant sur les prédictions d'un système bayésien optimal comme signal d'apprentissage. Cette approche cible un point de faiblesse structurel des LLMs actuels : leur capacité à mettre à jour leurs croyances de manière cohérente au fil d'une conversation multi-tours.
L'enjeu est fondamental pour l'industrie. Un modèle qui raisonne de façon bayésienne intègre chaque nouvelle information pour affiner ses estimations de manière mathématiquement rigoureuse — là où les LLMs classiques ont tendance à ignorer ou mal pondérer les indices contextuels successifs. Pour les applications à forte valeur ajoutée (assistants médicaux, juridiques, scientifiques), cette capacité à réviser ses conclusions à la lumière de nouveaux faits est critique.
La méthode proposée repose sur une distillation de comportement : le LLM est entraîné à imiter les sorties d'un inféreur bayésien optimal, servant de "professeur" théorique. L'apprentissage porte spécifiquement sur les interactions multi-étapes, où le modèle doit traiter des informations arrivant séquentiellement et mettre à jour ses probabilités en conséquence. L'article est signé par Daniel Dominguez, chercheur associé à l'initiative.
Si les résultats se confirment à l'échelle, cette direction de recherche pourrait marquer une rupture dans la façon dont les modèles gèrent l'incertitude — en remplaçant des heuristiques statistiques implicites par un cadre formel inspiré de la théorie des probabilités. Google positionne ainsi ses travaux en amont d'une limitation reconnue de toute l'industrie, avant même que les architectures de type "reasoning models" n'aient pleinement résolu ce défi.



