
MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence
MPCoT (Multi-Path Chain-of-Thought), un preprint arXiv publié le 5 juin 2026 (identifiant 2606.06245), propose un cadre de raisonnement latent multi-trajectoires guidé par récompense pour les politiques Vision-Language-Action (VLA). Le système initialise M hypothèses parallèles, les raffine sur K étapes à poids partagés, puis les agrège par pondération de confiance avant le décodage final de l'action. Un objectif d'entraînement spécifique, la "path-preference objective", évalue chaque branche candidate selon trois critères : cohérence avec des actions expertes, progression estimée par un modèle de monde ou un VLM, et feedback de succès d'exécution. Le système préserve l'interface d'action originale en 8 étapes et ne génère aucun token de raisonnement, éliminant la latence associée aux chaînes de réflexion textuelles classiques. Sur les benchmarks LIBERO et CALVIN, MPCoT améliore les performances sur les tâches à horizon long, avec des ablations confirmant les effets distincts de la profondeur K et de la largeur M.
Le résultat central est que le "test-time scaling", qui a produit des gains majeurs dans les LLM via des modèles comme o1 d'OpenAI ou DeepSeek-R1, peut être transposé aux politiques robotiques sans surcoût de latence mesurable. Les approches chain-of-thought textuelles créent une interface indirecte entre raisonnement et commande motrice, problématique pour le contrôle en temps réel. MPCoT opère entièrement dans l'espace latent, rendant la délibération supplémentaire invisible pour l'interface d'exécution. Pour un intégrateur ou un décideur industriel, cela ouvre la possibilité d'améliorer les capacités d'un VLA existant en ajustant simplement K et M à l'inférence, sans réentraînement du modèle.
Les politiques VLA constituent actuellement le terrain de concurrence central entre Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, Figure avec Helix, et Stanford avec OpenVLA. Tous font face au même défi : la fragilité sur les tâches longues et les situations à forte incertitude, qui représente le principal écart entre démonstration et déploiement réel. MPCoT attaque directement ce "long-horizon gap" via une approche algorithmique, sans modifier l'architecture sous-jacente du modèle. La publication n'est pas adossée à un acteur industriel identifié et n'annonce aucun déploiement concret ; la validation sur hardware réel reste à faire, les benchmarks LIBERO et CALVIN utilisés dans cette étude étant entièrement simulés.
Dans nos dossiers




