MIRTH : raisonnement par information mutuelle avec pôles temporels pour agents vision-langage-action
Une équipe de recherche présente MIRTH (Mutual-Information Reasoning with Temporal Hubs), un framework qui vient se greffer sur un modèle VLA (vision-language-action) préentraîné pour améliorer le contrôle robotique. Le système ajoute trois briques techniques : des "hubs" de mémoire temporelle à double échelle qui compressent l'historique long terme de la scène et les tendances de mouvement court terme en embeddings compacts, des tokens de raisonnement latent optimisés via un objectif d'information mutuelle pour aligner le contexte multimodal avec les trajectoires d'action, et un schéma de décodage d'action parallèle qui remplace la génération autorégressive classique par une prédiction vectorielle simultanée pour accélérer le débit de contrôle. Les auteurs annoncent des résultats state-of-the-art sur le benchmark de simulation LIBERO ainsi que sur une plateforme réelle LeRobot, avec des capacités émergentes de récupération d'erreur. Code et jeux de données sont publiés sur GitHub (kiva12138/mirth).
L'enjeu ciblé est bien identifié dans la littérature robotique actuelle : les architectures VLA à trame unique souffrent d'une myopie temporelle qui ignore la dynamique passée de la scène, d'un fossé de raisonnement entre instructions de haut niveau et commandes moteur de bas niveau, et d'une latence d'inférence due au décodage scalaire autorégressif. Ces limites freinent le déploiement de modèles VLA génériques face aux systèmes spécialisés dans l'industrie. À noter toutefois : la validation "monde réel" repose sur LeRobot, une plateforme robotique low-cost destinée à la recherche, loin des contraintes d'un bras industriel ou d'un humanoïde en usine ; les gains restent donc à confirmer à plus grande échelle avant toute traduction en déploiement B2B.
MIRTH s'inscrit dans la lignée des travaux type RT-2, Pi-0 ou GR00T N2, qui cherchent à transférer les connaissances sémantiques du web vers le contrôle physique. La contribution ici est ciblée sur la mémoire temporelle et l'efficacité du décodage plutôt que sur l'échelle des données d'entraînement, une direction complémentaire aux approches des grands laboratoires. La publication du code sur GitHub ouvre la voie à des réplications indépendantes, étape nécessaire pour évaluer la robustesse réelle de ces gains annoncés.
Dans nos dossiers




