Chronos : cadre à historique complet guidé par la physique pour la manipulation non markovienne à long horizon
Une équipe de recherche a publié fin juin 2026 sur arXiv (2606.30318) un framework appelé Chronos pour résoudre un problème fondamental des politiques de manipulation robotique : leur incapacité à mémoriser l'historique d'exécution d'une tâche. Chronos traite chaque observation passée, capteur proprioceptif et image, comme un token temporel aligné sur le pas de contrôle physique, et propage cet historique complet via un modèle d'espace d'états sélectif (SSM). Ce contexte causal conditionne un prior d'action multimodal appris par IMLE (implicit maximum likelihood estimation), raffiné par un pont de Schrödinger du second ordre qui prédit des champs d'accélération pour des trajectoires plus lisses. Sur RMBench, benchmark qui exige la mémorisation de la phase courante de la tâche, Chronos atteint 73,6 % de succès moyen contre 11,2 % pour pi0.5 de Physical Intelligence, soit +62,4 points et un facteur 6,6x, avec dix fois moins de paramètres. Il dépasse également le VLA à mémoire explicite Mem-0 de 22,8 points en utilisant 30x moins de paramètres. En conditions réelles, sur quatre tâches bras-droit/bras-gauche avec une unique caméra RGB, Chronos obtient 78 % de succès global et 72 % sur les sous-tâches mémoire-dépendantes, là où pi0.5 plafonne à 7 % global et 0 % sur ce sous-ensemble.
Ces résultats remettent en cause une hypothèse courante dans les politiques d'imitation généralisées : que l'observation courante, complétée d'une courte fenêtre temporelle, suffit à conditionner l'action correcte. Pour des tâches à horizon long avec dépendance d'état, comme l'assemblage séquentiel ou le pick-and-place conditionnel, cette approximation markovienne génère des ambiguïtés résolues à tort. Chronos montre qu'élever l'historique complet au rang d'état latent de la politique améliore substantiellement la robustesse sim-to-real. La compacité du modèle est également un avantage concret pour les équipes qui déploient des politiques embarquées sur calculateurs edge.
Ce travail s'inscrit dans une vague remettant en question l'architecture VLA post-RT-2, face à des modèles comme pi0.5 de Physical Intelligence et GR00T N2 de NVIDIA, qui dominent les benchmarks de manipulation générale avec des fenêtres d'attention bornées sans mémoire d'état explicite. L'approche SSM de Chronos se rapproche des architectures récurrentes linéaires de type Mamba appliquées au contrôle robotique. Les auteurs évaluent sur 16 tâches simulées et 4 tâches réelles, mais ne précisent ni plateforme matérielle cible ni calendrier de déploiement industriel, ce qui classe ce travail dans la catégorie recherche publiée et non produit disponible.




