
LaST-R1 : un nouveau paradigme de raisonnement physique atteint 99,9 % de succès sur le benchmark LIBERO
Une équipe réunissant Zojian Power, l'Université de Pékin et l'Université chinoise de Hong Kong a publié LaST-R1 (Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning), un nouveau paradigme d'entraînement pour robots manipulateurs accepté en Spotlight à ICML 2026 (top 2,2 % des soumissions). Sur le benchmark LIBERO, référence standard d'évaluation de la manipulation robotique, le modèle atteint un taux de succès moyen de 99,9 % avec une seule trajectoire de mise en route, saturant le benchmark au point que les auteurs le considèrent désormais comme un outil discriminant insuffisant. En conditions réelles de saisie et de rotation d'objets, LaST-R1 surpasse pi0.5 de Physical Intelligence de 22,5 points de pourcentage. L'innovation centrale est l'abandon du raisonnement par chaîne de pensée en langage naturel : avant de générer une action, le modèle construit une représentation interne de la structure de la scène, des relations physiques entre objets et des dynamiques futures anticipées dans un espace latent. L'algorithme LAPO (Latent-to-Action Policy Optimization) optimise conjointement ce raisonnement et l'exécution motrice, les retours d'environnement pénalisant non seulement l'échec de l'action mais aussi la qualité du raisonnement physique préalable.
Ce résultat s'attaque au verrou le plus persistant des modèles VLA (Vision-Language-Action) : la généralisation. Les architectures comme OpenVLA, pi0 ou pi0.5 tendaient à échouer dès qu'un objet était légèrement déplacé ou que les conditions d'éclairage changeaient, trahissant une fragilité structurelle liée à la mémorisation de trajectoires plutôt qu'à la compréhension des contraintes physiques. En faisant raisonner le robot sur la physique avant d'agir, LaST-R1 améliore la robustesse aux perturbations sans nécessiter de rejeu massif de données, ce qui représente potentiellement une réduction des coûts de reprogrammation lors de changements de références ou de conditions opératoires pour les intégrateurs industriels.
Le terrain concurrentiel est aujourd'hui dominé par Physical Intelligence, dont les modèles pi0 et pi0.5 sont issus de la recherche académique californienne et adossés à des levées de fonds conséquentes, ainsi que par OpenVLA, fruit de consortiums universitaires américains. LaST-R1 positionne Zojian Power, startup chinoise, comme un acteur technique crédible en s'appuyant sur des collaborations académiques de premier rang à Pékin et Hong Kong. La sélection en Spotlight à ICML 2026 confère au travail une légitimité internationale, mais les expériences réelles restent limitées à des environnements contrôlés de saisie et de rotation ; aucun déploiement industriel ni feuille de route commerciale n'a été annoncé, ce qui maintient LaST-R1 dans la catégorie résultat de recherche prometteur, pas encore produit déployé.
Dans nos dossiers




