
Luo Jianlán : le vrai Scaling Law de la robotique naît dans la boucle fermée du déploiement réel
Luo Jianlan, ancien doctorant à l'université de Berkeley sous la direction de Sergey Levine - figure fondatrice de l'intelligence incarnée - et ex-chercheur chez Google X puis DeepMind, a rejoint il y a quatorze mois l'Institut de Shanghai pour l'apprentissage et l'intelligence (创智学院) et Zhiyuan Robotics (AgiBot) en qualité de directeur scientifique. Il détaille dans une interview publiée par 36Kr Hardware trois jalons techniques développés depuis son retour : SOP (Scalable Online Post-training), une infrastructure de retour de données en temps réel depuis les robots terrain vers le cloud d'entraînement ; LWD (Learning While Deploying), qui supprime la frontière rigide entraînement/déploiement pour permettre une évolution continue des robots dans des épiceries ou entrepôts réels ; et τ0-WM, un world model codéveloppé avec l'Institut de Shanghai, qui utilise la prédiction vidéo non pas comme fin en soi mais comme simulateur physique conditionné par l'action - comparant plusieurs trajectoires candidates avant exécution pour éviter, par exemple, de faire tomber un objet fragile positionné en bordure de table.
La contribution principale de Luo est son refus d'appliquer mécaniquement la Scaling Law des grands modèles de langage aux robots incarnés. Selon lui, la majorité des "modèles fondamentaux incarnés" actuellement annoncés par des équipes chinoises relèvent en réalité du mid-training ou du fine-tuning appliqué à des bases open-source existantes, faute de données d'interaction hétérogènes en volume suffisant. Or la diminution de la loss curve sur données statiques ne prédit pas le taux de succès en déploiement physique : un robot qui mémorise des données ne maîtrise pas pour autant les perturbations et les cas rares du monde réel. Le vrai marqueur de maturité du secteur, selon Luo, est le moment où l'augmentation du parc de robots déployés entraîne une réduction mesurable du coût d'adaptation à de nouveaux scénarios - ce qu'il appelle le déclenchement du flywheel de données. Ce seuil n'est pas encore atteint, et aucune équipe ne sait le quantifier précisément. Pour les intégrateurs et les décideurs industriels, cela signifie que les performances en démo laboratoire restent peu prédictives des performances terrain.
Zhiyuan Robotics s'impose comme l'un des acteurs phares de l'humanoïde en Chine, dans un secteur qui a progressivement déplacé son attention de la course aux degrés de liberté hardware vers la question de l'intelligence embarquée. Luo cite Physical Intelligence (PI) - la startup américaine issue de chercheurs de Google et DeepMind, connue pour son modèle π0 - avec une formule devenue un adage dans le milieu : "sur le papier, PI n'a jamais gagné ; dans la réalité, PI n'a jamais perdu", illustrant le découplage persistant entre métriques académiques et performances terrain. Zhiyuan vise à valider son flywheel de données dans des environnements semi-structurés réels - épiceries, supermarchés, entrepôts - sur une fenêtre de 12 à 18 mois. Le pari de τ0-WM est que la planification par simulation interne est la clé du passage de la démo au déploiement fiable à grande échelle, là où les modèles VLA (Vision-Language-Action) standards émettent une commande directe sans anticipation des conséquences physiques.
Dans nos dossiers




