
Des données de caméras corporelles sur des travailleurs humains servent à entraîner des cerveaux robotiques dans un essai coréen

La startup sud-coréenne RLWRLD a annoncé un partenariat avec le Lotte Hotel Seoul, le groupe logistique CJ Logistics et des enseignes Lawson pour constituer une base de données de gestes professionnels humains destinée à l'entraînement de robots. Les employés de ces sites portent des caméras-corps pendant l'exécution de tâches courantes mais techniquement exigeantes : pliage de serviettes de banquet et mise en place de tables à l'hôtel, opérations d'entrepôt chez CJ Logistics, organisation de rayonnages en commerce de détail. Ces flux vidéo, enrichis de données de mouvement et de force, alimentent le modèle fondationnel RLDX-1, présenté en 2025, qui cible la manipulation robotique haute précision avec des mains à haut degré de liberté (DoF). L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), traite en flux parallèles les signaux visuels, de mouvement, de mémoire et de couple (torque), qu'elle fusionne ensuite pour générer les actions motrices. Le système intègre également un modèle vision-langage-action (VLA) spécialisé robotique, des modules de physique et de mouvement, et une interface cognitive qui compresse la perception en tokens mémoire pour le suivi de tâches longues. RLWRLD affirme que RLDX-1 dépasse les VLA leaders sur des benchmarks spatiaux, temporels et en contact riche, en simulation comme en conditions réelles, sans chiffres de latence ni taux de succès indépendants publiés à ce stade, ce qui invite à la prudence avant de valider ces affirmations.
Ce projet illustre un changement de paradigme dans la collecte de données robotiques : au lieu de téléopération ou de simulation synthétique seule, RLWRLD mise sur la capture in situ d'expertise métier réelle, là où la dextérité humaine est déjà optimisée par des années de pratique. Pour les intégrateurs et les équipementiers industriels, cela signale que le goulot d'étranglement du sim-to-real gap pourrait être partiellement contourné par du data collection en environnement de production réel. La capacité de RLDX-1 à se généraliser sur des configurations single-arm, dual-arm et humanoïde depuis un modèle unique réduit potentiellement les coûts de fine-tuning par plateforme. La gestion de la mémoire à long horizon via tokens de cognition est une réponse directe à la limite connue des VLA actuels sur les tâches séquentielles complexes, problème documenté chez des équipes comme Physical Intelligence (Pi-0) ou chez l'équipe GR00T de NVIDIA.
RLWRLD s'inscrit dans une vague coréenne de robotique physique soutenue par des programmes gouvernementaux de numérisation des savoir-faire pour l'IA industrielle. Sur le plan compétitif, la startup se positionne face à Physical Intelligence (Pi-0, États-Unis), à l'équipe GR00T N2 de NVIDIA, à Figure (Figure 03) et à 1X Technologies dans la course aux modèles fondationnels pour la manipulation. La Corée du Sud mobilise sa base manufacturière dense, automobile, électronique, logistique, comme terrain de collecte de données, ce que ni les laboratoires américains ni les acteurs européens comme Wandercraft ou Enchanted Tools ne répliquent à cette échelle sectorielle. Les prochaines étapes annoncées incluent l'extension des captations à d'autres secteurs et le déploiement du modèle sur des plateformes humanoïdes commerciales, sans calendrier précis communiqué.
La Corée du Sud construit à grande échelle un avantage compétitif en données d'expertise industrielle réelle que les acteurs européens ne répliquent pas encore, creusant l'écart sur les modèles fondationnels de manipulation robotique.
Dans nos dossiers




