
Un robot humanoïde utilise la vision et la mémoire pour trier des objets avec dextérité

Lors d'un événement baptisé "Dexterity Night" organisé par la startup sud-coréenne RLWRLD à l'Exploratorium de San Francisco, un robot humanoïde du japonais Enactic a exécuté un tri de chaussettes noires sur tapis roulant, parmi un flux mélangé de chaussettes noires et blanches. Le robot identifiait la couleur de chaque chaussette par caméra embarquée, saisissait l'objet avec des mains antropomorphes, puis le déposait dans le bon bac, tout en conservant en mémoire les couleurs précédemment détectées pour enchaîner les décisions sans recalibrage. D'autres robots étaient présents, WIRobotics (Corée du Sud) et Origami Robotics (États-Unis), tous pilotés par le même modèle de fondation RLDX-1 développé par RLWRLD. En parallèle, RLWRLD accélère la collecte de données réelles en filmant des travailleurs qualifiés (hôtellerie, logistique, commerce de proximité) via caméras et capteurs, pour constituer des datasets couvrant des gestes de pliage, préhension et organisation en conditions réelles.
L'intérêt de la démonstration réside moins dans le tri de chaussettes en lui-même que dans l'architecture technique sous-jacente. RLDX-1 repose sur un Multi-Stream Action Transformer (MSAT) qui traite en flux parallèles les signaux visuels, de mouvement, de mémoire et de couple avant de les fusionner pour générer des actions coordonnées. Un module de cognition compresse les entrées perceptuelles en tokens mémoire, ce qui permet un suivi de tâche sur un horizon long, un point de friction récurrent dans les modèles de fondation robotiques actuels, que RLWRLD identifie explicitement comme sa cible. Pour enrichir la diversité d'apprentissage, le système combine motion capture de mains humaines et un moteur de données synthétiques. Les benchmarks annoncés sont décrits comme "state-of-the-art" en simulation et en conditions réelles, affirmation usuelle dans les communiqués de ce secteur, et qu'il faudra vérifier sur des déploiements documentés en production.
RLWRLD s'inscrit dans une dynamique coréenne qui cherche à se différencier d'un marché humanoïde dominé à deux extrêmes: les États-Unis sur les modèles d'IA haute performance (Figure, Physical Intelligence avec Pi-0, Boston Dynamics, Tesla avec Optimus Gen 3), la Chine sur la compétitivité hardware. La stratégie coréenne misait sur la manipulation fine et la dextérité des doigts: Robotis développe des mains à entraînement direct (moteur relié directement aux articulations, sans câbles ni engrenages) et aurait reçu des précommandes de Google et Apple; Edin Robotics travaille sur des capteurs reproduisant la sensation tactile du bout des doigts. RLWRLD accélère désormais le déploiement de RLDX-1 sur plusieurs sites réels simultanément, une étape qui distingue un produit en test d'un produit opérationnel. La prochaine question concrète pour les intégrateurs industriels sera de connaître les taux de succès en conditions non contrôlées, les temps de cycle réels, et les coûts de déploiement.
Dans nos dossiers




