
La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace
Eric Chan, cofondateur et chief scientist de Rhoda AI, était l'invité de l'épisode 242 du Robot Report Podcast pour présenter l'approche de sa startup dans l'entraînement de robots physiques. Rhoda AI est sortie de stealth en mars 2026 et développe ce qu'elle appelle un modèle DVA (Direct Video Action), une architecture qui exploite des vidéos issues d'internet pour entraîner des politiques de contrôle robot, sans recourir massivement à la téléopération humaine. La startup a publié une démonstration d'un robot bimanuel réalisant une tâche de décantage (transfert de liquide entre contenants) piloté par une politique DVA. Chan apporte un profil académique solide: doctorat en informatique de Stanford, passé par NVIDIA, Google, NASA et WorldLabs avant de cofonder Rhoda AI.
Le problème central que Chan soulève est structurel pour toute l'industrie robotique: les pipelines de collecte de données par téléopération sont coûteux, lents à passer à l'échelle, et produisent des données souvent trop spécialisées pour généraliser. Exploiter la vidéo internet, déjà disponible en quantité massive, représente une alternative potentiellement disruptive, à condition de résoudre le gap de correspondance entre observation visuelle passive et action motrice. Si l'approche DVA tient ses promesses d'apprentissage zero-shot ou few-shot, elle pourrait réduire significativement les coûts de déploiement pour les intégrateurs industriels et accélérer le passage prototype-to-production, un obstacle qui freine actuellement la majorité des projets d'IA physique. Il faut cependant noter que la démonstration publiée reste une preuve de concept en environnement contrôlé, et qu'aucun chiffre de performance en déploiement réel (taux de succès, robustesse aux variations d'environnement) n'a été communiqué à ce stade.
Rhoda AI s'inscrit dans une course plus large à l'exploitation de données vidéo pour la robotique généraliste. Physical Intelligence (Pi-0), NVIDIA avec GR00T N2, et HuggingFace avec LeRobot travaillent tous sur des approches similaires de Vision-Language-Action (VLA) ou de pré-entraînement sur données hétérogènes à grande échelle. La spécificité revendiquée de Rhoda AI est de cibler directement la vidéo brute d'internet plutôt que des datasets robotiques capturés en laboratoire, ce qui la rapproche de l'approche fondatrice des LLMs appliquée au contrôle physique. La société étant très récemment sortie de stealth, les étapes annoncées -- pilotes industriels, benchmarks comparatifs avec l'état de l'art -- restent à confirmer. La prochaine échéance sectorielle visible est le Robotics Summit and Expo 2026 à Boston, où plusieurs acteurs du marché, dont Tesla et Toyota Research Institute, présenteront leurs travaux en IA physique.
L'idée de base, c'est exactement ce qu'on a fait avec les LLMs : prendre les données qui existent déjà sur internet plutôt que d'en produire à la main. Appliqué à la robotique physique, ça a du sens, parce que la téléopération c'est lent, cher, et ça ne scale pas au-delà du labo. La démo en environnement contrôlé, c'est bien, mais reste à voir ce que ça donne avec de la vraie variabilité terrain, parce que c'est là que tous les autres ont calé.
Dans nos dossiers




