Aller au contenu principal
La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace
IA physiqueRobotics Business Review7sem

La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Eric Chan, cofondateur et chief scientist de Rhoda AI, était l'invité de l'épisode 242 du Robot Report Podcast pour présenter l'approche de sa startup dans l'entraînement de robots physiques. Rhoda AI est sortie de stealth en mars 2026 et développe ce qu'elle appelle un modèle DVA (Direct Video Action), une architecture qui exploite des vidéos issues d'internet pour entraîner des politiques de contrôle robot, sans recourir massivement à la téléopération humaine. La startup a publié une démonstration d'un robot bimanuel réalisant une tâche de décantage (transfert de liquide entre contenants) piloté par une politique DVA. Chan apporte un profil académique solide: doctorat en informatique de Stanford, passé par NVIDIA, Google, NASA et WorldLabs avant de cofonder Rhoda AI.

Le problème central que Chan soulève est structurel pour toute l'industrie robotique: les pipelines de collecte de données par téléopération sont coûteux, lents à passer à l'échelle, et produisent des données souvent trop spécialisées pour généraliser. Exploiter la vidéo internet, déjà disponible en quantité massive, représente une alternative potentiellement disruptive, à condition de résoudre le gap de correspondance entre observation visuelle passive et action motrice. Si l'approche DVA tient ses promesses d'apprentissage zero-shot ou few-shot, elle pourrait réduire significativement les coûts de déploiement pour les intégrateurs industriels et accélérer le passage prototype-to-production, un obstacle qui freine actuellement la majorité des projets d'IA physique. Il faut cependant noter que la démonstration publiée reste une preuve de concept en environnement contrôlé, et qu'aucun chiffre de performance en déploiement réel (taux de succès, robustesse aux variations d'environnement) n'a été communiqué à ce stade.

Rhoda AI s'inscrit dans une course plus large à l'exploitation de données vidéo pour la robotique généraliste. Physical Intelligence (Pi-0), NVIDIA avec GR00T N2, et HuggingFace avec LeRobot travaillent tous sur des approches similaires de Vision-Language-Action (VLA) ou de pré-entraînement sur données hétérogènes à grande échelle. La spécificité revendiquée de Rhoda AI est de cibler directement la vidéo brute d'internet plutôt que des datasets robotiques capturés en laboratoire, ce qui la rapproche de l'approche fondatrice des LLMs appliquée au contrôle physique. La société étant très récemment sortie de stealth, les étapes annoncées -- pilotes industriels, benchmarks comparatifs avec l'état de l'art -- restent à confirmer. La prochaine échéance sectorielle visible est le Robotics Summit and Expo 2026 à Boston, où plusieurs acteurs du marché, dont Tesla et Toyota Research Institute, présenteront leurs travaux en IA physique.

💬 Le point de vue du dev

L'idée de base, c'est exactement ce qu'on a fait avec les LLMs : prendre les données qui existent déjà sur internet plutôt que d'en produire à la main. Appliqué à la robotique physique, ça a du sens, parce que la téléopération c'est lent, cher, et ça ne scale pas au-delà du labo. La démo en environnement contrôlé, c'est bien, mais reste à voir ce que ça donne avec de la vraie variabilité terrain, parce que c'est là que tous les autres ont calé.

À lire aussi

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets
1arXiv cs.RO 

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

ShapeGen, présenté dans un preprint arXiv (2604.15569) publié en avril 2026, propose une méthode de génération automatique de données d'entraînement pour les politiques de manipulation robotique. L'enjeu central est la généralisation intra-catégorie : un robot doit savoir saisir n'importe quelle tasse, bouteille ou outil, pas uniquement les objets vus pendant l'entraînement. La méthode opère en deux étapes. La première construit une bibliothèque de formes 3D (Shape Library) en apprenant des déformations spatiales (warpings) qui font correspondre des points fonctionnellement équivalents entre objets d'une même catégorie. La seconde étape, Function-Aware Generation, exploite cette bibliothèque pour produire automatiquement des démonstrations physiquement plausibles sur de nouveaux objets géométriquement variés, avec une annotation humaine minimale. Le pipeline est dit "simulator-free" : il génère des données directement en 3D, sans recourir à un moteur de simulation classique comme MuJoCo ou Isaac Sim. Des expériences en environnement réel valident l'amélioration de la généralisation des politiques ainsi entraînées. Le problème adressé est structurel dans le déploiement industriel des bras manipulateurs : collecter manuellement des corpus de démonstrations sur des centaines de variantes d'objets est coûteux en main-d'oeuvre et logistiquement difficile. ShapeGen automatise cette diversification morphologique, ce qui pourrait réduire significativement le coût de préparation des données pour des politiques visuomotrices (VLA, diffusion policies). Si les résultats réels se confirment à plus grande échelle, cela allège directement le goulot d'étranglement data dans le cycle de développement robotique, en particulier pour les intégrateurs qui doivent adapter des cellules à des référentiels produits variables. La claim "simulator-free" mérite cependant d'être nuancée : le pipeline repose sur des modèles 3D et des transformations géométriques qui constituent en eux-mêmes une forme de simulation implicite. Les benchmarks présentés restent limités en termes de diversité de tâches et d'objets testés. La généralisation intra-catégorie est un axe de recherche actif depuis plusieurs années, exploré notamment via des approches comme PointNet, Category-Level 6D Pose Estimation (Wang et al., 2019) ou les politiques basées sur des représentations implicites (NeRF, SDF). ShapeGen se positionne dans la lignée des travaux sur la génération de données synthétiques pour la manipulation, concurrençant des approches comme RoboGen ou MimicGen (NVIDIA), qui utilisent également la génération automatique pour diversifier les démos. Le projet est affilié à des auteurs du milieu académique (page projet hébergée sur GitHub personnel), sans affiliation industrielle explicite déclarée dans le preprint. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (RLBench, FurnitureBench) et une intégration dans des pipelines VLA existants pour mesurer le gain réel sur des tâches longue-distance.

IA physiqueActu
1 source
SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données
2arXiv cs.RO 

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Des chercheurs publient sur arXiv (arXiv:2605.11114, mai 2025) une méthode baptisée SEVO (Semantic-Enhanced Virtual Observation) visant à résoudre l'un des problèmes les plus documentés des politiques VLA (Vision-Language-Action) et d'apprentissage par imitation : leur effondrement dès qu'elles quittent l'environnement d'entraînement. Sans modification de l'architecture du modèle, SEVO agit sur le flux caméra RGB brut via trois mécanismes combinés : des caméras fixes sur le corps du robot dont les champs de vision couvrent l'intégralité de l'espace de manipulation, un éclairage actif en spectre rouge qui normalise physiquement l'apparence des objets, et une segmentation YOLO en temps réel qui produit une représentation sémantique invariante au fond. Les tests portent sur des bouteilles d'eau transparentes -- objets délibérément difficiles car ils se confondent visuellement avec leur environnement -- dans une tâche de pick-and-place répétée sur deux plateformes mobiles. Avec SEVO, la politique ACT atteint 95 % de succès en environnement d'entraînement et 85 % en environnement inédit ; SmolVLA atteint 83 % et 75 % respectivement. Sans SEVO, ces mêmes politiques plafonnent à 75 %/70 % en entraînement et s'effondrent à 30-35 % hors contexte. Ces résultats remettent directement en cause le paradigme dominant qui consiste à compenser le manque de robustesse par une mise à l'échelle des modèles. Les praticiens de la communauté open source rapportaient déjà des taux de transfert quasi nuls avec les benchmarks ACT et SmolVLA standards, pourtant affichant des scores élevés en laboratoire. SEVO démontre que la conception de l'observation -- ce que le robot "voit" et comment -- combinée à une diversification systématique des données de téléopération (variations d'éclairage, de fond, d'objets distracteurs) constitue le levier de généralisation le plus efficace, bien devant le choix du modèle. Pour un intégrateur ou un COO industriel, l'implication est directe : un robot à bas coût bien "observé" et entraîné sur des données variées surpasse un modèle plus sophistiqué entraîné dans des conditions homogènes. Le contexte est celui de l'essor des toolchains communautaires autour des VLA, notamment les frameworks lekiwi et SO-101 sur lesquels ACT et SmolVLA sont régulièrement évalués. La "sim-to-real gap" et le "domain shift" sont des problèmes ouverts depuis des années dans la manipulation robotique ; des approches comme domain randomization ou data augmentation tentaient déjà d'y répondre par le calcul. SEVO prend le parti inverse : agir sur le hardware d'observation et le protocole de collecte plutôt que sur l'architecture ou la puissance de calcul. Les suites logiques de ces travaux incluent l'extension à des tâches multi-étapes, à des objets plus variés, et potentiellement à des bases mobiles commerciales -- un terrain sur lequel des acteurs comme Boston Dynamics (Spot), AgileX ou les startups européennes de manipulation à coût réduit sont directement concernés.

UESmolVLA, développé par HuggingFace (entreprise franco-américaine), est directement évalué dans cette étude, les équipes européennes travaillant sur la manipulation VLA disposent d'un levier hardware-protocole immédiatement applicable pour multiplier leurs taux de succès hors environnement d'entraînement, sans changer d'architecture ni investir dans des modèles plus lourds.

💬 J'attendais quelqu'un pour le montrer proprement : le domain shift, c'est pas un problème de modèle, c'est un problème d'observation. SEVO passe de 30 à 85 % de succès hors environnement d'entraînement en contrôlant l'éclairage, les angles de caméra et la segmentation temps réel, sans changer une ligne d'architecture. Un robot bas coût bien observé bat un modèle sophistiqué entraîné dans une bulle.

IA physiqueOpinion
1 source
Humanoid Everyday : un jeu de données robotique complet pour la manipulation humanoïde en monde ouvert
3arXiv cs.RO 

Humanoid Everyday : un jeu de données robotique complet pour la manipulation humanoïde en monde ouvert

Une équipe de recherche a publié sur arXiv (identifiant 2510.08807v2) Humanoid Everyday, un jeu de données massif dédié à l'apprentissage de la manipulation par les robots humanoïdes en conditions ouvertes. Le dataset compile 10 300 trajectoires et plus de 3 millions de frames couvrant 260 tâches réparties en 7 catégories larges : manipulation dextère d'objets, interaction humain-humanoïde, actions intégrant de la locomotion bipède, et d'autres scénarios du quotidien. Les données sont multimodales, RGB, profondeur, LiDAR, retour tactile, accompagnées d'annotations en langage naturel. La collecte repose sur un pipeline de télé-opération supervisée par des humains, optimisé pour maximiser le débit tout en maintenant la qualité des démonstrations. Les auteurs publient simultanément une plateforme d'évaluation cloud permettant à des équipes extérieures de déployer leurs propres politiques de contrôle et d'obtenir des métriques comparables dans un environnement standardisé. Ce dataset comble un vide structurel dans la recherche robotique : la quasi-totalité des benchmarks existants (Open X-Embodiment, DROID, BridgeData V2) ciblent des bras fixes, et les rares datasets humanoïdes disponibles se limitent à des environnements contrôlés, un faible nombre de tâches, et excluent généralement la locomotion et l'interaction avec des personnes. Pour un intégrateur ou un décideur industriel, la portée pratique est double : des données hétérogènes permettent d'entraîner des politiques plus généralisables, notamment des architectures VLA (vision-language-action) ; la plateforme d'évaluation cloud offre pour la première fois un cadre reproductible pour comparer des méthodes d'apprentissage par imitation ou par renforcement sur des tâches humanoïdes réalistes. L'article analyse aussi les performances de plusieurs politiques de référence, en identifiant leurs forces et limites par catégorie. La publication intervient dans un contexte de forte concurrence autour des données d'entraînement pour humanoïdes. Physical Intelligence (Pi-0, π0.5), NVIDIA (GR00T N2), Unitree et Figure AI misent chacun sur des datasets propriétaires pour différencier leurs politiques de contrôle. Côté recherche ouverte, AgiBot World et RH20T ont posé des jalons, mais restent limités dans leur couverture humanoïde. Humanoid Everyday est rendu entièrement public, dataset, code de collecte et plateforme d'évaluation inclus, ce qui en fait une ressource directement exploitable par des laboratoires et startups sans accès à des infrastructures de collecte massives. Les auteurs présentent cette release comme un socle pour de futurs agents incarnés généralistes, sans préciser d'échéancier pour des suites expérimentales.

UELes équipes de recherche et startups européennes en robotique humanoïde peuvent exploiter directement ce dataset open-source, 10 300 trajectoires, 260 tâches, plateforme d'évaluation cloud, sans investir dans une infrastructure de collecte massive, ce qui réduit la barrière d'entrée face aux acteurs américains et asiatiques disposant de données propriétaires.

💬 Le vrai sujet ici, c'est pas juste le volume (10 300 trajectoires, bon), c'est que les benchmarks humanoïdes existants ignoraient presque tous la locomotion et l'interaction avec des humains réels depuis le début. Des acteurs comme Pi-0 ou GR00T N2 misaient sur leurs données propriétaires comme avantage concurrentiel, et une release open-source de cette ampleur vient rogner ce levier directement. Reste à voir si ça tient face à des politiques entraînées en conditions réelles, mais pour des labos sans infrastructure de collecte massive, ça change le rapport de force.

IA physiqueOpinion
1 source
Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle
4arXiv cs.RO 

Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle

Phone2Act est un framework de téleopération publié sur arXiv (2605.01948) qui transforme un smartphone grand public en contrôleur de robot à 6 degrés de liberté (DoF) via Google ARCore. Développé sur une architecture ROS 2 modulaire, le système découple la logique de contrôle des spécificités matérielles grâce à des noeuds bridge interchangeables, ce qui permet de passer d'un cobot industriel à un bras bimanuel bas coût sans modification de code. Un composant baptisé Universal Recorder synchronise des flux RGB multi-caméras avec le retour d'état du robot, puis exporte les démonstrations directement au format LeRobot, supprimant toute étape de post-traitement. Le framework a été validé en affinant le modèle VLA GR00T-N1.5 de NVIDIA sur 130 épisodes collectés, atteignant un taux de succès de 90 % sur une tâche réelle de pick-and-place multi-étapes déployée sur un Dobot CR5 physique. Ce résultat interpelle à plusieurs titres. La collecte de données de manipulation reste l'un des goulets d'étranglement les plus coûteux du pipeline d'entraînement VLA (Vision-Language-Action) : les frameworks existants supposent du matériel spécialisé, exosquelettes, gants haptiques, SpaceMouse, représentant souvent plusieurs milliers d'euros par poste. Phone2Act abaisse ce seuil à la possession d'un smartphone compatible ARCore. Les 90 % de succès sur tâche physique réelle, obtenus avec seulement 130 épisodes, suggèrent que la qualité des données collectées est suffisante pour le fine-tuning de modèles de fondation actuels. Pour un intégrateur ou un laboratoire à budget contraint, le facteur limitant n'est plus le matériel de collecte, mais le temps opérateur. Il faut toutefois noter que les vidéos de démonstration ne couvrent qu'une seule tâche, et que 130 épisodes représente un volume très limité pour tirer des conclusions généralisables. La problématique du coût de la donnée robotique est centrale depuis l'essor des modèles VLA fin 2023. Des initiatives comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace, 2024) ont standardisé les formats de datasets sans résoudre l'acquisition terrain à bas coût. Phone2Act s'inscrit dans cette continuité en ciblant le format LeRobot comme sortie native. Face à lui, des systèmes comme ALOHA 2 (Google DeepMind/Stanford) ou les kits SO-100/SO-101 (The Robot Company) restent liés à des plateformes matérielles spécifiques. Le Dobot CR5 retenu pour les tests est un cobot industriel d'entrée de gamme, aux alentours de 15 000 euros, ce qui délimite le périmètre cible. Le code source et les données collectées n'étaient pas encore publics au moment de la soumission arXiv.

UEImpact indirect pour les laboratoires européens utilisant le format LeRobot (HuggingFace) ; aucune institution française ou européenne n'est directement impliquée dans le développement du framework.

IA physiqueOpinion
1 source