Aller au contenu principal
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
IA physiqueRobotics Business Review7sem

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement.

L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante.

Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

À lire aussi

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
1Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

IA physiqueOpinion
1 source
Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense
2arXiv cs.RO 

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Une équipe de chercheurs a publié MSDP (MultiSensory Dynamic Pretraining), un cadre d'apprentissage par représentation auto-supervisé conçu pour la manipulation robotique en contact étroit. Le système fusionne trois flux sensoriels, vision, force et proprioception, via un encodeur transformer entraîné par autoencoding masqué : l'encodeur doit reconstruire des observations multisensorielles complètes à partir d'un sous-ensemble partiel d'embeddings, forçant l'émergence d'une prédiction inter-modale et d'une fusion sensorielle robuste. Pour l'apprentissage de politiques en aval (downstream policy learning), MSDP introduit une architecture asymétrique originale : un mécanisme de cross-attention permet au critique d'extraire des caractéristiques dynamiques et tâche-spécifiques depuis les embeddings figés, tandis que l'acteur reçoit une représentation poolée stable pour guider ses actions. Sur robot réel, la méthode revendique des taux de succès élevés avec seulement 6 000 interactions en ligne, un chiffre à prendre avec précaution car le papier ne détaille pas précisément le type de robot, les seuils de succès retenus ni le panel de tâches évalué. Les expériences couvrent plusieurs scénarios de manipulation contact-riches, en simulation et sur plateforme physique. L'importance de MSDP tient d'abord à la difficulté structurelle qu'il adresse : l'apprentissage par renforcement multisensoriel est notoirement instable en présence de bruit et de perturbations dynamiques, deux conditions omniprésentes en environnement industriel. Si le chiffre de 6 000 interactions en ligne se confirme sur des tâches variées, il représenterait un signal fort sur l'efficacité des données, goulot d'étranglement critique pour tout déploiement en production. L'architecture asymétrique critique-acteur est un choix peu commun et potentiellement généralisable : elle découple la richesse représentationnelle nécessaire à l'évaluation des états de la stabilité requise pour l'exécution motrice, un compromis que la communauté robotique cherche à résoudre depuis plusieurs années. Pour un intégrateur ou un COO industriel, le préentraînement auto-supervisé sans étiquetage manuel réduit également le coût de déploiement sur de nouvelles tâches ou de nouveaux effecteurs. Le contexte académique de MSDP s'inscrit dans la dynamique de transfert des techniques de préentraînement auto-supervisé, popularisées en vision (MAE de Meta, 2021) et en NLP (BERT, GPT), vers la robotique multisensorielle. La manipulation en contact étroit reste l'un des défis les plus difficiles du domaine, car contrairement au pick-and-place, elle exige une gestion précise des forces de contact et une réponse rapide aux perturbations tactiles. Côté positionnement concurrentiel, des approches comme R3M (Meta) ou les modèles VLA récents (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) explorent des fusions multimodales différentes, mais restent majoritairement centrés sur vision et langage, sans intégration native de la force au stade du préentraînement. Le papier est soumis en version 3 sur arXiv (2511.14427), ce qui témoigne de plusieurs cycles de révision. Les suites naturelles incluent la validation sur bras industriels standards (UR, Franka) et des tâches d'assemblage de précision, terrain où des acteurs européens comme Wandercraft ou les labos de robotique du CNRS pourraient s'appuyer sur ce cadre pour accélérer leurs travaux sur la manipulation dextre.

IA physiquePaper
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
3Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

IA physiqueOpinion
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
4Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

IA physiqueOpinion
1 source