Aller au contenu principal
IA physiqueInteresting Engineering2h

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi.

La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept.

NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

Impact France/UE

Enchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 Le point de vue du dev

NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

À lire aussi

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes
1arXiv cs.RO 

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes

Une équipe de chercheurs publie sur arXiv (réf. 2605.23733) une méthode baptisée Any2Any pour transférer des modèles de whole-body tracking (WBT) entre différentes plateformes humanoïdes sans réentraînement complet. Le WBT désigne la capacité d'un robot humanoïde à reproduire fidèlement des mouvements complexes sur l'ensemble du corps, et constitue aujourd'hui un composant clé des pipelines de contrôle humanoïde. Any2Any procède en deux étapes: un alignement cinématique entre robot source et robot cible, puis une adaptation dynamique par fine-tuning paramétrique léger (PEFT) appliqué aux seuls modules sensibles à la dynamique du mouvement. Résultat annoncé: le transfert de modèles Sonic préentraînés sur le Unitree G1 vers deux robots de LimX Robotics, le LimX Oli et le LimX Luna, en mobilisant seulement 1% des données et du calcul nécessaires à un entraînement complet from scratch, avec des performances de suivi comparables ou supérieures. Si ces chiffres se confirment en conditions réelles, Any2Any s'attaque à l'un des principaux verrous économiques du marché humanoïde: le coût de redéveloppement du contrôle moteur bas-niveau pour chaque nouvelle plateforme. Entraîner un modèle WBT from scratch mobilise aujourd'hui d'importants volumes de données simulées et de GPU-heures, ce qui pénalise les robots à faible volume ou en phase de prototype. Un ratio de 1% de ressources représente, si validé, un changement structurel dans l'économie du développement robotique. Cette approche conforte également l'hypothèse d'un "foundation model" pour le contrôle moteur humanoïde: un modèle préentraîné sur une plateforme bien documentée pourrait devenir un socle réutilisable par des intégrateurs tiers, réduisant la barrière à l'entrée pour les acteurs disposant de ressources computationnelles limitées. Le WBT humanoïde concentre une concurrence intense, avec les travaux de Physical Intelligence autour de Pi-0, les modèles GR00T N2 de NVIDIA, et les pipelines internes de Figure AI et Agility Robotics. Unitree, acteur chinois prolixe en publications open-source, fournit son G1 comme base de préentraînement dans un nombre croissant de travaux académiques. LimX Robotics, moins médiatisé, développe humanoïdes et quadrupèdes et joue ici le rôle de cible de validation. Any2Any reste cependant un preprint arXiv sans validation industrielle publiée, et les démonstrations vidéo sélectionnées dans ce type de soumission ne reflètent pas nécessairement les performances moyennes en environnement non contrôlé. Les prochaines étapes logiques seraient une validation sur des tâches de manipulation en milieu réel et une intégration dans des pipelines open-source existants.

💬 1% des données et du calcul pour transférer un modèle de contrôle moteur entre deux humanoïdes différents, si ça se confirme hors conditions contrôlées, c'est l'un des vrais verrous du secteur qui tombe. Le coût de réentraînement par plateforme pénalise tous les acteurs qui n'ont pas le budget de Unitree ou NVIDIA depuis des années. C'est un preprint, donc on verra, mais l'argument économique est bien posé.

IA physiquePaper
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
2Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

IA physiqueOpinion
1 source
RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes
3Robotics & Automation News 

RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes

RLWRLD, une startup spécialisée dans les modèles fondation pour la robotique physique, a dévoilé RLDX-1 lors d'un événement privé baptisé "Dexterity Night in SF". Ce modèle fondation est conçu pour permettre aux robots humanoïdes d'exécuter des tâches à contact riche : préhension d'objets, versement de liquides et utilisation d'outils. L'entreprise a publié des résultats sur trois types de benchmarks : manipulation sur table avec des humanoïdes, manipulation en cuisine et versement de café en conditions réelles. Les métriques précises n'ont pas été rendues publiques au moment de l'annonce, ce qui limite toute évaluation indépendante des performances revendiquées. L'approche "dexterity-first" marque un choix de priorité distinct dans la course aux modèles fondation pour robots. La manipulation fine reste le principal goulot d'étranglement de la robotique humanoïde à usage industriel : la locomotion est largement résolue, mais la préhension d'objets variés dans des environnements non structurés demeure difficile à généraliser. L'inclusion d'évaluations en conditions réelles (café, cuisine) plutôt qu'exclusivement en laboratoire suggère une volonté de démontrer une réduction du sim-to-real gap. Pour un intégrateur ou un COO industriel, un modèle capable de gérer des objets divers sans reprogrammation par tâche représente un levier de productivité concret, à condition que les résultats tiennent hors conditions contrôlées. RLWRLD s'inscrit dans un segment en densification rapide : celui des fournisseurs de couche d'intelligence logicielle pour robots tiers, sans fabriquer leur propre hardware. Physical Intelligence (modèle Pi-0), qui adopte une stratégie similaire, est le concurrent le plus direct. En parallèle, Figure AI (Figure 03), Apptronik, 1X et Boston Dynamics développent des modèles intégrés hardware-logiciel. L'annonce de RLWRLD reste au stade du teaser technique : aucune date de disponibilité commerciale, aucun partenaire constructeur ni client pilote n'a été communiqué.

IA physiqueOpinion
1 source
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
4Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

IA physiqueOpinion
1 source