IA physiqueInteresting Engineering1h

Robot park de 90 000 pieds carrés : une entreprise américaine forme des humanoïdes en conditions réelles

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Robot park de 90 000 pieds carrés : une entreprise américaine forme des humanoïdes en conditions réelles

Apptronik, entreprise texane basée à Austin, a inauguré Robot Park, une installation de collecte de données et d'entraînement de près de 8 400 m² (90 000 pieds carrés) dédiée à l'accélération du développement de ses robots humanoïdes Apollo. Sur ce site, des unités Apollo 2, la dernière génération de la plateforme, déclinées en version bipède et en version à base roulante, exécutent en continu des tâches représentatives de la logistique, de la fabrication et du commerce de détail, générant ainsi les données réelles nécessaires à l'entraînement de modèles d'IA incarnée. Ce dispositif s'inscrit dans le partenariat de recherche entre Apptronik et Google DeepMind : les données issues d'Apollo 2, combinant téléopération et fonctionnement autonome, alimentent directement les modèles Gemini Robotics de DeepMind tout en améliorant la plateforme commerciale d'Apptronik. Le concept de Robot Park a également été étendu au-delà d'Austin, avec des flux de collecte similaires mis en place chez des clients et partenaires comme Mercedes-Benz et l'opérateur logistique GXO. Apollo 2 sert de « cheval de trait » du programme depuis plus d'un an déjà.

Pour l'industrie robotique, cette annonce illustre un déplacement de l'enjeu compétitif : la course aux humanoïdes ne se joue plus seulement sur la démonstration de capacités motrices, mais sur la capacité à produire, à grande échelle et en continu, des données d'usage réel exploitables par des modèles VLA (vision-langage-action). En s'associant à un laboratoire du calibre de Google DeepMind, Apptronik cherche à sécuriser un accès privilégié à des capacités d'IA de pointe plutôt que de tout développer en interne, une stratégie qui tranche avec l'approche plus verticale de concurrents comme Figure AI ou Tesla avec Optimus. Le fait que des clients industriels comme Mercedes-Benz ou GXO participent directement à la collecte de données, sur leurs propres sites, est également un signal notable : il suggère un passage progressif du pilote isolé vers des déploiements multi-sites, même si l'ampleur réelle de l'autonomie atteinte par Apollo 2, par opposition à la téléopération, reste à documenter précisément par Apptronik.

Fondée en 2016 et essaimée des travaux de robotique de l'université du Texas à Austin, Apptronik s'est fait connaître avec son premier robot Apollo avant de lancer cette version 2, pensée dès l'origine comme un outil de collecte de données autant que comme un produit commercial. La société évolue dans un secteur de plus en plus dense, aux côtés de Figure AI, Tesla, Boston Dynamics ou encore 1X, chacun misant sur des partenariats logiciels ou une intégration verticale pour combler l'écart entre démonstrations spectaculaires et déploiements industriels réels. Le PDG et cofondateur Jeff Cardenas a présenté l'initiative comme une « boucle d'apprentissage continu » avec l'équipe robotique de Google DeepMind, laissant entendre que d'autres extensions du modèle Robot Park, chez de nouveaux clients ou sur de nouveaux sites, devraient suivre dans les prochains mois.

Impact France/UE

Mercedes-Benz, entreprise allemande, participe directement à la collecte de données pour entraîner ces modèles d'IA incarnée, ce qui expose un grand industriel européen à cette technologie mais sans déploiement de production documenté en Europe.

Dans nos dossiers

Figure Boston Dynamics Apptronik Apollo IA physique & VLA

À lire aussi

1arXiv cs.RO

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

IA physiqueOpinion

1 source

2Interesting Engineering

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

IA physiqueOpinion

1 source

3Interesting Engineering

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Flexion Robotics a dévoilé Reflect v1.0, une plateforme d'intelligence robotique destinée aux humanoïdes, capable d'exécuter des missions longues et multi-étapes sans intervention humaine pendant l'exécution. Pour illustrer les capacités du système, la société a présenté une démonstration en environnement de bureau : un robot humanoïde reçoit une instruction en langage naturel, récupère un colis de snacks livré au bâtiment, emprunte escaliers et ascenseur, déballe le carton à l'aide d'outils, puis range les articles dans un tiroir désigné. Selon Flexion, l'intégration du reinforcement learning sur plusieurs couches du système a fait passer le taux de complétion end-to-end d'une mission interne à 16 étapes de 38 % à 90 %, contre un modèle supervisé seul. La plateforme gère des charges comprises entre 100 grammes et 3,5 kilogrammes, et le robot est capable de repositionner un colis via des mouvements coordonnés du corps entier, d'opérer un ascenseur, de traverser des escaliers répétés et de contourner des obstacles dynamiques tout en portant des objets. Ce résultat est significatif parce qu'il s'attaque directement au problème de l'autonomie longue durée, considéré comme l'un des verrous majeurs de la robotique humanoïde commerciale. Dans une séquence de tâches, l'accumulation d'erreurs de navigation, de manipulation ou de perception finit statistiquement par faire échouer le système : c'est le "long-horizon failure mode" que les industriels connaissent bien. Reflect v1.0 le traite via un modèle vision-langage (VLM) personnalisé qui fait office de contrôleur de mission, surveille en continu l'avancement, raisonne sur l'environnement et re-planifie à la demande. La couche de mouvement combine des vision-language-action models (VLA) entraînés sur données réelles et des primitives issues du reinforcement learning, tandis qu'un contrôleur corps-entier temps réel assure équilibre et précision des gestes. Pour un COO industriel ou un intégrateur, le signal concret est le suivant : on passe de 38 % à 90 % de succès sur une mission à 16 étapes grâce au RL seul, ce qui suggère que le sim-to-real gap et la fiabilité multi-tâche sont partiellement solubles sans refonte matérielle. Flexion Robotics est une startup relativement récente dans l'écosystème humanoïde, qui se positionne comme fournisseur de couche logicielle agnostique au hardware, à l'image de ce que Apptronik ou 1X cherchent à faire sur leurs propres plateformes. L'article mentionne également ShengShu Technology et son modèle Motubrain, un "cerveau général" combinant perception, raisonnement et action, qui vise le même marché. La concurrence directe inclut Figure (Helix), Physical Intelligence (pi0), Boston Dynamics (Atlas Gen 2) et Tesla (Optimus Gen 3), tous engagés dans une course à l'autonomie longue horizon. Flexion reconnaît que Reflect v1.0 reste limité à des environnements définis, ce qui tempère le chiffre de 90 % : il s'agit d'une évaluation interne sur mission contrôlée, pas d'un déploiement industriel validé en conditions réelles. Les prochaines étapes annoncées concernent l'extension à des environnements moins structurés et la capacité à recevoir des instructions modifiées en cours de mission, deux marqueurs qui, s'ils sont confirmés en production, rapprocheraient Reflect d'une utilisabilité opérationnelle sérieuse.

IA physiqueOpinion

1 source

4arXiv cs.RO

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

IA physiquePaper

1 source