Aller au contenu principal

Dossier Figure — page 5

624 articles · page 5 sur 13

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
201arXiv cs.RO RecherchePaper

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
202arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
203arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé
204Pandaily 

CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé

En mai 2026, la banque d'investissement chinoise CSC Financial a publié un rapport sectoriel couvrant cinq industries, dont deux dominent l'analyse: la robotique humanoïde et les engins de chantier. Sur ce dernier segment, les ventes d'excavateurs ont atteint 24 794 unités en Chine le mois dernier, en hausse de 36,2% sur un an. Les ventes domestiques ont progressé de 38,6% à 11 628 unités, tandis que les exportations ont crû de 34,2% pour atteindre 13 166 unités. Trois grands fabricants ont simultanément relevé leurs prix: SANY Heavy Industry a appliqué une hausse de 5% au 15 mai, Liugong une augmentation identique au 20 mai, et XCMG une revalorisation de 3 à 5% au 1er juin. Sur le front de la robotique, Unitree - constructeur chinois de robots humanoïdes connu pour ses modèles H1 et G1 - a franchi l'examen de l'autorité boursière pour son introduction en bourse, étape préliminaire à une cotation effective. Le rapport note par ailleurs que le programme Optimus de Tesla approche de la production de masse, le lancement du modèle V3 et les objectifs de volume pour la chaîne d'approvisionnement devenant progressivement plus précis. La validation du dossier d'IPO d'Unitree constitue un signal de maturité pour le secteur du Physical AI: les marchés financiers commencent à traiter la robotique humanoïde comme une industrie à trajectoire commerciale crédible, et non comme une promesse spéculative. Pour les décideurs industriels et les intégrateurs, cela annonce potentiellement une revalorisation en cascade des acteurs du secteur, à mesure que d'autres entreprises chinoises avancent vers leur propre cotation dans les prochains trimestres. Du côté des engins de chantier, la convergence des hausses tarifaires chez SANY, Liugong et XCMG - officiellement justifiées par la hausse des matières premières - est lue par les analystes comme le signe que la guerre des prix destructrice pesant sur les marges du secteur commence enfin à se résorber. Unitree s'est imposé ces dernières années parmi les acteurs les plus actifs de la scène robotique chinoise, aux côtés d'entreprises comme UBTECH et Fourier Intelligence. Son accession à une cotation publique intervient dans un contexte de compétition mondiale intense sur le segment humanoïde, où s'affrontent Tesla (Optimus), Figure AI, Boston Dynamics et leurs homologues chinois. Le rapport de CSC Financial ne détaille pas les métriques opérationnelles d'Unitree en conditions industrielles réelles - ce qui rend difficile l'évaluation du fossé entre les démonstrations publiées et les capacités effectives en production. Les introductions en bourse attendues d'autres acteurs du secteur dans les prochains trimestres permettront de mieux cerner les valorisations que le marché est prêt à accorder à cette nouvelle génération de robotique physique.

UELa validation de l'IPO d'Unitree et la trajectoire vers la production de masse d'Optimus accélèrent la maturité commerciale du secteur humanoïde chinois, renforçant indirectement la pression concurrentielle sur les acteurs européens qui n'ont pas encore atteint ce stade de crédibilité financière.

Chine/AsieOpinion
1 source
AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles
205The Robot Report 

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

AGIBOT Innovation Technology, également connue sous le nom de Zhiyuan Robotics, a organisé la AGIBOT World Challenge 2026 en marge de l'ICRA 2026 à Vienne, réunissant 526 équipes de recherche et d'entreprises issues de 27 pays autour de deux pistes compétitives en IA incarnée : "Reasoning to Action" (R2A) et "World Model" (WM). La finale hors ligne s'est déroulée sur le robot humanoïde AGIBOT G2, avec des évaluations standardisées via les benchmarks EWMBench et Genie Sim 3.0. Dans la piste R2A, qui élargit l'évaluation de la simple exécution motrice à la compréhension d'environnement et à la planification de tâches, c'est l'équipe PrismBot de vivo qui a remporté le championnat avec 43,47 points, devant RP-VLA de Shanghai RoboParty (35,66 points) et GreenVLA de la Russie (33,19 points). Dans la piste WM, NeoVerse-ABot, équipe conjointe de l'Institut d'Automatisation de l'Académie des Sciences de Chine et du laboratoire Amap CV, a décroché la première place. Plus de 100 équipes ont dépassé le score de référence officiel, avec des participants issus de la Tsinghua University, de l'USTC, de l'UC San Diego, d'Alibaba et du Sber Robotics Center russe. La signification industrielle de cet événement tient moins aux classements qu'au format d'évaluation lui-même : l'abandon progressif des scores de simulation au profit de tests en boucle fermée sur robots réels, avec des métriques reproductibles et standardisées. Pour les intégrateurs et les décideurs B2B, c'est un signal que le secteur commence à construire des référentiels comparables entre systèmes -- un prérequis pour toute contractualisation sérieuse. La piste "World Model", centrée sur la prédiction de changements physiques et la modélisation d'interactions à partir d'entrées sensorielles, teste directement la capacité des VLA (Vision-Language-Action models) à généraliser hors distribution, y compris le transfert zéro-shot et l'adaptation aux perturbations. Le benchmark supermarché co-développé avec Dexmal va plus loin en intégrant des interactions physiques non idéales -- chutes d'objets, échecs de préhension -- et impose la navigation autonome, le picking et le placement sous contraintes réelles (hauteurs de rayonnage variables, placement aléatoire des articles), contrôlés via API distante. C'est une démarche de validation orientée déploiement, pas de démonstration. AGIBOT, fondée à Shanghai, s'est imposée comme l'un des acteurs centraux de l'écosystème robotique humanoïde chinois, aux côtés d'Unitree, de Fourier Intelligence et de l'initiative GR00T de NVIDIA. Son dataset open-source AGIBOT WORLD, utilisé pour entraîner les modèles de la piste WM, constitue un levier de standardisation communautaire similaire à ce qu'Open X-Embodiment représente côté américain. La compétition s'appuie sur Genie Sim 3.0 pour l'évaluation de capacités couvrant la compréhension du langage, le raisonnement spatial et les compétences atomiques de manipulation. Dans la course mondiale à la robotique humanoïde commerciale -- où Boston Dynamics, Figure AI, Agility Robotics et 1X Technologies avancent leurs propres plateformes -- AGIBOT positionne le G2 comme un banc d'essai de référence pour la communauté académique et industrielle, avec une stratégie d'écosystème ouverte qui rappelle davantage un hub de recherche qu'une pure offre produit.

Chine/AsieOpinion
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
206arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
BYD développe secrètement un robot humanoïde sous le nom de code "Yao-Shun-Yu" alors que les géants de l'automobile s'élancent vers l'IA incarnée
207Pandaily 

BYD développe secrètement un robot humanoïde sous le nom de code "Yao-Shun-Yu" alors que les géants de l'automobile s'élancent vers l'IA incarnée

BYD, premier constructeur automobile électrique chinois, confirme le développement discret d'un robot humanoïde sous le nom de code "Yao-Shun-Yu". C'est Li Ke, vice-président exécutif du groupe, qui a levé le voile dans une interview récente. Le projet a été lancé en 2022 et est piloté par la 15e unité opérationnelle de BYD, dédiée à l'intégration électronique et à l'intelligence embarquée. L'entreprise dispose d'une équipe de plus de 4 000 ingénieurs spécialisés en conduite autonome et a annoncé un investissement de 100 milliards de yuans dans l'IA et l'intelligence automobile. Tesla, de son côté, a déjà déployé 50 unités de son Optimus Gen 3 dans son usine de Shanghai en production de série. XPeng prévoit de lancer la production de masse de son humanoïde IRON d'ici fin 2026, et Li Auto pilote un projet interne baptisé Nexus. Ce développement illustre un changement structurel dans la course aux humanoïdes : les grands constructeurs automobiles ne se positionnent plus comme observateurs mais comme acteurs à part entière de la robotique généraliste. BYD s'appuie sur des atouts industriels concrets, motorisation, batteries, électronique de puissance, fabrication de précision et semiconducteurs, que peu de pure players robotiques peuvent revendiquer. L'entreprise prévoit d'être son propre premier client, avec des déploiements envisagés dans ses showrooms comme agents d'accueil et sur ses lignes de production comme opérateurs d'atelier. Ce débouché captif résout un problème que la majorité des startups humanoïdes n'ont pas encore résolu : la validation à l'échelle dans un environnement contrôlé et à faible coût de sortie. La stratégie dite du "technology fish pond", qui consiste à préparer en amont un portefeuille technologique large et à l'activer au moment opportun, laisse également envisager une approche plateforme ouverte, avec intégration de composants tiers plutôt qu'une verticalité totale. BYD n'est pas venu à la robotique par hasard. La maîtrise des actionneurs électriques, des systèmes de gestion d'énergie et des architectures de calcul embarqué, accumulée sur des millions de véhicules électriques, constitue une base technologique directement transférable. Li Ke a formulé le diagnostic sectoriel en ces termes : "les robots chinois manquent de cerveau, les robots américains manquent de muscles", BYD visant explicitement l'excellence sur les deux axes. Face à Boston Dynamics (propriété de Hyundai), Agility Robotics (Amazon), Figure AI ou Physical Intelligence côté occidental, et à Unitree, Fourier Intelligence ou UBTECH côté chinois, BYD arrive avec une surface financière et une base industrielle hors norme. Aucune date de présentation publique ni de feuille de route commerciale n'a été communiquée : le projet reste pour l'instant au stade de l'annonce interne, sans prototype démontré publiquement ni métrique de performance vérifiable.

Chine/AsieOpinion
1 source
BYD développe des robots humanoïdes, selon une source
208TechNode 

BYD développe des robots humanoïdes, selon une source

BYD, le géant chinois des véhicules électriques, développe des robots humanoïdes, selon une source proche du dossier citée mercredi par le média financier chinois Yicai. L'information a été confirmée la même semaine par Li Ke, vice-présidente exécutive du groupe, dans une interview où elle a déclaré explicitement : "BYD travaille également sur les robots humanoïdes." Li Ke n'a fourni ni calendrier ni spécifications techniques, et aucun prototype n'a été présenté publiquement, il s'agit donc d'une annonce de programme, pas d'un produit déployé. L'entrée de BYD dans l'humanoïde illustre une convergence industrielle qui s'accélère en Chine : les constructeurs automobiles disposant de capacités de fabrication à grande échelle, de chaînes d'approvisionnement en batteries et en électronique embarquée, et d'équipes d'IA pour les systèmes ADAS, considèrent désormais la robotique humanoïde comme une extension naturelle de leur savoir-faire. Li Ke a explicitement mentionné que les technologies d'IA automobile et robotique partagent des fondations communes, un argument similaire à celui avancé par Tesla pour justifier son programme Optimus. Si la thèse se vérifie industriellement, BYD disposerait d'un avantage structurel sur les pure-players robotiques en termes de coûts de production et d'intégration verticale. BYD rejoint ainsi un écosystème humanoïde chinois déjà dense, avec Unitree, Fourier Intelligence, Agibot et UBTECH, ainsi que les programmes étatiques liés au plan "Made in China 2025". À l'échelle internationale, la concurrence directe inclut Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit, déployé chez Amazon) et le programme Optimus de Tesla. Li Ke a évoqué la possibilité d'une plateforme robotique ouverte, développement interne couplé à des partenariats avec d'autres entreprises du secteur, et suggéré que le réseau de concessions BYD pourrait servir de canal de distribution si les humanoïdes atteignent le marché grand public. Les prochaines étapes concrètes (prototypes, pilotes industriels, partenaires) restent non communiquées à ce stade.

UEL'entrée de BYD dans la robotique humanoïde renforce la pression concurrentielle de l'écosystème chinois sur les acteurs européens, mais sans impact direct immédiat sur le marché européen à ce stade.

Chine/AsieActu
1 source
IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence
209Pandaily 

IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence

Une entreprise chinoise spécialisée en intelligence artificielle incarnée (embodied AI) a décroché la première place du classement RoboArena lors de la conférence NVIDIA GTC Taipei 2026, devançant NVIDIA et Physical Intelligence (PI). Le benchmark RoboArena est conçu pour évaluer des systèmes d'IA robotique sur des tâches physiques réelles variées : manipulation d'objets, navigation mobile et utilisation d'outils complexes. Sa méthodologie inclut des conditions environnementales aléatoires, des perturbations adversariales et des exigences strictes de reproductibilité, ce qui en fait l'un des rares benchmarks difficiles à truquer par overfitting. Fait notable : l'article source ne mentionne pas le nom de cette entreprise, ce qui affaiblit la portée de l'annonce et rend toute vérification indépendante impossible pour l'instant. La solution retenue s'appuie sur une architecture qui intègre étroitement la perception visuelle et le contrôle moteur au niveau du réseau de neurones, permettant une adaptation rapide à de nouveaux environnements avec un fine-tuning minimal. L'entrée de NVIDIA, construite sur sa plateforme Isaac et ses pipelines de simulation-to-real accélérés GPU, ainsi que celle de Physical Intelligence, connue pour ses politiques robotiques généralistes (dont le modèle Pi-0), ont toutes deux été surpassées en score agrégé. Ce résultat conteste l'hypothèse dominante selon laquelle la puissance de calcul brute est le principal levier de performance en embodied AI. Si confirmé, cela suggère que l'innovation architecturale et une utilisation efficace des données réelles peuvent compenser un désavantage de ressources significatif face à des acteurs comme NVIDIA ou PI, qui disposent de budgets compute sans commune mesure. Pour les intégrateurs et décideurs industriels, cela signifie que le marché reste ouvert à des challengers lean, et que la course à la généralisation robotique n'est pas encore jouée par les seuls hyperscalers. La validation par un benchmark tiers réputé représente un argument commercial fort, surtout dans un secteur où les démonstrations en conditions contrôlées sont légion. Il convient cependant de rester prudent : aucune métrique précise (payload, degrés de liberté, temps de cycle, taux de succès par tâche) n'est communiquée dans l'annonce, et les vidéos de démonstration n'ont pas encore été soumises à un audit indépendant. RoboArena a été lancé comme réponse directe aux critiques sur la reproductibilité des benchmarks robotiques, dans un contexte où des acteurs comme Figure AI (Figure 03), Tesla (Optimus Gen 3), Boston Dynamics, 1X Technologies et Physical Intelligence publient des résultats difficiles à comparer. La Chine construit depuis plusieurs années un écosystème embodied AI dense, porté par une base de fabrication hardware mature, un vivier de talents en vision par ordinateur issus des géants technologiques (Baidu, Alibaba, DJI), et un soutien gouvernemental actif à l'industrialisation de l'IA. La prochaine étape logique pour cette entreprise anonyme sera de se nommer publiquement, de publier ses données brutes et d'annoncer des déploiements pilotes en environnement industriel réel pour confirmer que la performance benchmark se traduit en valeur opérationnelle.

UELa compétitivité croissante de l'écosystème chinois en IA incarnée constitue un signal d'alerte indirect pour les industriels et laboratoires européens positionnés sur la robotique généraliste.

Chine/AsieOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
210arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel
211arXiv cs.RO 

Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel

Un article de recherche déposé sur arXiv le 2 juin 2026 (identifiant 2606.01098) introduit l'Implicit Drifting Policy (IDP), une méthode d'apprentissage par imitation en une seule étape pour le contrôle robotique à haute fréquence. Les politiques génératives basées sur la diffusion ou le flow matching excellent en clonage de comportement, mais leur échantillonnage itératif génère une latence incompatible avec un contrôle à 50 Hz ou plus. Les approches one-step existantes réduisent cette latence au prix de la correction dynamique de trajectoire. IDP contourne ce compromis en extrayant une géométrie d'expert conditionnelle depuis les variations locales d'actions d'experts observationnellement proches, en la comparant à une géométrie de référence globale, et en pondérant un objectif de potentiel scalaire via cette structure, sans estimer explicitement un champ de vecteurs de dérive, approche directe mathématiquement mal posée en raison de la très faible densité des démonstrations conditionnelles. Les évaluations sur des tâches de manipulation en 2D, 3D et en conditions réelles montrent qu'IDP surpasse les méthodes de dérive explicite et reste compétitif face aux meilleures baselines one-step, tout en maintenant une meilleure adhérence aux variétés d'action valides (action manifolds). Pour un intégrateur ou un COO industriel, le bénéfice est concret : une seule passe d'inférence réduit les exigences en calcul embarqué, un verrou réel pour les déploiements à grande échelle de robots apprenants. Ce résultat valide aussi l'idée que la supervision géométrique implicite peut se substituer à des formulations itératives plus coûteuses sans sacrifier la robustesse. La recherche sur les politiques de diffusion en robotique s'est intensifiée depuis Diffusion Policy (Chi et al., Columbia, 2023) et ses dérivés, notamment π₀ de Physical Intelligence (2024) et les VLA de Google DeepMind. IDP s'inscrit dans la lignée des méthodes de distillation one-step (consistency models, DDIM) mais adopte une formulation géométrique implicite plutôt que la distillation directe d'un champ de dérive. Il s'agit d'un preprint non encore évalué par les pairs, testé uniquement en environnements de laboratoire ; sa transférabilité à des déploiements industriels à grande échelle reste à démontrer. Physical Intelligence, Figure AI, CMU et Google DeepMind poursuivent des travaux comparables sur la latence et la robustesse de leurs modèles VLA.

RechercheOpinion
1 source
Raisonnement continu pour les modèles vision-langage-action (VLA)
212arXiv cs.RO 

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion
1 source
Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes
213arXiv cs.RO 

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

Des chercheurs ont soumis fin mai 2026 sur arXiv (référence 2606.00637) une méthode baptisée GLAD (Global-Local Attention Decomposition) pour améliorer la locomotion perceptive des robots humanoïdes sur terrain irrégulier. L'approche repose sur un encodeur coarse-to-fine appliqué à une carte d'élévation centrée sur le robot, qui sépare deux branches d'attention : une branche globale utilisant l'attention pooling pour synthétiser le contexte environnemental, et une branche locale conditionnée à l'état du robot pour encoder avec précision la géométrie des surfaces d'appui. La méthode a été validée sur un humanoïde Unitree G1 équipé d'un LiDAR embarqué, sur des terrains à appuis discontinus (gaps, pierres de gué, escaliers) et dans des environnements confinés, avec un transfert sim-to-real zéro-shot sans réentraînement sur données réelles. La décomposition explicite de l'attention perceptive comble un manque identifié dans la littérature : les encodeurs conventionnels tendent à mélanger la perception macroscopique du terrain, utile pour la navigation globale, et la détection fine des surfaces d'appui, utile pour le placement des pieds, ce qui dégrade les performances dans les deux registres. En séparant ces fonctions, GLAD réduit la dilution des signaux spatiaux fins et allège la charge d'entraînement. Plus notable encore : la politique apprise fait émerger des comportements adaptatifs non explicitement supervisés, comme le suivi de chemins étroits et le contournement d'obstacles sous de simples commandes de vitesse, sans planificateur de navigation dédié. Ce résultat suggère que la structuration de l'encodeur perceptif peut induire une forme de navigation implicite, angle qui intéresse directement les intégrateurs cherchant à alléger la pile logicielle des humanoïdes déployés. La locomotion perceptive des humanoïdes a progressé rapidement depuis les travaux fondateurs en apprentissage par renforcement sur terrain accidenté (ANYmal d'ETH Zurich, CMU Locomotion Group), mais le sim-to-real sur appuis discontinus reste un verrou difficile, notamment à cause du bruit des capteurs de profondeur. L'utilisation du LiDAR embarqué du Unitree G1, commercialisé autour de 16 000 dollars et devenu banc d'essai courant dans la communauté académique, offre une robustesse capteur supérieure aux caméras RGB-D. Sur ce segment, plusieurs équipes sont en compétition directe : Berkeley Humanoid Locomotion Group, MIT CSAIL, et les équipes internes de Figure AI (modèle Helix) et d'Agility Robotics (Digit). Le papier ne publie pas de métriques quantitatives précises (taux de succès, nombre d'essais), ce qui limite la comparaison directe avec d'autres systèmes ; il s'agit d'un résultat académique, pas d'un produit déployé.

RecherchePaper
1 source
L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA
214Pandaily 

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé. L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique. La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

UEL'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

Chine/AsieOpinion
1 source
OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun
215The Decoder 

OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun

OpenAI relance une division robotique, cinq ans après avoir fermé son équipe initiale dédiée à ce domaine. Selon les informations publiées par The Decoder, cette nouvelle équipe est directement issue du programme de recherche en simulation du monde développé en interne. Sam Altman, PDG d'OpenAI, a exprimé une ambition à long terme claire : offrir à chaque individu un robot personnel capable de répondre à n'importe quel besoin. Dans l'immédiat, les premiers déploiements cibleront la construction d'infrastructures. Ce retour dans la robotique signale une accélération majeure dans la course à l'automatisation physique. Après avoir dominé le domaine logiciel avec ChatGPT et les modèles GPT, OpenAI entend désormais ancrer ses modèles d'intelligence artificielle dans le monde réel. L'enjeu est considérable : des robots capables d'opérer dans des environnements complexes pourraient transformer des secteurs entiers comme la construction, la logistique ou les services à la personne, et redéfinir profondément le marché du travail. OpenAI avait abandonné la robotique en 2021, citant des contraintes de ressources et un recentrage sur les modèles de langage. Depuis, le paysage a radicalement changé : Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus ont intensément développé des robots humanoïdes, attisant l'intérêt des investisseurs. Le fait qu'OpenAI s'appuie sur ses travaux de simulation du monde suggère une approche différente, centrée sur la généralisation des comportements plutôt que sur la programmation spécialisée, une stratégie potentiellement décisive dans cette compétition naissante.

UEL'entrée d'OpenAI dans la robotique physique pourrait accélérer l'automatisation dans des secteurs clés en Europe comme la construction et la logistique, avec des répercussions potentielles sur l'emploi, mais sans impact direct immédiat sur la France ou une réglementation européenne.

HumanoïdesOpinion
1 source
Les robots apprennent à se relever après des chutes dans les escaliers grâce à un système de stabilisation intelligent
216Interesting Engineering 

Les robots apprennent à se relever après des chutes dans les escaliers grâce à un système de stabilisation intelligent

Des chercheurs du ROAR Laboratory (Robotics and Automation Research) de l'Université de Technologie et de Design de Singapour (SUTD) ont publié une étude sur la mitigation des chutes de robots en escalier, présentant un système basé sur l'apprentissage par renforcement couplé à un bras mécanique à trois degrés de liberté (3 DOF). Le dispositif est monté à l'arrière d'une plateforme mobile à chenilles et intervient activement pendant la chute, au lieu de se limiter à la prévention. Entraîné entièrement en simulation sur cinq modes de chute répertoriés (chute arrière droite, pivotements latéraux, effondrements de côté), le contrôleur atteint un taux de succès moyen de 69,4 % pour stopper et stabiliser le robot, contre 38,6 % pour une méthode de contrôle codée à la main. Lorsqu'il réussit, le système stabilise la plateforme en 4,25 secondes en moyenne, bien en deçà du seuil interne fixé à 10 secondes. Testé sur des robots 10 % plus grands ou plus petits et sur des escaliers aux dimensions variables, le meilleur contrôleur atteint 87 % de succès sur une plateforme plus grande. Le résultat le plus significatif n'est pas le taux de succès en lui-même mais le changement de paradigme qu'il représente : le secteur s'est longtemps concentré sur la prévention des chutes via la planification de trajectoire et la détection d'obstacles, en présupposant que le risque résiduel était marginal. Une étude de terrain sur plusieurs années citée par l'équipe indique pourtant que les robots conçus pour les escaliers tombent au moins 35 fois plus souvent sur ce type de surface qu'en terrain plat. Le professeur Mohan Rajesh Elara, directeur du ROAR Lab, formule l'enjeu en termes d'adoption industrielle : tant que les opérateurs ne disposent pas d'une réponse crédible au risque résiduel, ces plateformes resteront perçues comme une source de responsabilité plutôt que comme un outil. Le fait que le contrôleur généralise à des géométries non vues pendant l'entraînement est également notable pour les intégrateurs : il suggère qu'un seul modèle pourrait couvrir une flotte hétérogène sans réentraînement par plateforme. Le système n'est pas prêt pour un déploiement commercial : les chercheurs reconnaissent explicitement qu'il ne satisfait pas la norme de sécurité fonctionnelle IEC 61508, qui impose des niveaux d'intégrité stricts pour les systèmes embarqués en environnement humain. Les prochaines étapes portent sur l'amélioration de la fiabilité, l'ajout de sécurités mécaniques redondantes et la validation expérimentale hors simulation. Dans le paysage concurrentiel, Boston Dynamics (Spot, Atlas), Agility Robotics (Digit) et les acteurs humanoïdes (Figure AI, 1X, Unitree) investissent massivement dans la stabilité dynamique, mais peu publient des données quantifiées sur la récupération post-chute. Ce travail de la SUTD se positionne davantage comme recherche fondamentale que comme annonce produit, mais il fournit une baseline méthodologique utile pour comparer les approches à venir.

UEAucun acteur européen impliqué, mais la référence explicite à la norme IEC 61508 (certification fonctionnelle européenne) positionne ce travail comme une étape préliminaire obligatoire avant tout déploiement commercial en UE de robots mobiles en environnement humain.

RecherchePaper
1 source
Main dextérique joueuse de piano : deux minutes de pratique suffisent pour apprendre les notes
217Interesting Engineering 

Main dextérique joueuse de piano : deux minutes de pratique suffisent pour apprendre les notes

Des chercheurs de l'Université de Californie du Sud (USC Viterbi) ont présenté la "Musician Hand", une main robotique à quatre doigts actionnée par tendons et moteurs électriques, capable de reproduire une mélodie inconnue après seulement deux minutes d'exploration autonome. Le processus s'appelle "motor babbling" : pendant 120 secondes, la main tapote aléatoirement les touches du piano, enregistrant simultanément les sons produits et les mouvements correspondants. Un réseau de neurones établit ensuite la cartographie audio-motrice. Résultat : lors d'un premier essai sans correction en temps réel, la main a restitué fidèlement une mélodie de 30 notes entièrement nouvelle. Lors d'une audition en aveugle, des juges musicaux n'ont pas toujours réussi à distinguer son jeu de celui de quatre pianistes humains. L'étude est publiée dans le Journal of the Royal Society Interface, sous la direction de Francisco Valero-Cuevas, professeur de génie biomédical et mécanique à USC. Ce système illustre une rupture méthodologique avec l'orthodoxie robotique dominante, qui suppose qu'un agent a besoin de données massives et d'une modélisation précise de son environnement pour agir efficacement. La "Musician Hand" fonctionne à rebours : elle perçoit, infère et s'adapte, à la manière d'un animal ou d'un nourrisson humain. Cette approche, baptisée "robotique perceptuelle" par ses créateurs, ouvre la voie à des systèmes capables d'auto-calibration rapide dans des environnements non contrôlés, sans intervention d'un ingénieur. Pour les intégrateurs et concepteurs de robots collaboratifs, c'est une démonstration de principe importante : le coût d'apprentissage d'une nouvelle tâche motrice peut tomber à quelques minutes sur un simple laptop, là où les pipelines classiques exigent des semaines de collecte de données et d'annotation. Il convient néanmoins de noter que la démonstration reste un proof-of-concept dans un environnement très contrôlé, et qu'aucune performance en conditions industrielles réelles n'a encore été publiée. L'équipe USC ne vise pas le marché du divertissement mais la médecine. L'application cible principale est l'assistance aux patients atteints de maladies neurodégénératives progressives comme Parkinson : contrairement aux exosquelettes actuels, rigidement préprogrammés, un dispositif basé sur ce framework pourrait apprendre la signature motrice personnelle d'un patient dès le diagnostic, puis évoluer avec lui à mesure que sa condition se dégrade, sans reprogrammation. D'autres pistes sont évoquées : rééducation post-AVC, assistance aux personnes âgées, voire collaboration avec des ouvriers du bâtiment. Sur le plan concurrentiel, l'approche se distingue des travaux de laboratoires comme Boston Dynamics, Figure AI ou 1X, qui s'appuient majoritairement sur l'imitation à grande échelle (imitation learning, VLA) et des datasets conséquents. Le groupe USC n'a pas annoncé de partenaires industriels ni de timeline de commercialisation à ce stade.

RecherchePaper
1 source
Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique
218SCMP Tech 

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique

Alibaba et Tencent ont annoncé un virage stratégique majeur : déployer leurs modèles d'IA générative dans des systèmes robotiques physiques, plutôt que de rester cantonnés aux interfaces conversationnelles. Alibaba a lancé la semaine dernière le modèle Qwen3.7-Max, doté de capacités dites de "tool-calling" qui lui permettent de fonctionner comme cerveau numérique d'un robot, en orchestrant des composants logiciels et matériels externes. Concrètement, le modèle peut déclencher des séquences d'actions physiques comme la navigation autonome, le bras articulé ou la prise d'objet, sans reprogrammation manuelle à chaque tâche. Ce positionnement signale un déplacement du front concurrentiel de l'IA en Chine : la différenciation ne se joue plus sur les benchmarks de raisonnement textuel, mais sur la capacité des VLA (Vision-Language-Action models) à passer du simulateur à l'environnement réel. Pour les intégrateurs industriels et les décideurs B2B, cela implique que des briques d'IA disponibles en open ou semi-open source pourraient bientôt remplacer des stacks robotiques propriétaires coûteux, accélérant les cycles de déploiement tout en abaissant les barrières à l'entrée. Alibaba avait déjà positionné la famille Qwen comme alternative aux modèles occidentaux, avec des versions multimodales compétitives face à GPT-4o et Gemini. Tencent suit une trajectoire similaire avec ses propres initiatives robotiques encore peu documentées publiquement. Les deux groupes se retrouvent en concurrence directe avec Figure AI, Physical Intelligence (pi0), Boston Dynamics et Unitree, ainsi qu'avec les efforts de Nvidia (GR00T N2) pour standardiser les pipelines d'entraînement robotique. Les prochaines étapes annoncées restent pour l'instant au stade de la démonstration technique, sans déploiement industriel confirmé.

UEL'émergence de briques VLA open/semi-open source chinoises (Qwen3.7-Max) pourrait abaisser les coûts d'intégration pour les industriels européens, tout en intensifiant la pression concurrentielle sur les acteurs EU face aux géants technologiques chinois.

Chine/AsieOpinion
1 source
Transformer des modèles vidéo en politiques robotiques généralistes
219arXiv cs.RO 

Transformer des modèles vidéo en politiques robotiques généralistes

Des chercheurs du MIT CSAIL ont publié fin mai 2026 un preprint (arXiv:2605.27817) présentant VERA, pour Video-to-Embodied Robot Action Model, une architecture qui transforme des modèles vidéo génératifs en politiques robotiques généralisables. L'idée centrale est de découpler deux composants qui, dans les approches récentes, sont souvent entraînés conjointement : un planificateur vidéo, qui prédit des séquences d'images représentant la complétion d'une tâche, et un modèle de dynamique inverse (IDM, Inverse Dynamics Model) spécifique à l'effecteur, qui traduit ces images en commandes motrices concrètes. L'IDM est conçu à partir du Jacobien cinématique du robot, ce qui le rend à la fois efficient en données et extensible aux espaces d'action de haute dimension. L'équipe démontre VERA sur deux configurations : manipulation zero-shot d'un bras Panda 7-DOF et réorientation de cube en dextérité avec une main Allegro à 16 degrés de liberté, sur des benchmarks simulés et réels. Ce découplage constitue une alternative architecturale directe aux fondations robotiques qui co-entraînent prédiction d'observations et prédiction d'actions sur des données étiquetées (action-labeled), comme le proposent Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'avantage opérationnel est concret : le planificateur vidéo reste agnostique à l'effecteur et peut être partagé entre plusieurs robots en changeant uniquement l'IDM associé, sans réentraîner le backbone vidéo. L'IDM peut lui-même être entraîné sur des données de self-play facilement disponibles, ce qui réduit la dépendance aux démonstrations humaines coûteuses. Les résultats zero-shot sur des tâches de manipulation réelle renforcent la thèse que le gap sim-to-real peut être atténué par une modélisation géométrique rigoureuse de l'effecteur. La course aux VLA (Vision-Language-Action models) et aux politiques cross-embodiment est aujourd'hui dominée par des laboratoires bien capitalisés : Physical Intelligence avec Pi-0 et Pi-0.5, NVIDIA avec GR00T N2, Figure AI avec Helix, et 1X Technologies. VERA positionne le MIT CSAIL dans ce paysage avec une approche plus modulaire que les architectures monolithiques en vogue. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé ni partenariat hardware mentionné. Les résultats sont disponibles sur vera.csail.mit.edu, et la prochaine étape naturelle serait une évaluation sur des effecteurs plus variés ou des environnements non structurés pour valider la généralisation à plus grande échelle.

RechercheOpinion
1 source
Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique
220arXiv cs.RO 

Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique

Une équipe de chercheurs a publié le 28 mai 2026 (arXiv:2605.28812) une nouvelle représentation tactile baptisée Centre de Pression (CoP, pour Center-of-Pressure), qui permet un transfert sim-to-real zéro-shot sur une main robotique multi-doigts pour des tâches de contact intensif. Les deux scénarios de validation retenus sont représentatifs de cas industriels difficiles : l'insertion de type cheville-trou (peg-in-hole) et l'équilibrage d'une balle sur les doigts. La méthode repose sur une calibration des capteurs tactiles via la dynamique différentiable, permettant d'estimer l'orientation de chaque taxel (l'équivalent tactile d'un pixel) sans mesures de force de référence. Les résultats montrent que les politiques conditionnées sur CoP surpassent deux baselines classiques : le contact binaire grossier et les taxels bruts non traités. Le verrou que CoP cherche à lever est bien identifié dans le domaine : le sim-to-real gap pousse la majorité des approches actuelles à réduire les données tactiles à des signaux bas-dimensionnels, sacrifiant la richesse nécessaire aux manipulations précises. CoP change l'équation en ancrant la représentation dans des principes physiques rigoureux plutôt que dans des heuristiques d'ingénierie, préservant la densité d'information tout en maintenant la robustesse au transfert. Un résultat secondaire notable : les politiques apprennent à encoder des propriétés physiques comme la masse de l'objet tenu de façon émergente, sans supervision explicite. Pour les intégrateurs et les équipes de robotique d'assemblage, cela ouvre la perspective de rendre compétitif l'apprentissage par renforcement en simulation pour des tâches de précision, sans collecter des milliers d'heures de données réelles. Ce travail s'inscrit dans une compétition académique soutenue autour de la manipulation dextère tactile, où plusieurs groupes de recherche (Berkeley, CMU, MIT, ETH Zurich) ont progressé sur le sim-to-real pour les capteurs de contact en 2024-2025, sans atteindre le transfert zéro-shot sur une main complète multi-doigts. Côté industriel, Shadow Robot (Royaume-Uni) reste la référence sur les mains tactiles à haute dextérité, tandis que Figure AI et Apptronik misent sur la manipulation corps entier dans des humanoïdes généralistes. Ce papier est un résultat académique : pas de prototype commercial ni de calendrier industriel annoncé, mais la validation sur peg-in-hole, benchmark historique en robotique d'assemblage, et sur une tâche dynamique d'équilibrage renforce sa crédibilité pour les équipes R&D en fabrication avancée.

UEAucun acteur européen n'est directement impliqué, mais les équipes R&D européennes en fabrication avancée (assemblage, manipulation de précision) pourraient exploiter cette méthode pour réduire leur dépendance aux données tactiles réelles coûteuses.

IA physiquePaper
1 source
Figure s'associe à Catalyst Brands pour déployer des robots humanoïdes dans la logistique
221Robotics & Automation News 

Figure s'associe à Catalyst Brands pour déployer des robots humanoïdes dans la logistique

Figure AI a conclu un accord commercial avec Catalyst Brands pour déployer ses robots humanoïdes dans le réseau logistique du distributeur américain. Le déploiement débutera dans le centre de distribution de Catalyst Brands à Reno, Nevada, où les robots de Figure seront chargés d'automatiser des tâches physiquement pénibles de la chaîne d'approvisionnement. Catalyst Brands regroupe plusieurs enseignes de distribution grand public, positionnant ce pilote comme une première incursion de Figure dans la logistique multi-enseignes. L'article source ne précise pas le modèle déployé (Figure 02 ou une itération ultérieure), ni les volumes d'unités engagées ou les métriques de cadence, des données absentes qui limitent l'évaluation concrète du déploiement. Ce partenariat illustre le pivot de Figure vers des contrats commerciaux réels après une phase de démo intensive. La logistique de distribution reste le terrain d'atterrissage privilégié des humanoïdes : tâches répétitives, environnements semi-structurés, pénurie de main-d'œuvre documentée. Si Reno devient un déploiement opérationnel stable plutôt qu'un pilote contrôlé, cela constituerait une preuve de maturité sim-to-real pour Figure, un point que le secteur surveille attentivement face au fossé persistant entre démonstrations en laboratoire et performance en entrepôt réel. Figure AI, fondée par Brett Adcock, avait déjà signé un accord avec BMW pour des tâches de fabrication automobile, puis levé environ 675 millions de dollars en 2024 pour accélérer son développement. Dans un paysage concurrentiel où Agility Robotics (Digit) est déjà déployé chez Amazon, et où Tesla pousse Optimus vers ses propres usines, Figure cherche à ancrer des références clients dans la grande distribution. Le site de Reno sera à suivre comme indicateur de passage à l'échelle.

HumanoïdesOpinion
1 source
Les progrès vers l'IPO d'Unitree stimulent les achats d'actions des sociétés exposées au fabricant de robots humanoïdes
222SCMP Tech 

Les progrès vers l'IPO d'Unitree stimulent les achats d'actions des sociétés exposées au fabricant de robots humanoïdes

Unitree Robotics a franchi une étape décisive vers une introduction en bourse domestique en déposant une demande de cotation sur le Star Market de Shanghai, la place boursière dédiée aux entreprises technologiques chinoises. Lundi, la société a confirmé que l'autorité de la bourse examinerait son dossier la semaine suivante. Cette annonce a immédiatement déclenché une vague d'achats sur les titres des investisseurs pré-IPO et des partenaires commerciaux d'Unitree, les traders cherchant à s'exposer indirectement au fabricant de robots avant sa cotation officielle. Le montant de la valorisation cible n'est pas encore divulgué publiquement. L'engouement boursier illustre à quel point les humanoïdes sont devenus le thème d'investissement central de 2026. Une IPO réussie d'Unitree validerait la thèse selon laquelle le marché grand public des robots mobiles est commercialement viable, pas seulement au stade de la démonstration. Pour les intégrateurs et les décideurs industriels, cela signifie que des acteurs comme Unitree, dont le G1 humanoïde est affiché à environ 16 000 dollars, atteignent une maturité opérationnelle suffisante pour justifier une cotation publique avec les obligations de transparence financière que cela implique. Unitree, fondée par Wang Xingxing, s'est imposée comme le fournisseur de robots mobiles le plus agressivement tarifé du marché, avec la gamme Go2 (quadrupède) et les humanoïdes H1 et G1. La société fait face à la concurrence directe de Fourier Intelligence, Leju Robotics et Agibot en Chine, ainsi que de Figure AI, Agility Robotics et 1X Technologies à l'international. Une cotation sur le Star Market renforcerait sa capacité de R&D et de déploiement à grande échelle, au moment où la course au robot humanoïde s'accélère mondialement.

Chine/AsieOpinion
1 source
Unitree Robotics fixe son introduction en bourse au 1er juin, visant à devenir le premier fabricant de robots humanoïdes coté en Chine
223Pandaily 

Unitree Robotics fixe son introduction en bourse au 1er juin, visant à devenir le premier fabricant de robots humanoïdes coté en Chine

Unitree Robotics, fabricant chinois de robots humanoïdes et quadrupèdes, est convoqué le 1er juin 2026 devant le comité d'examen de la STAR Market de la Bourse de Shanghai pour son audition pré-introduction en bourse. La date a été confirmée dans un document officiel publié le 25 mai : il s'agit de la 31e séance d'examen de l'année. Le dossier d'admission avait été accepté il y a un peu plus de deux mois, soit fin mars 2026, un délai d'instruction court qui signale une priorité réglementaire affirmée. Si le comité valide le dossier, Unitree deviendrait la première entreprise de robots humanoïdes cotée en Chine. Le périmètre d'activité déclaré couvre les robots humanoïdes polyvalents, les robots quadrupèdes, les composants robotiques et la R&D en modèles d'IA incarnée. L'entreprise s'est imposée à l'international avec le Unitree Go2, robot quadrupède vendu à un tarif nettement inférieur aux offres concurrentes, ce qui lui a permis d'atteindre une large base de développeurs et de chercheurs. Plus récemment, elle a accéléré son programme humanoïde pour concurrencer directement Tesla Optimus, Fourier Intelligence et Figure AI. L'enjeu de cette cotation dépasse le seul cas Unitree : le marché attend une valorisation de référence pour un secteur où les coûts de R&D, de fabrication et de test en conditions réelles restent très élevés. Accéder aux marchés de capitaux via la STAR Market ouvrirait un canal de financement structurant pour les entreprises chinoises de robotique humanoïde, dans un contexte où la course à la production à grande échelle exige des investissements massifs. Pour les intégrateurs industriels et les décideurs B2B qui suivent le secteur, une première cotation réussie signalerait que le marché valorise la robotique humanoïde comme une infrastructure industrielle à part entière et non plus comme un horizon de recherche. Cela pourrait accélérer les décisions d'achat et les partenariats, les clients institutionnels étant souvent plus enclins à travailler avec des fournisseurs dotés d'une transparence financière publique. Fondée à Hangzhou, Unitree a construit sa réputation sur la démocratisation du prix des robots à pattes, là où Boston Dynamics positionnait ses produits exclusivement sur le segment premium. La STAR Market, créée en 2019 sur le modèle du Nasdaq américain pour accueillir des entreprises technologiques à forte intensité capitalistique, est le terrain d'introduction naturel pour ce type de dossier. Sur le plan concurrentiel, Unitree fait face en Chine à Fourier Intelligence et à Agility Robotics dans une moindre mesure, ainsi qu'aux ambitions croissantes de UBTECH Robotics, déjà cotée à Hong Kong depuis 2023. À l'international, Tesla et Figure AI fixent le rythme médiatique, mais sans cotation comparable. L'audition du 1er juin ne garantit pas l'approbation finale ; une décision favorable ouvrirait la voie à une introduction effective dans les semaines suivantes, dont le calendrier précis n'a pas été communiqué.

UEUne introduction en bourse réussie d'Unitree renforcerait massivement sa capacité d'investissement en R&D et fabrication, intensifiant la pression concurrentielle sur les fabricants et intégrateurs robotiques européens.

Chine/AsieOpinion
1 source
Robot humanoïde chinois épate en dansant le ballet aux côtés de danseurs humains
224Interesting Engineering 

Robot humanoïde chinois épate en dansant le ballet aux côtés de danseurs humains

UBTECH, entreprise chinoise de robotique fondée à Shenzhen, a présenté son nouveau robot humanoïde Walker C1 lors d'une performance live de ballet et de valse tirée du Lac des Cygnes, aux côtés de danseurs humains. La démonstration, organisée dans le cadre de la China International Supply Chain Expo (Chain Expo) 2026, dont UBTECH vient d'être désigné partenaire humanoïde officiel exclusif, visait à illustrer les capacités de contrôle de mouvement, d'équilibre dynamique et de coordination du robot. Le Walker C1 est un humanoïde électrique pleine taille conçu pour les environnements de service public, accueil d'hôtels, aéroports, centres d'exposition et centres commerciaux. Il intègre un module de navigation autonome U-SLAM, un contrôle de mouvement corps entier, et une vitesse de marche de 6 km/h. Il supporte l'interaction multilingue et est alimenté par un grand modèle d'interaction incarnée développé en interne. UBTECH n'a pas publié de fiche technique complète du C1 au moment de l'annonce. Une unité est déjà déployée à l'Expo 2025 d'Osaka, où elle opère comme guide intelligent dans le pavillon chinois. La démonstration chorégraphique est avant tout un exercice de communication, pas une validation de performance industrielle. Aucune métrique précise sur les degrés de liberté, le couple articulaire ou la précision de répétabilité du C1 n'a été communiquée, ce qui limite l'interprétation technique. En revanche, les données commerciales d'UBTECH méritent davantage d'attention : l'entreprise a enregistré environ 800 millions de yuans (113 millions de dollars) de commandes en 2025, dont un contrat de 250 millions de yuans (35 M$) signé en septembre avec une grande entreprise chinoise non nommée, ainsi que des engagements de 159 millions de yuans en Sichuan et 126 millions de yuans au Guangxi. Ces chiffres signalent un passage concret du stade prototype à la production commerciale à grande échelle. Le secteur automobile se révèle le principal moteur de la demande, avec BYD, Geely, FAW-Volkswagen, Dongfeng Liuzhou Motor et Foxconn comme clients actifs pour des applications de manufacturing et de logistique. UBTECH a franchi en 2025 le cap des 1 000 unités Walker S2 produites dans son usine de Liuzhou, avec plus de 500 robots déjà déployés en opération réelle. L'entreprise cible une capacité de production de 10 000 unités par an d'ici fin 2026. Dans ce contexte, la Chine consolide une course humanoïde qui implique aussi LimX Dynamics, dont le robot Oli avait réalisé une performance de ballet similaire l'an dernier, ainsi que Unitree et Fourier Intelligence. À l'international, les concurrents directs incluent Figure AI, Agility Robotics (Amazon) et Boston Dynamics sur le segment industriel, et Apptronik sur le service. La stratégie d'UBTECH combine une vitrine médiatique grand public via la danse, et un ancrage commercial fort sur les sites industriels et d'exposition, une dualité qui reflète l'ambition de transformer le robot humanoïde en produit de série avant ses rivaux occidentaux.

UELa montée en puissance commerciale d'UBTECH en Chine (10 000 unités/an visées fin 2026, 800 M¥ de commandes en 2025) intensifie la pression concurrentielle sur les acteurs européens positionnés sur les humanoïdes de service et industriels.

Chine/AsieOpinion
1 source
Pourquoi Tesla mise des milliards sur Optimus
225Robot Magazine FR 

Pourquoi Tesla mise des milliards sur Optimus

Tesla a engagé un pivot stratégique majeur vers la robotique humanoïde avec son robot Optimus, présenté pour la première fois en 2021 et progressivement monté en priorité interne. Selon des déclarations publiques répétées d'Elon Musk courant 2024-2025, le groupe recrute massivement des ingénieurs en vision par ordinateur, robotique et IA, sans que des chiffres précis d'investissement ou de volumes de production n'aient été officiellement communiqués. Musk a qualifié Optimus de "produit le plus important de Tesla", positionnant le robot comme une plateforme capable d'intervenir dans les usines, entrepôts, logistique et services grand public. À date, Tesla a publié des démonstrations vidéo d'Optimus réalisant des tâches manuelles en environnement contrôlé. Il n'existe pas encore de déploiement industriel à l'échelle documenté ni de prix catalogue annoncé pour des tiers. L'intérêt stratégique d'Optimus repose sur une hypothèse structurelle : le marché des robots humanoïdes polyvalents pourrait dépasser celui de l'automobile à long terme. Pour les décideurs industriels, la promesse est réelle, les humanoïdes pourraient théoriquement remplacer des postes de travail répétitifs sans reconfigurer entièrement les lignes de production, contrairement aux bras industriels fixes. Mais l'écart entre démonstration et déploiement opérationnel reste considérable. Le "demo-to-reality gap" n'est pas comblé : aucun constructeur, ni Tesla, ni Figure AI, ni Boston Dynamics, n'a prouvé une fiabilité suffisante en conditions réelles non supervisées à grande échelle. Ce que le pivot Tesla prouve, c'est que la narration "constructeur automobile" ne suffit plus à soutenir une valorisation boursière qui restait, début 2025, un multiple très élevé par rapport aux revenus automobiles nets. Tesla arrive sur un marché humanoïde déjà encombré. Figure AI (Figure 03, en partenariat avec BMW) a annoncé des déploiements en usine. Agility Robotics (Digit) est en production chez Amazon. Physical Intelligence (pi-0) et 1X Technologies progressent sur les modèles fondationnels robotiques. Boston Dynamics positionne Atlas sur les environnements industriels difficiles. NVIDIA soutient l'écosystème via GR00T et la plateforme Isaac. La Chine industrialise rapidement avec Unitree et Fourier Intelligence. Tesla dispose d'un avantage potentiel : l'accès à d'immenses volumes de données réelles via ses véhicules et ses usines, et une chaîne de fabrication à bas coût. Mais la pression concurrentielle sur l'automobile, notamment de BYD, Xiaomi et Xpeng, comprime les marges et renforce l'urgence de diversifier les revenus. Une éventuelle IPO de SpaceX constitue un risque de dilution d'attention capitalistique supplémentaire pour Tesla. Les prochaines étapes à surveiller : un déploiement interne dans les Gigafactories, et une éventuelle communication sur les métriques de fiabilité opérationnelle.

HumanoïdesOpinion
1 source
La Chine mise sur l'IA et la fabrication avancée pour contrer les vents économiques contraires
226SCMP Tech 

La Chine mise sur l'IA et la fabrication avancée pour contrer les vents économiques contraires

Le Premier ministre chinois Li Qiang a effectué lundi une visite symbolique à Pékin, passant par l'usine de véhicules électriques de Xiaomi puis par le Humanoid Robot Innovation Centre, un hub qui regroupe plus d'une douzaine de start-ups spécialisées en IA incarnée (embodied AI), des partenaires industriels et des institutions de recherche. Lors de cette tournée, Li a appelé à une intégration accélérée entre les acteurs de l'IA et le secteur de la fabrication avancée, positionnant cette convergence comme levier de croissance prioritaire face au ralentissement de la demande intérieure et aux pressions commerciales extérieures, notamment les tensions tarifaires avec les États-Unis. Le signal politique est clair : Pékin veut transformer ses capacités en robotique humanoïde et en IA générative en avantages compétitifs industriels concrets, pas seulement en vitrines technologiques. Pour les intégrateurs et décideurs B2B, cela signifie une accélération probable des déploiements pilotes en usine, avec un soutien étatique direct aux start-ups locales. La visite du Humanoid Robot Innovation Centre illustre aussi la stratégie de clustering : concentrer capital, talents et clients industriels pour réduire le fossé entre démo lab et déploiement réel. Ce mouvement s'inscrit dans une trajectoire déjà engagée : la Chine a multiplié les programmes de soutien à la robotique humanoïde depuis 2023, avec des acteurs comme Unitree, Fourier Intelligence ou Agibot qui affichent des cadences de production croissantes. Face à eux, les acteurs américains (Figure AI, Physical Intelligence, Tesla Optimus) et européens avancent sur des segments différents. La prochaine étape à surveiller sera la concrétisation de ces orientations politiques en contrats industriels mesurables.

UEL'accélération du soutien étatique chinois à la robotique humanoïde intensifie la pression concurrentielle sur les acteurs européens, qui devront consolider des niches différenciées face à des cadences de production chinoises croissantes.

Chine/AsieOpinion
1 source
Vendredi vidéo : des engins de chantier lourds fonctionnent de façon autonome
227IEEE Spectrum Robotics 

Vendredi vidéo : des engins de chantier lourds fonctionnent de façon autonome

Cette semaine dans le panorama robotique publié par IEEE Spectrum, la démonstration la plus concrète provient d'ETH Zurich, qui présente la première solution d'autonomisation complète déployée sur un engin de manutention de matériaux industriels de 40 tonnes en conditions réelles, un manipulateur hydraulique équipé d'une pince libre sous-actionnée traditionnellement opéré par un conducteur humain dans les secteurs des déchets, de la construction et de la démolition. La Norwegian University of Science and Technology (NTNU) a publié en open-source son Unified Autonomy Stack, une architecture de navigation combinant LiDAR, radar, vision et centrale inertielle pour robots aériens et terrestres à pattes, validée en environnements GNSS-dégradés ; le système intègre raisonnement visio-langagier, planification multi-comportements et couches de sécurité par fonctions de barrière de contrôle. En parallèle, Figure AI a diffusé une vidéo de rangement de chambre sans préciser le modèle de robot utilisé ni les conditions de tournage. Unitree a présenté un véhicule civil habité transformable pesant environ 500 kg avec conducteur à bord. La startup Lumos a annoncé NIX, un robot humanoïde orienté danse urbaine et IA incarnée, disponible gratuitement pour des partenaires sélectionnés parmi des universités, laboratoires de robotique et technologues créatifs. L'autonomisation d'engins lourds présente un ratio effort/impact plus favorable à court terme que le déploiement humanoïde grand public : les machines de 40 tonnes opèrent sur des cycles répétitifs en environnements semi-structurés, rendant la tâche plus tractable pour les systèmes actuels. L'intégration réalisée par ETH Zurich est notable parce qu'elle s'appuie sur un engin existant, sans reconstruire une nouvelle plateforme dédiée. L'open-sourcing du stack NTNU répond à un verrou réel : la navigation robuste sans GPS reste un frein majeur pour les déploiements en intérieur industriel ou en zones isolées. Sur les humanoïdes, l'éditorial d'IEEE Spectrum formule explicitement une mise en garde contre les revendications de "niveau humain" sur des tâches de manipulation : les humains sont structurellement très performants dans ce type de travail, et les évaluer correctement exige des benchmarks rigoureux, un rappel pertinent pour les décideurs B2B qui instruisent des pilotes. Rodney Brooks, cofondateur et CTO de Robust.AI, classé 44e au Forbes 250 America's Greatest Innovators, s'est exprimé sur les défis structurels de l'innovation robotique et la signification de la vague IA actuelle pour le secteur, soulignant que la difficulté fondamentale reste l'intégration fiable en monde ouvert. Agility Robotics, dont le bipède Cassie est évoqué comme référence historique de la recherche en locomotion, poursuit sa trajectoire vers son humanoïde Digit. Du côté de la recherche fondamentale, la méthode EFGCL (reinforcement learning guidé par forces assistives) démontre des mouvements dynamiques, sauts, backflips et vrilles latérales, sur robots à pattes, une direction qui alimente les futures plateformes de loco-manipulation. L'University of Southern California explore pour sa part l'utilisation de robots à pattes pour la récolte légumière en contexte agricole réel, un cas d'usage concret dont les performances à l'échelle restent à documenter.

UEETH Zurich (Suisse) démontre l'autonomisation complète d'un engin de manutention de 40 tonnes sur équipement existant sans nouvelle plateforme dédiée, et NTNU publie en open-source un stack de navigation robuste sans GPS, deux contributions de la recherche européenne directement applicables à l'automatisation industrielle et logistique sur le marché EU.

IndustrielActu
1 source
La Chine attribue des numéros d'identification officiels aux robots humanoïdes pour suivre leur cycle de vie complet
228Interesting Engineering 

La Chine attribue des numéros d'identification officiels aux robots humanoïdes pour suivre leur cycle de vie complet

La province du Hubei, en Chine, lance un système d'identification officielle pour les robots humanoïdes : chaque machine recevra désormais un code unique de 29 caractères, comparable au numéro de carte d'identité nationale, avec 11 caractères supplémentaires propres au secteur robotique. Ce code embarque l'origine du fabricant, le modèle produit, le numéro de série, les spécifications matérielles, le niveau d'intelligence et les données de sortie d'usine. L'initiative est pilotée par le Hubei Humanoid Robot Innovation Center, basé à Wuhan, qui a déjà finalisé les dossiers de demande et les tests de codage pour une première vague d'entreprises soumises au ministère de l'Industrie et des Technologies de l'Information (MIIT). Les sociétés participant à ce premier lot incluent Optics Valley Dongzhi, Glroad, Hubei Qirobotics, Jingchu Humanoid Robot, HandX, Guanggu Haribit et Maxnova, dont plusieurs robots ont déjà été enregistrés. Ces systèmes sont actuellement déployés dans la fabrication industrielle, les services commerciaux et les démonstrations de formation. L'émission officielle des numéros débutera une fois les normes nationales correspondantes adoptées par le MIIT. Au-delà du registre de base, la plateforme numérique associée centralise le suivi opérationnel tout au long du cycle de vie de chaque robot : historique de maintenance, scénarios d'utilisation, usure des articulations, état des batteries et précision des mouvements sont accessibles en temps réel via l'identifiant unique. Pour les intégrateurs et les équipes de maintenance, cela signifie une identification rapide des pannes par consultation des journaux de service, sans multiplier les inspections à chaque redéploiement. Le système vise également à clarifier les responsabilités en cas de dysfonctionnement ou d'incident de données, et à fluidifier un marché secondaire naissant : un futur acquéreur pourra accéder directement à l'historique complet d'un robot via son profil ID. C'est un changement structurant pour un secteur jusqu'ici fragmenté, où l'absence de cadre unifié pour la traçabilité, la supervision de sécurité et l'échange de données freinait la montée en échelle industrielle. Ce déploiement s'inscrit dans un marché en croissance rapide mais encore morcelé. En 2025, les expéditions mondiales de robots humanoïdes ont atteint environ 17 000 unités, pour un marché évalué à 2,88 milliards de yuans. La Chine y occupe une position dominante : plus de 140 fabricants actifs, environ 14 400 unités expédiées, soit 84,7 % de la production mondiale, et un marché domestique estimé à 1,55 milliard de yuans représentant 53,8 % du total global. Face à des acteurs occidentaux comme Boston Dynamics, Figure AI, Agility Robotics ou 1X Technologies, la stratégie chinoise mise sur la standardisation de l'écosystème plutôt que sur les seules prouesses techniques. Le système d'identification du Hubei est présenté comme un pilote national destiné à s'étendre une fois les standards MIIT finalisés, avec pour ambition explicite de soutenir un développement industriel à grande échelle.

UELa standardisation chinoise du cycle de vie des robots humanoïdes risque d'accélérer la montée en échelle industrielle de la Chine et de creuser l'écart compétitif avec les fabricants et intégrateurs européens, qui ne disposent pas encore d'un cadre équivalent de traçabilité et de supervision.

Chine/AsieActu
1 source
RoboLab : benchmark de simulation haute fidélité pour l'analyse des politiques généralistes multi-tâches
229arXiv cs.RO 

RoboLab : benchmark de simulation haute fidélité pour l'analyse des politiques généralistes multi-tâches

Des chercheurs du Spatial Reasoning Lab de NVIDIA ont publié sur arXiv (papier 2604.09860, version 3, mai 2026) RoboLab, un framework de benchmarking en simulation conçu pour évaluer les politiques robotiques généralistes. Le coeur du système est le benchmark RoboLab-120, qui regroupe 120 tâches réparties selon trois axes de compétences, visuel, procédural, relationnel, et trois niveaux de difficulté. Ce qui distingue RoboLab des benchmarks existants est la capacité à générer des scènes et des tâches de manière programmatique, aussi bien par authoring humain que via un LLM, dans un environnement de simulation haute fidélité conçu pour être agnostique au robot et à la politique évaluée. Le framework tente de répondre à deux questions précises : dans quelle mesure le comportement en simulation prédit-il les performances réelles, et quels facteurs influencent le plus le comportement d'une politique ? L'enjeu est directement lié à un problème structurel du domaine : la saturation rapide des benchmarks actuels. La plupart des évaluations existantes présentent un chevauchement significatif entre les données d'entraînement et les données d'évaluation, ce qui gonfle artificiellement les taux de succès et masque les vraies faiblesses en généralisation. RoboLab introduit des perturbations contrôlées pour mesurer la sensibilité des politiques et expose, selon les auteurs, un écart de performance notable chez les modèles état de l'art actuels. Pour un intégrateur ou un COO industriel, c'est une mise en garde : les chiffres de benchmark publiés par les fondeurs de modèles VLA (Vision-Language-Action) ne reflètent pas nécessairement la robustesse en conditions réelles. Ce travail s'inscrit dans la course aux politiques généralistes qui mobilise toute l'industrie : Physical Intelligence avec pi0, Boston Dynamics et sa roadmap manipulation, Figure AI avec Figure 03, et NVIDIA lui-même avec GR00T N2 comme modèle de référence. Le SRL (Spatial Reasoning Lab) de NVIDIA se positionne ici en fournisseur d'infrastructure d'évaluation plutôt qu'en compétiteur direct sur les politiques, un rôle analogue à celui que joue MLCommons pour l'inférence LLM. Le projet dispose d'un site dédié (research.nvidia.com/labs/srl/projects/robolab/), mais reste pour l'instant un preprint non peer-reviewed : aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RechercheOpinion
1 source
DSSP : une politique d'état de diffusion avec encodage de l'historique complet
230arXiv cs.RO 

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles. Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs. Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.

UEImpact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.

RechercheOpinion
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
231arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

IA physiqueOpinion
1 source
Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête
232Pandaily 

Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête

Lumos Robotics (鹿明机器人), startup d'IA incarnée fondée par des chercheurs de l'université Tsinghua, a bouclé deux tours de financement successifs (A1 et A2) pour un total d'environ 1 milliard de RMB (soit ~140 millions de dollars), avec la filiale chinoise de Mitsubishi Electric comme chef de file sur les deux opérations. Le tour A1 a été co-mené par la filiale spécialisée en manufacturing intelligent de Mitsubishi Electric, ainsi que par les investisseurs historiques Puhua Capital et Wuzhong Jinkong ; le tour A2 a réuni en sus Hengsheng Electronics, Haigao Group et Kunshi Investments. La société, dirigée par le CEO Yu Chao, commercialise deux plateformes distinctes : le robot humanoïde pleine taille LUS et le robot MOS, un bras manipulateur monté sur base roulante lourde. Des laboratoires communs avec Mitsubishi Electric ont été établis à Suzhou et Shanghai, où le MOS est déjà opérationnel pour l'inspection visuelle par IA sur des lignes de production d'automates programmables (PLC). La participation répétée de Mitsubishi Electric, acteur industriel de premier rang et non un fonds de capital-risque généraliste, aux deux tours signale un intérêt stratégique concret. Pour les intégrateurs B2B, cela valide l'architecture technique de Lumos : le moteur propriétaire Nexcore combine des modèles du monde (world models) avec un entraînement conjoint VLA (Vision-Language-Action), une optimisation de l'attention visuelle dédiée à l'industrie, et un réseau d'experts de type MoE pour le contrôle de mouvement haute précision. Le déploiement annoncé du MOS sur des lignes PLC réelles constitue un signal de robustesse terrain, même si aucun volume de déploiement, taux de défaut ni temps de cycle n'est communiqué, ce qui rend toute évaluation objective des performances impossible à ce stade. Lumos Robotics s'inscrit dans une vague de startups chinoises d'IA incarnée issues des grandes universités, en concurrence directe avec Unitree, Fourier Intelligence et LimX Dynamics sur le marché domestique, et avec Figure AI, 1X Technologies ou Agility Robotics à l'international. Sa singularité réside dans un positionnement dual humanoïde/bras mobile combiné à un partenariat industriel ancré chez un équipementier japonais établi. Les prochaines étapes restent floues : ni timeline de série B, ni objectifs de production en volume, ni métriques de performance terrain n'ont été publiés. Le déploiement en inspection PLC à Suzhou et Shanghai représente pour l'instant un pilote industriel validé plutôt qu'un passage à l'échelle commerciale.

Chine/AsieOpinion
1 source
HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
233arXiv cs.RO 

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu
1 source
MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”
234FrenchWeb 

MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”

Le 7 juillet 2026, Paris accueille MACHINA by RAISE, un événement dédié à la robotique et à la "physical AI" organisé au sein de l'écosystème RAISE, l'un des principaux acteurs du capital-risque technologique en France. L'initiative se distingue des grands rendez-vous sectoriels en adoptant délibérément une perspective européenne, à rebours des formats dominants encore largement pilotés depuis les États-Unis et l'Asie, notamment la Chine et le Japon qui concentrent l'essentiel des investissements mondiaux en robotique industrielle et humanoïde. La "physical AI" désigne la convergence entre l'intelligence artificielle générative et les systèmes robotiques capables d'agir dans le monde réel : bras industriels, robots humanoïdes, véhicules autonomes. Ce segment connaît une accélération spectaculaire depuis 2024, portée par les annonces de Tesla, Figure AI ou encore 1X Technologies, et représente selon plusieurs analystes le prochain front compétitif majeur après les grands modèles de langage. Pour l'Europe, l'enjeu est de ne pas reproduire le décrochage observé dans les LLMs face aux acteurs américains. RAISE, qui gère plusieurs milliards d'euros d'actifs et finance des startups deeptech françaises, positionne MACHINA comme une plateforme de rencontre entre investisseurs, industriels et chercheurs pour structurer un écosystème européen cohérent. La France dispose d'atouts réels dans ce domaine, notamment via des laboratoires comme l'INRIA et des startups en robotique chirurgicale ou logistique, mais la compétition internationale reste féroce et les besoins en capitaux considérables pour atteindre une masse critique industrielle.

UEMACHINA by RAISE 2026 à Paris vise à structurer un écosystème européen de la physical AI, offrant aux startups deeptech françaises et aux investisseurs européens une plateforme pour réduire le décrochage face aux acteurs américains et asiatiques dans la robotique humanoïde et industrielle.

💬 Paris qui se positionne sur la physical AI, c'est le genre de pari qu'on peut pas se permettre de rater. On a déjà vu ce qui se passe quand on laisse les Américains structurer l'écosystème LLM sans contre-poids européen. Reste à voir si MACHINA sera vraiment un lieu de décision ou juste un beau networking event avec des robots en démo.

HumanoïdesActu
1 source
Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC
235Pandaily 

Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Xiaoyubot, startup chinoise spécialisée dans l'IA embodied industrielle, a bouclé un tour de financement de série B+ de plusieurs centaines de millions de yuans (montant exact non précisé), selon le média financier IPOZaozhidao. Ce tour est co-mené par cinq investisseurs industriels : Xiaomi, Didi, BAIC Investment (bras financier du constructeur automobile BAIC), Fosun Venture et la China Construction Bank Development (CCDC). Lei Wanqiang, co-fondateur de Xiaomi, y participe pour la quatrième fois consécutive, signe d'une conviction institutionnelle durable. Les fonds levés seront affectés à l'accélération du déploiement de Xiaoyubot sur l'ensemble des scénarios industriels couverts par l'IA embodied, terme désignant les systèmes d'IA capables d'agir physiquement dans un environnement réel via un corps robotique. L'ambition déclarée de Xiaoyubot est d'atteindre un rythme de livraison de 100 000 unités par an, seuil qu'elle présente elle-même comme le ticket d'entrée pour la phase finale de la course aux robots incarnés. La société développe une architecture baptisée "un cerveau, plusieurs formes" (one brain, multiple forms), conçue pour piloter différentes morphologies robotiques depuis un même système cognitif général, avec l'objectif de mutualiser les coûts de développement logiciel tout en couvrant un spectre large de cas d'usage industriels. La composition du tour est elle-même un signal stratégique : réunir des acteurs de l'internet (Xiaomi, Didi), de l'automobile (BAIC), de la finance privée (Fosun) et de la finance d'État (CCB) sous un même cap est rare et suggère un positionnement de plateforme nationale plutôt qu'une verticale sectorielle étroite. Fondée avec pour mission de déployer des robots IA dans des scénarios industriels variés, Xiaoyubot s'inscrit dans un écosystème chinois de la robotique en pleine effervescence, aux côtés de Unitree Robotics, Fourier Intelligence ou encore UBTECH. Ce tour intervient alors que plusieurs acteurs chinois cherchent à atteindre une échelle de production industrielle avant leurs concurrents occidentaux tels que Boston Dynamics, Figure AI ou 1X Technologies. L'objectif des 100 000 unités annuelles reste une cible annoncée, sans calendrier précis ni preuve de commandes fermes publiés à ce stade.

UELa constitution d'un consortium industrie-finance-État autour de Xiaoyubot accélère la course chinoise aux 100 000 unités annuelles et intensifie la pression concurrentielle sur les acteurs européens de la robotique industrielle, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieActu
1 source
Xiaoyu Robotics lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC
236Pandaily 

Xiaoyu Robotics lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Xiaoyu Robotics, startup chinoise spécialisée dans l'IA incarnée industrielle (embodied AI), a bouclé un tour de table Series B+ de plusieurs centaines de millions de yuans, selon le média spécialisé IPO Early. Le tour est co-piloté par cinq investisseurs industriels : Xiaomi, Didi, BAIC Investment (bras financier du constructeur automobile BAIC), Fosun Venture et CCDC (filiale de China Construction Bank). Le co-fondateur de Xiaomi, Lei Wanqiang, y participe pour la quatrième fois consécutive, signal fort de confiance institutionnelle dans la trajectoire de la société. Les fonds sont destinés à accélérer le déploiement de la startup dans l'ensemble des scénarios industriels et à financer son architecture robotique dite "un cerveau, plusieurs formes" : un seul cerveau général capable de piloter différents types de robots physiques, avec un objectif affiché de 100 000 unités livrées par an. Ce chiffre de 100 000 unités est présenté par la société comme le seuil d'entrée dans la phase décisive de la course à l'embodied AI industrielle. Il s'agit d'une ambition déclarée, sans contrats ni calendrier précis communiqués publiquement. Ce qui est plus structurellement significatif est la composition du tour : réunir simultanément un géant tech grand public (Xiaomi), un opérateur de mobilité (Didi), un OEM automobile (BAIC), un conglomérat industrialo-financier (Fosun) et une banque d'État (CCB) est rare dans l'écosystème robotique. Cela positionne Xiaoyu Robotics moins comme un fournisseur sectoriel que comme une plateforme transversale, ce qui est une proposition structurellement différente pour les intégrateurs et les décideurs B2B : l'ambition n'est pas un robot, c'est un OS robotique industriel. Fondée pour opérer dans des environnements industriels variés, Xiaoyu Robotics s'inscrit dans une vague de levées massives sur le segment embodied AI en Chine en 2024-2025, aux côtés d'Unitree, Agibot (ex-Zhiyuan) et Fourier Intelligence. Face à eux, les acteurs occidentaux comme Figure AI avec son Figure 03, Physical Intelligence et son modèle pi-0, ou Agility Robotics déployé chez Amazon, avancent également sur la commercialisation industrielle. L'architecture "un cerveau, plusieurs formes" vise à différencier la startup par la généralité du modèle plutôt que par un form factor unique, une approche proche des VLA (Vision-Language-Action models) appliqués à l'échelle. Les prochaines étapes, notamment les pilotes industriels et la feuille de route vers les 100 000 unités, n'ont pas encore été détaillées publiquement.

Chine/AsieActu
1 source
CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde
237arXiv cs.RO 

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06247) CKT-WAM, un cadre de transfert de connaissances paramètre-efficient entre modèles d'action du monde (WAMs, World Action Models). L'approche résout un verrou persistant : faire bénéficier un WAM étudiant des représentations apprises par un WAM enseignant plus capable, sans réentraîner l'ensemble du réseau. Techniquement, CKT-WAM extrait des états cachés intermédiaires de l'enseignant, les compresse via une attention croisée à requêtes apprenables (LQCA), les transforme à travers un adaptateur généralisé toujours actif et des adaptateurs spécialisés à activation parcimonieuse, puis injecte ce contexte compact dans les embeddings textuels de conditionnement de l'étudiant. Sur le benchmark LIBERO-Plus, le système atteint 86,1 % de taux de réussite global en n'entraînant que 1,17 % des paramètres du modèle étudiant, approchant les performances du fine-tuning complet. En conditions réelles, quatre tâches de manipulation longue portée ont été évaluées avec 83,3 % de réussite moyenne, résultat présenté comme meilleur de la catégorie par les auteurs. Le code est disponible sur GitHub (YuhuaJiang2002/CKT-WAM). L'enjeu industriel est direct : affiner un WAM ou un VLA (Vision-Language-Action model) de taille fondationnelle exige des ressources GPU considérables ; descendre à 1,17 % de paramètres entraînables tout en conservant des performances comparables ouvre une voie concrète pour les équipes R&D à ressources limitées. La démonstration d'une généralisation zero-shot suggère que le contexte transféré encode des capacités motrices transposables au-delà des tâches d'entraînement, ce qui valide partiellement l'hypothèse d'une composabilité des modèles robotiques génératifs. Deux réserves s'imposent toutefois : les quatre scénarios réels évalués restent trop peu nombreux pour conclure à une robustesse hors laboratoire, et les conditions d'évaluation (définition du succès, variabilité environnementale, sélection des vidéos) ne sont pas détaillées dans le preprint, ce qui limite la portée des chiffres annoncés. CKT-WAM s'inscrit dans la vague actuelle des modèles robotiques fondationnels interopérables, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). L'idée de capitaliser sur des modèles enseignants hétérogènes plutôt que de réentraîner from scratch rejoint les travaux de distillation de connaissances explorés en académique comme en industrie, dans un contexte où la course aux WAMs s'accélère significativement depuis 2025. En Europe, Enchanted Tools et Wandercraft développent des architectures de contrôle avancées, bien que moins orientées WAMs dans leurs publications récentes. La suite logique serait une validation sur des benchmarks plus larges comme DROID ou Open-X Embodiment, et des expérimentations terrain pour confirmer la robustesse réelle du transfert en dehors des environnements contrôlés.

UELes équipes R&D européennes travaillant sur des VLAs à ressources GPU limitées (dont Enchanted Tools et Wandercraft) pourraient exploiter ce framework pour réduire drastiquement le coût d'affinage de modèles fondationnels robotiques, dès validation sur des benchmarks plus larges.

💬 1,17 % des paramètres entraînés pour des perfs comparables au fine-tuning complet, c'est le genre de chiffre qui change les plans de roadmap. Les équipes qui rêvaient de WAMs génératifs mais bloquaient sur le budget GPU vont regarder ça de près. Bon, quatre tâches réelles c'est maigre pour crier victoire, mais l'axe est le bon.

IA physiqueOpinion
1 source
Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries
238Interesting Engineering 

Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries

Un robot humanoïde Unitree G1 a provoqué un retard de plus d'une heure à l'aéroport international d'Oakland, en Californie, après que le personnel de la compagnie aérienne a soulevé des questions sur la capacité de sa batterie embarquée. Le pack d'accumulateurs du robot dépassait les seuils en watt-heure fixés par la Federal Aviation Administration (FAA) pour les cellules lithium-ion transportées en cabine et en soute : au-delà de 100 Wh, une batterie de rechange nécessite l'accord explicite de la compagnie ; au-delà de 160 Wh, elle est simplement interdite en cabine. Or, les robots humanoïdes modernes embarquent des packs d'une capacité comprise entre 1 kWh et plus de 2 kWh, soit jusqu'à douze fois la limite autorisée pour un ordinateur portable. Les agents au sol ont dû traverser une cascade de questions sur la chimie des cellules, la configuration du pack, sa démontabilité et sa classification matières dangereuses, avant que l'appareil puisse être autorisé au départ, sous les regards impatients des autres passagers. Ce retard illustre une lacune structurelle dont les conséquences dépassent un simple incident opérationnel. La réglementation FAA sur les matières dangereuses a été conçue pour les appareils électroniques grand public et les véhicules électriques transportés en fret, non pour un robot bipède occupant un siège passager. Un pack de 2 kWh représente une énergie thermique potentielle comparable à douze batteries de laptop combinées, avec un risque d'emballement thermique non négligeable dans un fuselage pressurisé où les possibilités d'intervention sont limitées. Pour les intégrateurs et les entreprises qui déploient des humanoïdes hors des environnements contrôlés, l'incident d'Oakland signale que chaque nouveau contexte (usine, hôpital, entrepôt, aéroport) est susceptible de rencontrer un cadre réglementaire écrit sans eux, générant des blocages opérationnels imprévisibles et potentiellement coûteux. L'humanoïde impliqué est le G1 de Unitree Robotics, constructeur chinois qui a misé sur l'accessibilité tarifaire de ses plateformes pour accélérer la diffusion grand public de la robotique humanoïde. Commercialisé autour de 16 000 dollars, le G1 est l'un des humanoïdes les plus abordables du marché, loin devant les propositions de Figure AI, Boston Dynamics ou 1X Technologies. L'incident survient dans un contexte où la FAA fait déjà face à une pression soutenue pour réviser ses règles sur les batteries lithium, à la suite d'incidents d'incendie en fret aérien. Sans directive explicite pour cette nouvelle catégorie d'appareils, les agents au sol continueront d'improviser au cas par cas et les passagers d'attendre. Une clarification réglementaire s'impose à mesure que les robots humanoïdes quittent les laboratoires pour intégrer des espaces publics et des flux logistiques réels.

UELes opérateurs européens de robots humanoïdes sont exposés aux mêmes restrictions EASA sur les batteries lithium, et cet incident révèle un vide réglementaire qui pourrait bloquer le transport aérien de ces appareils en Europe sans cadre spécifique.

RegulationReglementation
1 source
Revue des grands modèles de langage pour les systèmes multi-robots
239arXiv cs.RO 

Revue des grands modèles de langage pour les systèmes multi-robots

Une équipe de chercheurs a publié sur arXiv (référence 2502.03814, version 5) la première revue systématique dédiée à l'intégration des grands modèles de langage (LLM) dans les systèmes multi-robots (MRS). Le survey catégorise les usages en trois niveaux d'abstraction : allocation de tâches de haut niveau (décomposition d'objectifs, planification globale), planification de trajectoire au niveau intermédiaire, et génération d'actions bas niveau, auxquels s'ajoute une quatrième dimension couvrant l'intervention humaine et la collaboration homme-robot. Les domaines d'application recensés incluent la robotique domestique, la construction, le contrôle de formation, le suivi de cibles mobiles et les jeux multi-agents robotiques. Les auteurs maintiennent un dépôt GitHub open source mis à jour en continu pour suivre l'évolution rapide des publications. Le principal apport de ce travail est de combler un angle mort : la littérature sur les LLM en robotique se concentrait jusqu'ici sur les systèmes mono-robot, ignorant les défis propres à la coordination distribuée. Passer à plusieurs robots soulève des problèmes structurels distincts : scalabilité des communications, cohérence des plans entre agents, gestion des conflits de ressources. Les auteurs documentent des gains réels en compréhension du langage naturel et en décomposition de tâches complexes, mais identifient trois obstacles majeurs à l'adoption industrielle : les lacunes en raisonnement mathématique (planification géométrique, optimisation multi-agents), les hallucinations pouvant propager des erreurs à l'échelle d'une flotte entière, et la latence d'inférence, incompatible avec les boucles de contrôle temps réel des systèmes industriels. Ce survey arrive dans un contexte où plusieurs acteurs tentent d'industrialiser la coordination robotique fondée sur les LLM : Google DeepMind avec RT-2 et SayCan, Physical Intelligence avec Pi-0, et Figure AI ont chacun démontré des capacités de planification langage-vers-action sur des robots individuels ou en nombre limité. L'extension à des flottes hétérogènes reste un problème ouvert, en particulier sur le sim-to-real : les benchmarks actuels, souvent conduits en simulation, ne reflètent pas fidèlement les contraintes de déploiement réel. Les auteurs identifient le fine-tuning sur des données multi-robots spécifiques, le développement de modèles de raisonnement dédiés aux tâches, et la création de benchmarks standardisés comme priorités de recherche à venir. Aucun calendrier de déploiement commercial n'est évoqué dans le document.

RecherchePaper
1 source
Les robots chinois s'imposent dans la vie réelle, du nettoyage à la régulation du trafic
240SCMP Tech 

Les robots chinois s'imposent dans la vie réelle, du nettoyage à la régulation du trafic

En Chine, les robots humanoïdes et de service quittent les laboratoires pour s'intégrer dans des environnements opérationnels réels, un virage visible depuis le début de 2025. En mars, une offre de nettoyage a été lancée sur 58.com, plateforme chinoise d'annonces équivalente à LeBonCoin, associant un robot à un technicien humain pour des interventions à domicile. Au-delà du ménage, des robots sont désormais déployés pour réguler la circulation routière et intervenir dans des ateliers industriels à risque, là où l'exposition humaine est problématique, soudure, manipulation de produits chimiques, environnements haute température. Ce glissement du POC vers le déploiement opérationnel est structurellement significatif pour le secteur. Il signale que l'écart "demo-to-reality" commence à se résorber dans des cas d'usage à périmètre contrôlé : tâches répétitives, environnements semi-structurés, supervision humaine maintenue. Pour les intégrateurs B2B, cela ouvre une fenêtre concrète sur des ROI calculables, à condition que les cycles de maintenance et les taux d'erreur en conditions réelles soient publiés, ce que les annonces chinoises ne détaillent pas encore systématiquement. La Chine a inscrit la robotique incarnée comme priorité nationale dans son plan industriel 2025, avec des financements étatiques directs vers des acteurs comme Unitree, UBTECH et Fourier Intelligence. Face à Figure AI (Figure 02), Boston Dynamics (Atlas) et Tesla (Optimus Gen 2) côté américain, Pékin mise sur le déploiement massif et rapide plutôt que sur la performance en vitrine. Les prochaines étapes probables : extension des services 58.com à d'autres villes, et multiplication des pilotes industriels dans la logistique et la maintenance lourde.

UELa montée en puissance du déploiement opérationnel des robots chinois (Unitree, UBTECH, Fourier) accentue la pression concurrentielle indirecte sur les fabricants et intégrateurs européens, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
241Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

HumanoïdesOpinion
1 source
Meta veut devenir l’Android des robots humanoïdes
242Next INpact 

Meta veut devenir l’Android des robots humanoïdes

Meta a confirmé auprès de Bloomberg l'acquisition d'Assured Robot Intelligence (ARI), une startup spécialisée dans le développement de modèles d'intelligence artificielle pour la robotique. L'équipe d'ARI, présentée par Meta comme se situant « à la pointe de l'intelligence robotique, conçue pour permettre aux robots de comprendre, prévoir et s'adapter aux comportements humains dans des environnements complexes et dynamiques », rejoint le Meta Superintelligence Labs. Elle travaillera étroitement avec le Meta Robotics Studio, une division créée en février 2025 pour développer les technologies de base des robots humanoïdes. Ce rachat s'inscrit dans une stratégie plus large : Meta a déjà présenté en octobre 2025 des prototypes de capteurs tactiles avancés, le Digit Plexus, une solution matérielle pour intégrer des capteurs dans une main robotique, et le Digit 360, un capteur en forme de doigt fournissant des données haptiques très précises. Le géant des réseaux sociaux aurait par ailleurs déjà engagé des discussions avec Unitree Robotics, fabricant chinois connu pour ses robots acrobatiques, ainsi qu'avec Figure AI. L'ambition de Meta ne se limite pas à fabriquer ses propres robots : l'entreprise veut jouer un rôle de plateforme transversale pour toute l'industrie, sur le modèle d'Android et des puces Qualcomm dans l'écosystème des smartphones. Si ce positionnement réussit, Meta se retrouverait en position centrale dans un marché potentiellement colossal, en fournissant les briques logicielles et matérielles sur lesquelles d'autres constructeurs bâtiront leurs produits. L'enjeu industriel est réel : Amazon estime que les robots humanoïdes lui permettront d'éviter 600 000 embauches d'ici 2033, signal fort que la demande en environnements professionnels précède largement celle du grand public. Ce mouvement s'inscrit dans une dynamique de fond déclenchée par l'essor de l'IA générative, qui a fourni aux robots la capacité de comprendre des consignes en langage naturel, de décomposer des tâches complexes et de s'adapter à des situations imprévues, ce que les systèmes robotiques classiques ne pouvaient pas faire seuls. De nombreuses entreprises ont flairé l'opportunité d'un nouveau marché lucratif, et la compétition se structure rapidement. Tesla mise sur une approche intégrée verticalement avec Optimus, Elon Musk ayant promis lors du Forum de Davos une commercialisation possible dès fin 2026. Meta, dont le laboratoire de recherche fondamentale FAIR a vu son influence diminuer depuis le départ de Yann LeCun, réoriente clairement ses ressources vers ce chantier via le Superintelligence Labs. La question est désormais de savoir si le modèle « couche d'infrastructure ouverte » peut s'imposer face aux acteurs qui cherchent à tout contrôler, de la puce au châssis.

Des téléphones aux robots humanoïdes : la chaîne d'approvisionnement chinoise vise sa prochaine courbe de croissance
243SCMP Tech 

Des téléphones aux robots humanoïdes : la chaîne d'approvisionnement chinoise vise sa prochaine courbe de croissance

Le fabricant de smartphones Honor a créé la surprise en remportant le semi-marathon robotique de Pékin avec son humanoïde D1, devançant des acteurs établis comme Unitree, une première qui illustre un basculement structurel dans l'industrie : la chaîne d'approvisionnement chinoise des smartphones et de l'électronique grand public se reconvertit activement vers la robotique humanoïde. Des fournisseurs de composants jusqu'ici positionnés sur les marchés mobiles cherchent de nouveaux relais de croissance alors que la demande en téléphonie stagne, et transfèrent leur expertise en actionneurs, capteurs, batteries haute densité et électronique embarquée vers ce nouveau segment. L'enjeu est considérable pour l'industrie robotique mondiale. La Chine dispose d'un avantage structurel rare : une chaîne d'approvisionnement intégrée, des volumes de production éprouvés, et des coûts unitaires optimisés par des années de compétition féroce sur le marché mobile. Si ces capacités se déploient à grande échelle dans le secteur humanoïde, elles pourraient accélérer drastiquement le passage du prototype au produit commercialisable, un goulot d'étranglement qui freine encore la plupart des acteurs occidentaux. La victoire du D1 reste néanmoins une démonstration en conditions contrôlées, et les performances en environnement industriel réel constituent un autre niveau d'exigence. Ce pivot intervient alors que Pékin soutient activement l'humanoïde via des subventions et des appels d'offres publics. Unitree (G1, H1), UBTECH et le consortium Fourier Intelligence figurent parmi les acteurs domestiques établis que Honor et d'autres entrants issus du hardware grand public viennent désormais challenger. À l'international, Boston Dynamics, Figure AI et 1X restent les références, mais leur chaîne d'approvisionnement reste plus fragmentée. Les prochaines étapes pour Honor et les reconvertis du mobile seront de démontrer une fiabilité opérationnelle hors contexte de compétition.

UELe pivot de la chaîne d'approvisionnement chinoise vers l'humanoïde pourrait à terme intensifier la pression concurrentielle sur les fabricants européens de robots en comprimant les coûts unitaires de composants clés (actionneurs, batteries, électronique embarquée).

Chine/AsieOpinion
1 source
Vidéo : Ce robot humilie les meilleurs joueurs de ping-pong au monde
244Le Big Data 

Vidéo : Ce robot humilie les meilleurs joueurs de ping-pong au monde

Sony AI a dévoilé mercredi dans la revue scientifique Nature les résultats d'Ace, un robot de tennis de table développé à Zurich. Sur cinq matchs disputés en règles officielles contre des joueurs d'élite, Ace en a remporté trois. Face à des professionnels confirmés, le bilan est plus nuancé : deux défaites et une seule manche gagnée sur sept rencontres. Le système repose sur un bras articulé à huit axes monté sur une base mobile, équipé de caméras multi-angles qui analysent position et rotation de la balle en temps réel. En ciblant le logo imprimé sur la balle, Ace estime l'effet en quelques millisecondes. L'entraînement a nécessité environ 3 000 heures de simulation, et certains gestes, notamment le service, ont été modélisés directement à partir de joueurs expérimentés. Peter Dürr, responsable du projet chez Sony AI, indique que le robot a depuis progressé : « Nous avons affronté des adversaires plus forts et nous les avons battus. » Le tennis de table est depuis longtemps considéré comme l'un des défis les plus ardus pour la robotique : la vitesse des échanges, la diversité des effets et la précision millimétrée requise en font un banc d'essai exigeant pour les systèmes autonomes. Ace a démontré une maîtrise solide de ces contraintes, gérant des situations complexes comme des balles frôlant le filet, et réalisant un coup rétro rapide qu'un ancien joueur olympique, Kinjiro Nakamura, jugeait jusqu'alors impossible à produire mécaniquement. Ce dernier estime désormais que les humains pourraient s'inspirer de cette technique. Le robot bénéficie par ailleurs d'un avantage psychologique non négligeable : sans regard ni langage corporel, ses intentions sont illisibles pour l'adversaire, ce qui perturbe les stratégies habituelles de lecture du jeu. Cette percée s'inscrit dans une compétition mondiale accélérée autour de la robotique généraliste à haute réactivité, où Sony AI se positionne comme un acteur sérieux aux côtés de Google DeepMind, Boston Dynamics ou Figure AI. Jusqu'ici, les tentatives de robots pongistes restaient cantonnées à des démonstrations contrôlées, loin des conditions de match réel. Publier dans Nature avec des résultats contre de vrais compétiteurs marque un saut qualitatif. Les limites actuelles d'Ace, difficultés sur les balles lentes et peu liftées, indiquent les axes de travail restants, mais la trajectoire est claire : chaque version repousse davantage le niveau humain de référence, et les chercheurs laissent entendre que la parité avec les meilleurs joueurs mondiaux n'est plus une question de principe, mais de temps.

HumanoïdesOpinion
1 source
Système ouvert de bout en bout pour la navigation autonome de robots en conditions réelles
245arXiv cs.RO 

Système ouvert de bout en bout pour la navigation autonome de robots en conditions réelles

Des chercheurs ont présenté un système embarqué léger et à architecture ouverte permettant à un robot quadrupède de naviguer de manière autonome dans des environnements réels, inconnus et dynamiques, sans apprentissage préalable spécifique à ces lieux. Déployé sur un robot Unitree Go2 à quatre pattes, le système atteint un taux de réussite supérieur à 88 % dans plusieurs environnements intérieurs testés. Il repose sur ROS2 comme middleware de communication entre les différents composants embarqués, et accepte des instructions de navigation formulées en langage naturel. Les capteurs du robot alimentent en continu un système de localisation et de cartographie, qui construit des graphes de scènes hiérarchiques enrichis de sémantique ouverte, c'est-à-dire capables d'identifier des objets sans liste prédéfinie. Un planificateur basé sur un grand modèle de langage (LLM) exploite ces graphes pour générer et adapter des plans d'action en temps réel, au fur et à mesure que la scène évolue. Ce résultat est significatif car la navigation autonome en environnement réel reste un problème difficile que la majorité des systèmes actuels ne résolvent qu'en simulation, là où les conditions sont contrôlées et les incertitudes absentes. Le fait qu'un robot puisse interpréter une consigne en langue naturelle, construire une représentation sémantique de son environnement à la volée et s'y adapter dynamiquement ouvre la voie à des déploiements pratiques dans des bâtiments industriels, des entrepôts, des hôpitaux ou des espaces publics, sans configuration manuelle préalable. La robotique autonome bute depuis des années sur quatre obstacles fondamentaux : la perception imparfaite, l'observabilité partielle, l'incertitude de localisation et les contraintes de sécurité. L'intégration des LLM comme couche de planification symbolique, combinée à une cartographie sémantique continue, représente une approche émergente qui capitalise sur les progrès récents en traitement du langage naturel et en vision par ordinateur. Ce travail s'inscrit dans une tendance plus large visant à doter les robots de capacités de raisonnement général plutôt que de comportements pré-programmés, un chantier sur lequel rivalisent des équipes académiques et des acteurs industriels comme Boston Dynamics, Figure AI ou Agility Robotics.

HumanoïdesActu
1 source
StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel
246arXiv cs.RO 

StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel

Des chercheurs ont publié le 24 avril 2026 StableIDM, un framework spatio-temporel conçu pour stabiliser les modèles de dynamique inverse (IDM) en robotique manipulatrice. Les IDM sont des composants clés de l'IA incarnée : ils traduisent des observations visuelles brutes en commandes d'action bas-niveau, et servent à la fois pour l'annotation automatique de données d'entraînement et pour l'exécution de politiques. Le problème ciblé est la troncature du manipulateur, c'est-à-dire les situations où le bras robotique sort partiellement ou totalement du champ de la caméra, rendant la reconstruction d'état mathématiquement sous-déterminée. StableIDM intègre trois modules complémentaires : un masquage centré sur le robot pour éliminer le bruit de fond, une agrégation directionnelle de features (DFA) qui extrait des caractéristiques anisotropes le long des directions inférées depuis la partie visible du bras, et un raffinement temporel de la dynamique (TDR) qui lisse les prédictions via la continuité du mouvement. Sur le benchmark AgiBot, le système améliore la précision d'action stricte de 12,1 % sous troncature sévère, augmente le taux de succès moyen en rejeu réel de 9,7 %, améliore le succès de saisie de 11,5 % lors du décodage de plans issus de vidéos générées, et booste de 17,6 % les performances en conditions réelles quand StableIDM joue le rôle d'annotateur automatique pour un modèle VLA aval. Ces résultats sont significatifs pour quiconque déploie des bras manipulateurs en environnement non contrôlé. La troncature visuelle est une failure mode banale en production : un carton qui passe, un opérateur qui traverse, une caméra mal positionnée. Jusqu'ici, les IDM existants s'effondraient dans ces conditions, forçant les intégrateurs à multiplier les caméras ou à contraindre fortement la scène. StableIDM suggère qu'un traitement spatio-temporel ciblé peut absorber cette incertitude sans revoir l'infrastructure capteur. Par ailleurs, le gain de 17,6 % sur les VLA aval confirme une hypothèse montante dans le secteur : la qualité des annotations automatiques est un levier critique pour l'apprentissage à grande échelle, au moins autant que l'architecture du modèle de politique lui-même. Les IDM ont émergé comme alternative légère aux modèles de politique bout-en-bout dans le sillage des travaux sur l'imitation learning visuel (Gato, RT-2, OpenVLA). Le benchmark AgiBot, développé par la startup chinoise AgiBot, est devenu une référence de facto pour évaluer la manipulation dextre en conditions réelles. Sur le terrain concurrentiel, Physical Intelligence (pi) avec Pi-0, Figure AI avec son pipeline de données, et 1X Technologies travaillent tous sur des variantes d'IDM ou de VLA pour réduire la dépendance aux capteurs proprioceptifs. StableIDM se positionne comme un backbone généraliste compatible avec ces architectures, potentiellement intégrable comme préprocesseur dans des pipelines existants. Les auteurs n'annoncent pas de code public ni de partenariat industriel à ce stade : c'est une contribution de recherche, pas un produit shipped.

IA physiqueActu
1 source
Les géants technologiques chinois accélèrent dans la robotique, un secteur en pleine expansion
247SCMP Tech 

Les géants technologiques chinois accélèrent dans la robotique, un secteur en pleine expansion

Honor, filiale autonome de Huawei depuis 2020 et jusqu'ici positionnée sur les smartphones et wearables, a décroché la médaille d'or au deuxième semi-marathon humanoides de Pékin avec son robot baptisé Lightning, devançant des acteurs spécialisés comme Unitree et X-Humanoid. L'événement, organisé dimanche dernier, réunissait les principaux constructeurs de robots humanoïdes chinois dans une course d'endurance conçue pour évaluer locomotion et robustesse en conditions réelles. Alibaba figure également parmi les grands groupes technologiques qui accélèrent leurs investissements dans le secteur, dans un contexte où Pékin pousse activement à la montée en puissance de la robotique nationale. La victoire d'Honor est significative car elle illustre un phénomène nouveau: les Big Tech généralistes chinois rattrapent en moins de deux ans des spécialistes de la robotique humanoïde qui disposent de plusieurs années d'avance en R&D. Cela suggère que les barrières à l'entrée s'abaissent rapidement, portées par la disponibilité de fondations logicielles communes et d'une chaîne d'approvisionnement matérielle dense en Chine. Pour les intégrateurs industriels, cela annonce une intensification de la concurrence et potentiellement une compression des prix sur les plateformes humanoïdes dans les 18 à 24 prochains mois. Honor n'a lancé sa division robotique qu'en 2025, ce qui rend sa performance d'autant plus notable. La Chine compte désormais plusieurs dizaines de startups humanoïdes, dont Unitree et Fourier Intelligence, mais l'entrée des grandes plateformes tech recompose le paysage compétitif. Côté occidental, Boston Dynamics, Figure AI et Agility Robotics suivront de près cette évolution, notamment pour évaluer si les performances en course se traduisent en fiabilité opérationnelle industrielle.

Chine/AsieOpinion
1 source
Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg
248Interesting Engineering 

Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg

Le robot humanoïde Digit, développé par Agility Robotics (Oregon, États-Unis), vient de réaliser un soulevé de terre de 29 kilogrammes (65 livres) dans un environnement de laboratoire contrôlé. La démonstration met en évidence une coordination corpo-entière, bras, jambes et torse s'ajustent dynamiquement en temps réel pour maintenir l'équilibre sous charge. Selon l'entreprise, l'exercice a été conçu pour tester les limites des actionneurs, la durabilité des articulations et les systèmes de contrôle en temps réel. La politique de contrôle a été entraînée en simulation : un objet virtuel est introduit dans un environnement numérique, permettant au modèle d'apprendre la distribution de charge, les forces de préhension et les déplacements du centre de masse. Des milliers d'essais simulés affinent ensuite la stabilité de prise et le contrôle postural avant transfert sur le robot physique. La version actuelle de Digit embarque également une autonomie batterie de quatre heures, un système d'auto-recharge par docking autonome, des membres renforcés, des effecteurs terminaux avancés, et des protocoles de sécurité industrielle incluant un arrêt de catégorie 1, des PLCs de sécurité et le protocole FailSafe over EtherCAT. Ce que révèle cette démonstration va au-delà du simple exercice de force : elle illustre le passage des trajectoires articulaires programmées manuellement vers des politiques adaptatives apprises, un changement de paradigme significatif pour les intégrateurs industriels. Le sim-to-real, longtemps considéré comme un verrou majeur de la robotique humanoïde, semble ici suffisamment mature pour gérer des tâches de manipulation lourde avec consistance et sans réinitialisation. Pour un COO industriel, la promesse concrète est un robot capable d'empiler des bacs, charger des chariots et manutentionner des matériaux variés de façon autonome et répétable, en complément de robots mobiles autonomes (AMR) qui assurent le transport. La durabilité sous charge soutenue reste toutefois à valider en conditions réelles de production : la vidéo présentée est un test laboratoire, pas un déploiement opérationnel. Agility Robotics a été fondée en 2015 à partir des travaux de l'Oregon State University sur la locomotion bipède. L'entreprise a signé un partenariat stratégique avec Amazon, qui a piloté Digit dans ses entrepôts en 2023-2024. Elle se positionne directement face à Figure AI (Figure 02, partenariat BMW), Boston Dynamics (Atlas), Tesla (Optimus) et 1X Technologies sur le segment de l'humanoïde industriel. Contrairement à Figure ou Tesla qui communiquent davantage sur des capacités de manipulation généraliste, Agility mise sur une intégration logistique ciblée, en couplant Digit aux flottes AMR existantes. Les prochaines étapes annoncées incluent une accélération de la cadence de production et un déploiement élargi dans des environnements entrepôt multi-unités, sans date précise communiquée à ce stade.

HumanoïdesActu
1 source
La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China
249Pandaily 

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

X Square Robot, startup chinoise spécialisée dans l'IA incarnée fondée en décembre 2023, a bouclé un tour de série B de près de 2 milliards de yuans (environ 276 millions de dollars) entre fin mars et début avril 2026, co-mené par le bras d'investissement stratégique de Xiaomi et Sequoia China. Cette levée intervient à peine trois mois après un tour A++ d'un milliard de yuans (138 millions de dollars) annoncé le 12 janvier, dans lequel ByteDance, Sequoia China, le Beijing Information Industry Development Fund et le Shenzhen Capital Group figuraient déjà comme investisseurs principaux. Meituan et Alibaba ont également rejoint le cap table, ce qui fait de X Square Robot la seule entreprise d'IA incarnée en Chine à avoir attiré les trois géants de l'internet chinois simultanément. La société a déjà commercialisé deux plateformes robotiques propriétaires : Quantum-1 et Quantum-2, ce dernier étant un humanoïde à roues à usage général. En moins de six mois d'existence publique, X Square Robot cumule plus de 400 millions de dollars levés, un rythme qui place la startup dans la même trajectoire de capitalisation accélérée que Figure AI ou Physical Intelligence aux États-Unis. La présence conjointe de Xiaomi, acteur hardware avec une chaîne d'approvisionnement robuste, et de ByteDance, maître de la donnée comportementale à grande échelle, suggère une stratégie d'intégration verticale : modèles de fondation incarnés alimentés par des volumes de données massifs, déployés sur du matériel maîtrisé. Le fait que le fonds IA dédié de Shenzhen Capital ait effectué ici son premier investissement signale également un intérêt institutionnel croissant pour la robotique généraliste en Chine. X Square Robot émerge dans un contexte de compétition intense entre Beijing et la Silicon Valley sur les modèles de fondation robotiques : Unitree, Agibot et Galbot d'un côté, Figure, 1X Technologies et Physical Intelligence de l'autre. La différenciation affichée de X Square repose sur des "modèles de fondation d'intelligence incarnée générale" développés en interne, une approche similaire à celle de Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les détails techniques des modèles, leurs benchmarks réels et les déploiements clients concrets restent à ce stade non divulgués, les annonces demeurant au stade du positionnement stratégique plutôt que du produit validé en conditions industrielles.

UELa capitalisation accélérée de X Square Robot par Xiaomi, ByteDance et Alibaba simultanément accentue la pression concurrentielle mondiale sur les projets européens de robots humanoïdes et de modèles de fondation incarnés, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source
Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia
250SCMP Tech 

Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia

Jixun Foo, associé gérant de Granite Asia et vétéran du capital-risque technologique asiatique, estime qu'Asia dispose d'un avantage structurel sur les États-Unis dans la prochaine phase de la course à l'IA. Selon lui, le développement de l'IA a franchi un cap décisif : après deux ans de percées sur les modèles de fondation (LLMs, VLMs), le secteur entre dans une phase d'applications physiques, robotique, automatisation industrielle, systèmes embarqués, où la capacité à produire du matériel à grande échelle devient aussi déterminante que la recherche algorithmique. Ce changement de paradigme est stratégiquement important pour les intégrateurs et décideurs industriels : il déplace le centre de gravité compétitif des data centers vers les chaînes d'approvisionnement. La Chine, le Japon, la Corée du Sud et Taiwan concentrent une part dominante de la fabrication mondiale de composants électroniques, de moteurs, d'actionneurs et de capteurs, précisément les éléments critiques pour déployer des robots physiques à l'échelle industrielle. Un avantage logistique et manufacturier peut compenser, au moins partiellement, un retard sur les modèles de base. Granite Asia, fonds hongkongais actif dans les technologies deeptech et la mobilité, s'inscrit dans un mouvement plus large de repositionnement des investisseurs asiatiques sur l'IA physique. Les concurrents américains, Figure AI, Agility Robotics, Boston Dynamics, misent sur l'excellence des modèles (VLA, GR00T N2, pi0), mais dépendent largement de composants fabriqués en Asie. La thèse de Foo rejoint celle de plusieurs analystes : la prochaine bataille ne se gagnera pas uniquement dans les laboratoires, mais sur les lignes de production.

UEL'avantage manufacturier asiatique sur les composants robotiques (actionneurs, capteurs, moteurs) renforce la dépendance structurelle des intégrateurs européens vis-à-vis des chaînes d'approvisionnement asiatiques, un enjeu de souveraineté industrielle pour la filière robotique EU.

Chine/AsieOpinion
1 source