Aller au contenu principal
Alibaba et ByteDance redoublent d'efforts sur l'IA incarnée : l'apport des géants d'internet à la robotique
Chine/AsiePandaily53min

Alibaba et ByteDance redoublent d'efforts sur l'IA incarnée : l'apport des géants d'internet à la robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Le 16 juin 2026, Alibaba a lancé Qwen-Robot, sa première famille complète de modèles d'IA incarnée intégrée à la série Qwen. Elle regroupe trois composants distincts : Qwen-RobotManip pour la manipulation physique, Qwen-RobotNav pour la navigation autonome, et Qwen-RobotWorld comme modèle de monde, c'est-à-dire un moteur de raisonnement contextuel sur l'environnement physique. Ces modules peuvent être déployés séparément ou en coordination, selon le type de robot ciblé. Le positionnement d'Alibaba est explicitement logiciel : l'entreprise ne vise pas à construire des corps robotiques, mais à fournir le "cerveau intelligent" à des fabricants tiers. Simultanément, ByteDance a réorganisé ses efforts en robotique incarnée en élevant Seed Robotics au rang de division stratégique principale, désormais sous la supervision de Zhou Chang, responsable multi-modal du groupe. ByteDance a déjà produit plus de 1 000 robots, majoritairement des robots mobiles à roues pour la logistique en entrepôt et en usine, et compte parmi ses clients externes SF Express et BYD Electronics.

Ce double mouvement illustre un changement structurel dans la course aux humanoïdes et à la robotique généraliste : les géants de l'internet entrent dans le secteur non par la mécanique, mais par la donnée et l'intelligence. La valeur qu'ils apportent repose sur trois piliers. D'abord, leurs grands modèles de langage compressent le temps d'adaptation à de nouvelles tâches : là où un ingénieur robotique traditionnel passerait plusieurs semaines à reprogrammer un bras ou un AGV pour un nouveau scénario, une approche VLA (vision-language-action) peut réduire cette itération à quelques jours. Ensuite, leur infrastructure opérationnelle génère des données d'entraînement à une échelle inaccessible aux startups : le réseau de livraison instantanée de Meituan, les entrepôts de JD Logistics, les chaînes d'approvisionnement e-commerce de ByteDance accumulent chaque jour des millions d'interactions physiques réelles. Enfin, et c'est peut-être le facteur le plus sous-estimé, ces entreprises sont leurs propres premiers clients. JD a validé ses robots logistiques dans ses propres entrepôts "Asia No.1" avant de les commercialiser. ByteDance fait circuler ses AMR sur de vraies routes opérationnelles avant de les vendre. Ce raccourci entre laboratoire et déploiement à l'échelle est ce qui manque le plus aux startups hardware-first.

Pour autant, les analystes du secteur rappellent que l'avantage logiciel ne dissout pas les contraintes physiques. Les composants critiques comme les actionneurs, les capteurs de force ou les joints à haute précision restent des goulots d'étranglement de supply chain qui ne s'effacent pas parce qu'un géant tech entre dans la pièce. Alibaba et ByteDance font face à une concurrence à deux niveaux : d'un côté les acteurs hardware-first américains comme Figure AI, 1X, Boston Dynamics ou Agility Robotics qui avancent en parallèle sur la couche IA ; de l'autre les constructeurs chinois comme Unitree ou Fourier Intelligence qui maîtrisent déjà la chaîne de fabrication. La prochaine étape pour évaluer ces annonces sera de mesurer si les modèles Qwen-Robot passent l'épreuve du déploiement industriel répété en dehors des environnements contrôlés d'Alibaba, ce qui reste à ce stade une démonstration en cours, pas un produit livré.

À lire aussi

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique
1SCMP Tech 

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique

Alibaba et Tencent ont annoncé un virage stratégique majeur : déployer leurs modèles d'IA générative dans des systèmes robotiques physiques, plutôt que de rester cantonnés aux interfaces conversationnelles. Alibaba a lancé la semaine dernière le modèle Qwen3.7-Max, doté de capacités dites de "tool-calling" qui lui permettent de fonctionner comme cerveau numérique d'un robot, en orchestrant des composants logiciels et matériels externes. Concrètement, le modèle peut déclencher des séquences d'actions physiques comme la navigation autonome, le bras articulé ou la prise d'objet, sans reprogrammation manuelle à chaque tâche. Ce positionnement signale un déplacement du front concurrentiel de l'IA en Chine : la différenciation ne se joue plus sur les benchmarks de raisonnement textuel, mais sur la capacité des VLA (Vision-Language-Action models) à passer du simulateur à l'environnement réel. Pour les intégrateurs industriels et les décideurs B2B, cela implique que des briques d'IA disponibles en open ou semi-open source pourraient bientôt remplacer des stacks robotiques propriétaires coûteux, accélérant les cycles de déploiement tout en abaissant les barrières à l'entrée. Alibaba avait déjà positionné la famille Qwen comme alternative aux modèles occidentaux, avec des versions multimodales compétitives face à GPT-4o et Gemini. Tencent suit une trajectoire similaire avec ses propres initiatives robotiques encore peu documentées publiquement. Les deux groupes se retrouvent en concurrence directe avec Figure AI, Physical Intelligence (pi0), Boston Dynamics et Unitree, ainsi qu'avec les efforts de Nvidia (GR00T N2) pour standardiser les pipelines d'entraînement robotique. Les prochaines étapes annoncées restent pour l'instant au stade de la démonstration technique, sans déploiement industriel confirmé.

UEL'émergence de briques VLA open/semi-open source chinoises (Qwen3.7-Max) pourrait abaisser les coûts d'intégration pour les industriels européens, tout en intensifiant la pression concurrentielle sur les acteurs EU face aux géants technologiques chinois.

Chine/AsieOpinion
1 source
Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée
2Pandaily 

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

Alibaba a publié mardi la suite Qwen-Robot, sa première famille de modèles d'IA incarnée, destinée à relier les grands modèles de langage à l'action robotique dans le monde physique. La suite comprend trois modèles : Qwen-RobotNav pour la navigation visuo-langagière, entraîné sur 15,6 millions d'échantillons en unifiant instruction following, navigation par cible et suivi d'objets ; Qwen-RobotManip pour la manipulation robotique via une architecture VLA (Visual Language Action) basée sur un backbone Qwen3.5-4B VL couplé à une tête de diffusion par flow matching, entraîné sur plus de 38 100 heures de données issues exclusivement de sources open source ; et Qwen-RobotWorld, un modèle de monde prédit des futurs physiquement cohérents pour la manipulation, la conduite et la navigation via une interface en langage naturel. La démonstration centrale met en scène un robot quadrupède Unitree Go2 sur hardware NVIDIA Jetson Thor, équipé d'une unique caméra basse résolution : sans cartographie préalable, il navigue dans un appartement inconnu en suivant des instructions verbales, avec une latence d'inférence de 196 millisecondes. Alibaba a également présenté Qwen-RobotClaw, un framework agent permettant aux modèles Qwen VLM d'appeler les outils Qwen-Robot pour gérer des tâches longues et la mémoire de contexte, et mis en open source Chat2Robot, une plateforme d'évaluation navigateur supportant Qwen-RobotManip sur 50 tâches via le dataset RoboTwin-Clean. Pour les intégrateurs et décideurs industriels, deux points méritent attention. L'entraînement de Qwen-RobotManip exclusivement sur des données open source est un choix architectural significatif : il abaisse les barrières de reproduction et contourne le verrou des données propriétaires qui bloque nombre d'acteurs du secteur. La latence de 196 ms sur Jetson Thor illustre la viabilité de l'inférence embarquée pour la navigation, même si cette performance a été mesurée dans un environnement contrôlé et non en production industrielle. La robustesse à grande échelle reste à démontrer : les vidéos présentées constituent une preuve de concept, pas un déploiement validé. L'architecture Qwen-RobotClaw adresserait un problème concret si elle tient ses promesses en production : la gestion de tâches multi-étapes sans reprogrammation manuelle, qui reste le verrou central de l'adoption robotique en environnements non structurés. Alibaba entre tardivement dans l'espace des modèles de fondation robotiques face à des acteurs déjà positionnés : Physical Intelligence (pi0, levée de 400 M$ en 2024), Figure AI (Figure 03, partenariat BMW), Google DeepMind et NVIDIA avec GR00T N2. En Chine, Unitree (fournisseur du Go2 de la démo), Zhiyuan Robot et Agibot développent leurs propres stacks logicielles embarquées. En Europe, Enchanted Tools et Pollen Robotics avancent sur des plateformes collaboratives, mais sans modèle VLA de cette envergure à ce stade. Les prochaines étapes annoncées incluent l'extension de Chat2Robot à de nouvelles plateformes et tâches robotiques, ainsi qu'une intégration commerciale potentielle via Alibaba Cloud.

UEL'entrée d'Alibaba avec une suite VLA entraînée sur données open source creuse l'écart technologique avec les acteurs européens (Enchanted Tools, Pollen Robotics) qui ne disposent pas encore de modèles de fondation robotiques comparables, même si la stack open source pourrait leur servir de base de développement.

Chine/AsieOpinion
1 source
Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots
3SCMP Tech 

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

Alibaba Group a dévoilé mardi le Qwen Robot Suite, sa première suite de modèles d'intelligence artificielle dédiée à la robotique. Développée par Tongyi Lab, l'unité de recherche IA du géant de Hangzhou, cette collection de modèles vise à doter les robots de capacités de perception, de raisonnement et d'interaction avec l'environnement physique, ce que le secteur désigne par le terme "embodied AI". La suite a déjà été engagée dans des phases de test pilote avec un cercle restreint de partenaires sélectionnés par Alibaba. Les métriques de performance restent à ce stade non communiquées publiquement, ce qui ne permet pas d'évaluer les capacités réelles par rapport aux annonces. L'entrée d'Alibaba dans l'embodied AI représente un signal fort pour l'industrie robotique : les grandes plateformes cloud et LLM cherchent désormais à étendre leur emprise vers le monde physique, transformant le marché des intégrateurs et des fabricants OEM. Pour les décideurs industriels, cela signifie potentiellement un accès à des couches d'IA robotique portées par une infrastructure cloud établie, avec la question ouverte du sim-to-real gap, qui reste le défi critique non résolu dans le déploiement à l'échelle des robots polyvalents. Alibaba s'inscrit dans une course mondiale déjà peuplée d'acteurs hétérogènes : Figure (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Tesla (Optimus Gen 3) et 1X Technologies côté startups, auxquels s'ajoutent Huawei et Xiaomi côté géants technologiques chinois. Le Qwen Robot Suite s'appuie sur la famille de modèles Qwen, déjà bien implantée dans le paysage LLM mondial. Les prochaines étapes probables incluent un élargissement des pilotes industriels et une intégration avec l'écosystème cloud d'Alibaba (Alibaba Cloud / Aliyun).

UEL'entrée d'Alibaba dans l'IA robotique intensifie la pression concurrentielle mondiale sur les fabricants et intégrateurs européens, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

Chine/AsieActu
1 source
L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA
4Pandaily 

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé. L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique. La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

UEL'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

Chine/AsieOpinion
1 source