Aller au contenu principal
Chine/AsiePandaily2h

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé.

L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique.

La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

Impact France/UE

L'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

À lire aussi

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique
1SCMP Tech 

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique

Alibaba et Tencent ont annoncé un virage stratégique majeur : déployer leurs modèles d'IA générative dans des systèmes robotiques physiques, plutôt que de rester cantonnés aux interfaces conversationnelles. Alibaba a lancé la semaine dernière le modèle Qwen3.7-Max, doté de capacités dites de "tool-calling" qui lui permettent de fonctionner comme cerveau numérique d'un robot, en orchestrant des composants logiciels et matériels externes. Concrètement, le modèle peut déclencher des séquences d'actions physiques comme la navigation autonome, le bras articulé ou la prise d'objet, sans reprogrammation manuelle à chaque tâche. Ce positionnement signale un déplacement du front concurrentiel de l'IA en Chine : la différenciation ne se joue plus sur les benchmarks de raisonnement textuel, mais sur la capacité des VLA (Vision-Language-Action models) à passer du simulateur à l'environnement réel. Pour les intégrateurs industriels et les décideurs B2B, cela implique que des briques d'IA disponibles en open ou semi-open source pourraient bientôt remplacer des stacks robotiques propriétaires coûteux, accélérant les cycles de déploiement tout en abaissant les barrières à l'entrée. Alibaba avait déjà positionné la famille Qwen comme alternative aux modèles occidentaux, avec des versions multimodales compétitives face à GPT-4o et Gemini. Tencent suit une trajectoire similaire avec ses propres initiatives robotiques encore peu documentées publiquement. Les deux groupes se retrouvent en concurrence directe avec Figure AI, Physical Intelligence (pi0), Boston Dynamics et Unitree, ainsi qu'avec les efforts de Nvidia (GR00T N2) pour standardiser les pipelines d'entraînement robotique. Les prochaines étapes annoncées restent pour l'instant au stade de la démonstration technique, sans déploiement industriel confirmé.

UEL'émergence de briques VLA open/semi-open source chinoises (Qwen3.7-Max) pourrait abaisser les coûts d'intégration pour les industriels européens, tout en intensifiant la pression concurrentielle sur les acteurs EU face aux géants technologiques chinois.

Chine/AsieOpinion
1 source
Alibaba lance son premier robot incarné via Amap, en débutant par un chien robot
2TechNode 

Alibaba lance son premier robot incarné via Amap, en débutant par un chien robot

La filiale d'Alibaba Amap (connue aussi sous le nom Gaode, leader chinois de la cartographie et navigation mobile) s'apprête à commercialiser son premier produit robotique : un robot quadrupède. Selon des sources internes citées par le média chinois IThome, il s'agirait du premier robot physique jamais lancé par le groupe Alibaba. L'annonce reste pour l'instant au stade de fuite interne, sans date de sortie ni spécifications techniques publiées, payload, degrés de liberté et prix sont inconnus à ce stade. Ce mouvement indique qu'Alibaba étend sa stratégie IA au-delà du cloud et des LLM vers l'intelligence incarnée, un pivot observé chez plusieurs géants technologiques asiatiques. L'équipe d'intelligence embodied d'Amap travaillerait également sur des humanoïdes, et aurait constitué ce qu'elle décrit comme le plus grand moteur de données de navigation embodied de l'industrie, une affirmation difficile à vérifier sans audit indépendant. La maîtrise de la navigation longue séquence (long-horizon tasks) est effectivement un verrou technique clé pour les robots opérant en environnement ouvert. Amap dispose d'un atout structurel rare : une base de données cartographiques et de trajectoires humaines massive, issue de ses centaines de millions d'utilisateurs actifs en Chine, potentiellement exploitable pour entraîner des politiques de navigation robot. Dans un marché quadrupède dominé par Unitree et Boston Dynamics, Alibaba arrive tard mais avec des ressources data considérables. Les concurrents chinois comme Unitree (G1, B2) et DeepRobotics sont déjà en déploiement commercial, ce qui positionne ce lancement davantage comme une entrée stratégique que comme une rupture technologique immédiate.

Chine/AsieActu
1 source
336Kr 

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée

AtomBite.AI (元节智能), startup chinoise d'intelligence incarnée, vient de boucler un tour d'amorçage de plusieurs dizaines de millions de yuans mené par le fonds Yinno Innovation, avec la participation du Shuimu Tsinghua Alumni Seed Fund. La société cible un terrain peu médiatisé mais à forte récurrence : la cuisine professionnelle de restauration et la chaîne d'exécution des commandes de livraison de repas. Son équipe fondatrice porte l'ADN de Meituan : Wang Dong (CEO, docteur en informatique) y dirigeait l'ingénierie de Meituan Waimai, supervisant mille ingénieurs et des algorithmes traitant des dizaines de millions de commandes quotidiennes ; Li Tao pilotait les systèmes algorithmiques et data de la même division ; Li Haozhe, troisième co-fondateur, est un entrepreneur en série à dimension internationale. La technologie centrale est un "World Action Model" (WAM) dédié à la restauration, décliné en architecture VT-WAM combinant vision et retour tactile, en rupture explicite avec l'approche VLA (Vision-Language-Action) dominante dans le secteur. Un premier déploiement pilote en cuisine professionnelle est attendu d'ici fin 2026, avec plusieurs lettres d'intention déjà signées avec des opérateurs nationaux et internationaux. Le choix de la restauration résulte d'un audit de plusieurs mois conduit en Amérique du Nord et à Singapour. Wang Dong y a identifié un triptyque rare : besoin universel (même problématique en Chine, aux États-Unis et en Asie du Sud-Est), ROI mesurable pour le restaurateur (réduction des erreurs de commande, gains à l'emballage, allègement de la masse salariale) et cycle de décision court chez les PME, contrairement aux scénarios domestiques ou médico-sociaux. L'industrie est structurellement sous pression : hausse soutenue des salaires horaires en Amérique du Nord, turnover chronique et difficultés de recrutement persistantes en Chine. Sur le plan technique, AtomBite.AI conteste le paradigme VLA en affirmant que le contrôle moteur réel ne passe pas par le langage mais par la compréhension visuelle et physique. L'approche VT-WAM fusionne ces deux modalités dans un espace latent pour prédire les conséquences de contact avant exécution : inférer si un gobelet est plein ou chaud modifie les forces de friction et le centre de gravité lors de la saisie, ce que la vision seule ne permet pas de capturer. AtomBite.AI prend le contre-pied de la stratégie "modèle universel d'abord" adoptée par la plupart de ses concurrents. Les opérations répétitives de la cuisine, emballage, tri et transfert de commandes, génèrent un flux naturel de données d'interaction physique difficile à reproduire en simulation, alimentant un cycle d'amélioration continue du modèle depuis le terrain réel. L'architecture se décompose en trois couches : modèle monde incarné pour la perception et la planification d'actions, moteur d'orchestration des tâches, et couche matérielle combinant composants propriétaires et hardware standard. Les gestes récurrents s'exécutent en local sur des modèles légers pour limiter la latence ; le cloud gère les exceptions comme un ingrédient manquant ou un objet détecté hors place. Sur ce segment, Miso Robotics aux États-Unis et Keenon Robotics en Chine sont déjà présents, sur des périmètres différents (friture automatisée, service en salle). La feuille de route prévoit une extension progressive vers le tri, la logistique interne de restaurant, et à terme la cuisine domestique.

Chine/AsieActu
1 source
Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle
4Pandaily 

Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle

Zhongke Diwuji, entreprise chinoise spécialisée dans l'intelligence incarnée (embodied AI), a bouclé une levée de fonds de Série A d'un montant de plusieurs centaines de millions de yuans, annoncée en 2026. Le tour a été mené par Futi Capital, avec la participation de Shanghai Semiconductor Industry Investment, CAS Investment, China Venture Capital et Hongruida Technology. L'investisseur historique Zoyuan Asia a choisi d'augmenter significativement sa participation. Il s'agit du troisième tour de financement réalisé par la société dans la seule année 2026. Les fonds seront alloués au développement de la série FAM (few-shot large model), au modèle monde incarné de prochaine génération BridgeV2W, à l'industrialisation des algorithmes d'apprentissage par renforcement, à l'extension des capacités de production robotique et au recrutement d'ingénieurs de haut niveau. La société affirme avoir sécurisé plusieurs centaines de millions de yuans de commandes auprès de clients entreprises internationaux, bien que leurs noms n'aient pas été communiqués. Trois levées en moins de douze mois pour une entreprise fondée en septembre 2024 constituent un signal d'intérêt institutionnel inhabituellement fort. Ce qui distingue Zhongke Diwuji de ses concurrents n'est pas la plateforme matérielle mais la couche d'apprentissage : son approche par few-shot learning permet à un système robotique d'acquérir de nouvelles capacités de manipulation à partir d'un nombre minimal d'exemples, sans les volumineuses campagnes de collecte de données qui alourdissent traditionnellement le coût d'adaptation à de nouvelles tâches industrielles. C'est précisément ce goulot d'étranglement économique qui freine les déploiements à grande échelle, et une solution crédible à ce problème justifie des valorisations élevées. L'obtention de commandes fermes de clients industriels internationaux, et non de simples lettres d'intention, indique que la technologie a franchi la frontière entre démonstration en laboratoire et valeur terrain vérifiable, même si l'absence de noms de clients invite à une certaine prudence. Fondée en septembre 2024, Zhongke Diwuji s'est positionnée dès l'origine comme un acteur de modèles fondationnels physiques universels, à mi-chemin entre startup robotique et laboratoire de recherche en IA. En 2026, le secteur chinois de la robotique incarnée est entré dans une phase de déploiement commercial à l'échelle, avec des concurrents directs comme Unitree Robotics, AgiBot et Fourier Intelligence en compétition sur les mêmes segments industriels. La présence remarquée de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées témoignent d'une ambition d'expansion explicite au-delà du marché domestique. Les prochaines étapes identifiées incluent la mise en production de BridgeV2W et l'intégration du reinforcement learning dans des déploiements clients réels, deux jalons qui permettront de vérifier si la promesse du few-shot tient effectivement à l'échelle industrielle.

UELa présence de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées signalent une ambition d'expansion vers l'UE qui pourrait accroître la pression concurrentielle sur les acteurs européens de la robotique industrielle et de l'IA physique.

Chine/AsieOpinion
1 source