
Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée
Alibaba a publié mardi la suite Qwen-Robot, sa première famille de modèles d'IA incarnée, destinée à relier les grands modèles de langage à l'action robotique dans le monde physique. La suite comprend trois modèles : Qwen-RobotNav pour la navigation visuo-langagière, entraîné sur 15,6 millions d'échantillons en unifiant instruction following, navigation par cible et suivi d'objets ; Qwen-RobotManip pour la manipulation robotique via une architecture VLA (Visual Language Action) basée sur un backbone Qwen3.5-4B VL couplé à une tête de diffusion par flow matching, entraîné sur plus de 38 100 heures de données issues exclusivement de sources open source ; et Qwen-RobotWorld, un modèle de monde prédit des futurs physiquement cohérents pour la manipulation, la conduite et la navigation via une interface en langage naturel. La démonstration centrale met en scène un robot quadrupède Unitree Go2 sur hardware NVIDIA Jetson Thor, équipé d'une unique caméra basse résolution : sans cartographie préalable, il navigue dans un appartement inconnu en suivant des instructions verbales, avec une latence d'inférence de 196 millisecondes. Alibaba a également présenté Qwen-RobotClaw, un framework agent permettant aux modèles Qwen VLM d'appeler les outils Qwen-Robot pour gérer des tâches longues et la mémoire de contexte, et mis en open source Chat2Robot, une plateforme d'évaluation navigateur supportant Qwen-RobotManip sur 50 tâches via le dataset RoboTwin-Clean.
Pour les intégrateurs et décideurs industriels, deux points méritent attention. L'entraînement de Qwen-RobotManip exclusivement sur des données open source est un choix architectural significatif : il abaisse les barrières de reproduction et contourne le verrou des données propriétaires qui bloque nombre d'acteurs du secteur. La latence de 196 ms sur Jetson Thor illustre la viabilité de l'inférence embarquée pour la navigation, même si cette performance a été mesurée dans un environnement contrôlé et non en production industrielle. La robustesse à grande échelle reste à démontrer : les vidéos présentées constituent une preuve de concept, pas un déploiement validé. L'architecture Qwen-RobotClaw adresserait un problème concret si elle tient ses promesses en production : la gestion de tâches multi-étapes sans reprogrammation manuelle, qui reste le verrou central de l'adoption robotique en environnements non structurés.
Alibaba entre tardivement dans l'espace des modèles de fondation robotiques face à des acteurs déjà positionnés : Physical Intelligence (pi0, levée de 400 M$ en 2024), Figure AI (Figure 03, partenariat BMW), Google DeepMind et NVIDIA avec GR00T N2. En Chine, Unitree (fournisseur du Go2 de la démo), Zhiyuan Robot et Agibot développent leurs propres stacks logicielles embarquées. En Europe, Enchanted Tools et Pollen Robotics avancent sur des plateformes collaboratives, mais sans modèle VLA de cette envergure à ce stade. Les prochaines étapes annoncées incluent l'extension de Chat2Robot à de nouvelles plateformes et tâches robotiques, ainsi qu'une intégration commerciale potentielle via Alibaba Cloud.
L'entrée d'Alibaba avec une suite VLA entraînée sur données open source creuse l'écart technologique avec les acteurs européens (Enchanted Tools, Pollen Robotics) qui ne disposent pas encore de modèles de fondation robotiques comparables, même si la stack open source pourrait leur servir de base de développement.
Dans nos dossiers




