Robotique : WALL-WM, premier world model à événements

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

45

1TechNode

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion

1 source

63

2arXiv cs.RO

Xiaomi-Robotics-U0 : synthèse incarnée unifiée avec modèle fondation du monde

Xiaomi Robotics a publié U0, un modèle multimodal autorégressif de 38 milliards de paramètres conçu pour unifier plusieurs tâches de génération liées à la robotique au sein d'un seul système. Décrit dans un article déposé sur arXiv, U0 traite la synthèse de contenus "incarnés" comme une extension directe des modèles de génération d'images et de vidéos fondationnels, en optimisant conjointement le texte-vers-image, l'édition d'images, la génération de scènes incarnées, le transfert incarné et la génération vidéo incarnée. Selon les auteurs, il s'agit du premier modèle capable de générer des scènes cohérentes en multi-vues pour plusieurs types de robots différents, et il introduit un mécanisme de transfert structuré et contrôlable permettant une édition fine tout en préservant la cohérence géométrique et la dynamique d'interaction. Les résultats rapportés indiquent que U0 dépasse GPT-Image-2.0 lors d'évaluations humaines sur la génération et le transfert de scènes incarnées, se classe premier sur le classement World Arena pour la génération vidéo incarnée, et fait passer le taux de succès hors distribution du modèle de manipulation pi0.5 de 36,9% à 63,2% sur des tâches de manipulation réelle jugées difficiles. Le code et les checkpoints sont mis à disposition sur le site de Xiaomi Robotics. L'enjeu principal ne se situe pas dans la démonstration visuelle mais dans l'usage de U0 comme moteur de données synthétiques pour l'entraînement de politiques robotiques. Le gain mesuré sur pi0.5, un modèle vision-langage-action tiers développé par Physical Intelligence, est le point le plus significatif: il suggère qu'un monde fondationnel bien conçu peut générer des données d'entraînement suffisamment réalistes pour améliorer la généralisation d'un VLA existant sur des tâches de manipulation réelles, et pas seulement sur des métriques internes. C'est une piste concrète pour réduire l'écart simulation-vers-réel qui freine encore le déploiement à grande échelle des robots humanoïdes et bras manipulateurs, en offrant une alternative à la collecte coûteuse de données physiques. Le travail part d'un constat classique dans le secteur: adapter un modèle fondationnel pré-entraîné avec des données robotiques limitées tend à dégrader les connaissances visuelles acquises lors du pré-entraînement à grande échelle. U0 cherche à préserver cette généralisation tout en l'adaptant aux contraintes des embodiments robotiques. Il se positionne face à des approches comme GR00T N2 de NVIDIA ou les modèles Pi de Physical Intelligence, dans une course où Xiaomi investit désormais explicitement la recherche en IA incarnée. Pour l'instant, la publication reste au stade recherche: code et poids sont ouverts, mais aucun déploiement produit ni pilote industriel n'est annoncé.

IA physiqueOpinion

1 source

52

3Interesting Engineering

Regardez : le premier modèle d'IA nativement incarnée promet des robots plus intelligents et plus performants

Robbyant, filiale d'intelligence artificielle incarnée du groupe chinois Ant Group (maison mère d'Alipay), a présenté LingBot-VA 2.0, un modèle de monde vidéo-action que l'entreprise qualifie de premier du secteur conçu nativement pour la robotique plutôt qu'adapté de systèmes de génération vidéo destinés au contenu numérique. Le modèle repose sur une architecture autorégressive entraînée depuis zéro : il prédit comment les actions d'un robot modifient son environnement, puis choisit l'action suivante à partir de ces relations causales. Robbyant met en avant quatre innovations : un tokenizer visuel-action sémantique compressant conjointement image et action, un pré-entraînement causal strict garantissant l'ordre temporel des prédictions, une architecture Mixture of Experts augmentant la capacité sans alourdir l'inférence, et un mécanisme d'inférence asynchrone qui recale en continu les prédictions sur les observations réelles pendant l'exécution. Selon l'entreprise, cette combinaison permet un contrôle en boucle fermée à 150 Hz sur un seul GPU, et le modèle s'adapte à une nouvelle tâche de manipulation avec seulement 20 démonstrations, par apprentissage en contexte, sans réentraînement. Robbyant a montré le système sur des tâches longues et précises : préparer un petit-déjeuner, déballer des colis, insérer des tubes, ramasser des vis, plier du linge, ouvrir des tiroirs. L'entreprise revendique aussi de meilleurs résultats que les méthodes existantes sur les benchmarks de simulation RoboTwin 2.0 et LIBERO. Ce lancement illustre un changement de philosophie dans les modèles fondation pour la robotique. La plupart des systèmes d'IA incarnée actuels réutilisent des modèles vidéo pensés pour générer du contenu grand public, qui privilégient qualité d'image et créativité au détriment de la précision physique et de la vitesse d'exécution. Adapter ces modèles à la robotique, selon Robbyant, dégrade la généralisation, un constat qui rejoint le débat récurrent dans le secteur des modèles vision-langage-action (VLA) sur l'écart entre démonstrations impressionnantes et fiabilité réelle. Si les chiffres avancés se confirment au-delà des vidéos sélectionnées par l'entreprise, ils positionneraient LingBot-VA 2.0 comme alternative face à des VLA généralistes comme Pi-0 ou GR00T N2, avec un argument clé pour les intégrateurs : moins de données pour déployer un nouveau geste, et un temps de cycle compatible avec du matériel limité à un seul GPU. La mémoire à long terme mise en avant, permettant de distinguer des situations visuellement identiques mais contextuellement différentes et d'exécuter des tâches multi-étapes avec comptage et répétition, répond à une limite connue des politiques robotiques actuelles sur les séquences longues. Robbyant a accéléré ses investissements en robotique humanoïde et modèles fondation physiques, dans un contexte où les groupes technologiques chinois, Ant Group mais aussi Unitree, AgiBot ou Xiaomi, intensifient la compétition face à des acteurs américains comme Figure AI ou Physical Intelligence. LingBot-VA 2.0 succède à une première version et s'inscrit dans une stratégie où l'entreprise dit vouloir accélérer le développement d'un écosystème ouvert, sans préciser de calendrier de commercialisation, de partenariats industriels ni de premiers déploiements pilotes. Pour l'instant, la démonstration reste cantonnée aux benchmarks de simulation et aux vidéos publiées par l'entreprise, sans validation indépendante en environnement de production, une réserve qui s'applique à la plupart des annonces de modèles fondation robotiques cette année.

IA physiqueOpinion

1 source

Zibian Robotics lance WALL-B, un modèle d'IA incarnée destiné au déploiement à domicile

41

4Pandaily

Zibian Robotics lance WALL-B, un modèle d'IA incarnée destiné au déploiement à domicile

Le 21 avril 2026, Zibian Robotics a annoncé WALL-B, un modèle d'IA incarnée reposant sur une architecture qu'elle nomme World Unified Model (WUM), en marge d'une initiative "robots pour la maison". Contrairement aux systèmes Vision-Language-Action (VLA) classiques, qui traitent séquentiellement perception visuelle, raisonnement et contrôle moteur, WALL-B est entraîné en fusion native sur quatre modalités (vision, langage, mouvement, prédiction physique) et revendique trois propriétés clés : multimodalité native, modélisation de la dynamique physique du monde, et auto-amélioration après échec. Le corpus d'entraînement intègre des données issues de centaines de foyers réels, et Zibian annonce un déploiement dans de vrais domiciles d'ici 35 jours, avec recrutement d'utilisateurs déjà en cours. Des précisions techniques et les plans d'écosystème seront révélés le 27 avril à la première conférence sur les applications IA du Guangdong. L'intérêt architectural de l'approche WUM est réel : les VLA souffrent d'une perte d'information à chaque interface entre modules, et leur incapacité à modéliser la physique reste un obstacle documenté au sim-to-real. Un entraînement unifié sur ces quatre flux pourrait réduire ce fossé, notamment pour la manipulation en environnement non structuré, défi central du déploiement résidentiel. Les affirmations de "premier modèle au monde" de ce type restent invérifiables à ce stade, et l'annonce d'un déploiement en 35 jours demeure un engagement commercial non confirmé ; la robustesse à grande échelle dans des foyers variés, avec leurs contraintes de lumière, d'encombrement et de comportements imprévisibles, constitue une barre difficile à franchir. Zibian s'inscrit dans un segment où la concurrence s'intensifie rapidement : Figure AI (Figure 03), Agility Robotics (Digit), Unitree et Agibot développent tous des plateformes polyvalentes pour environnements non structurés. En Chine, l'écosystème robotique bénéficie d'un fort soutien institutionnel, et le choix du Guangdong comme vitrine situe Zibian dans l'orbite de Shenzhen. L'intégration de l'anonymisation visuelle embarquée et d'une gestion explicite du consentement utilisateur répond aux exigences réglementaires croissantes, mais aussi à l'enjeu d'acceptabilité sociale des robots dans l'espace privé. Les prochaines semaines seront décisives pour évaluer si WALL-B franchit la frontière entre annonce et produit déployé en conditions réelles.

IA physiqueOpinion

1 source

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

À lire aussi

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Xiaomi-Robotics-U0 : synthèse incarnée unifiée avec modèle fondation du monde

Regardez : le premier modèle d'IA nativement incarnée promet des robots plus intelligents et plus performants

Zibian Robotics lance WALL-B, un modèle d'IA incarnée destiné au déploiement à domicile