Efficient-WAM : un modèle monde-action de 1…

LingBot-Vision d'Ant Group : 12 premières mondiales, un modèle de 1,1 milliard de paramètres bat DINOv3 (7 milliards)

42

1Pandaily

LingBot-Vision d'Ant Group : 12 premières mondiales, un modèle de 1,1 milliard de paramètres bat DINOv3 (7 milliards)

Ant Group, via sa division robotique LingBot, a dévoilé LingBot-Depth 2.0, un modèle de perception spatiale construit sur un nouveau modèle de vision baptisé LingBot-Vision, présenté comme le premier modèle de fondation vision nativement conçu pour la perception spatiale en IA incarnée. L'entreprise revendique douze résultats inédits sur des benchmarks publics et privés, une affirmation à prendre avec précaution puisqu'elle émane de son propre communiqué. Avec environ 1,1 milliard de paramètres, soit environ un septième des 7 milliards de DINOv3 de Meta, et moins d'un tiers de son volume d'entraînement, LingBot-Vision affirme surpasser DINOv3 sur le benchmark d'estimation de profondeur NYUv2. Le modèle cible trois défauts classiques de l'estimation de profondeur: le flou des contours, la détection des petits objets et le bruit sur les longues distances. LingBot-Depth 2.0 revendique une clarté de contours suffisante pour de la planification de trajectoire de bras robotique au millimètre près, une meilleure détection des câbles et fils fins, un filtrage du bruit pour les obstacles distants, et des cartes de profondeur stables face aux surfaces réfléchissantes, objets transparents, obscurité et environnements encombrés. Le modèle et son code sont disponibles en open source sur Hugging Face, ModelScope et GitHub, avec un rapport technique publié sur arXiv. Ant Group a aussi noué un partenariat avec ORBBEC, fabricant chinois de capteurs 3D, dont le laboratoire Depth Vision Lab a validé le modèle; la collaboration produit un nouveau dispositif de collecte EGO-RGBD, une intégration SDK pour le matériel ORBBEC, et une future caméra intégrée sans réglage algorithmique complexe. La sortie illustre un pari de plus en plus partagé en IA incarnée: les modèles de vision entraînés sur des images web généralistes, comme DINOv3, reconnaissent des objets mais ignorent leur géométrie précise, ce qui limite leur usage pour des robots devant saisir, éviter ou manipuler des objets réels. En intégrant la compréhension spatiale dès l'entraînement, LingBot-Vision s'attaque à l'écart entre perception "de spectateur" et perception "d'acteur", un enjeu central pour les modèles vision-langage-action qui pilotent bras robotiques et humanoïdes. Le passage du papier de recherche à un partenariat matériel concret avec ORBBEC, plutôt qu'une simple démonstration, est le signal le plus tangible pour les intégrateurs: un début de commercialisation réelle plutôt qu'un prototype isolé. Gérer nativement les cas difficiles, surfaces réfléchissantes, câblage fin, objets transparents, est précisément ce qui bloque aujourd'hui le déploiement en environnement réel non contrôlé. Ant Group, mieux connu pour Alipay, a multiplié ces derniers mois les investissements en robotique et IA incarnée via LingBot, dans un contexte de compétition intense entre laboratoires chinois et américains sur les modèles de fondation pour robots. La comparaison affichée avec DINOv3, modèle phare de Meta, positionne explicitement l'entreprise face aux géants américains sur la perception, pendant que d'autres acteurs, Figure AI avec Figure 03, Tesla avec Optimus, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2 ou Google DeepMind avec Helix, se concentrent davantage sur les modèles d'action et le contrôle moteur. LingBot-Vision se positionne ainsi comme une brique de perception complémentaire, potentiellement intégrable en amont de ces systèmes. Le partenariat avec ORBBEC laisse présager un déploiement progressif dans les prochains mois, avec l'arrivée annoncée d'une caméra grand public intégrant directement le traitement 3D, un jalon qui déterminera si les gains annoncés sur benchmarks se traduisent en performance réelle chez les intégrateurs industriels.

IA physiqueActu

1 source

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

43

2arXiv cs.RO

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06247) CKT-WAM, un cadre de transfert de connaissances paramètre-efficient entre modèles d'action du monde (WAMs, World Action Models). L'approche résout un verrou persistant : faire bénéficier un WAM étudiant des représentations apprises par un WAM enseignant plus capable, sans réentraîner l'ensemble du réseau. Techniquement, CKT-WAM extrait des états cachés intermédiaires de l'enseignant, les compresse via une attention croisée à requêtes apprenables (LQCA), les transforme à travers un adaptateur généralisé toujours actif et des adaptateurs spécialisés à activation parcimonieuse, puis injecte ce contexte compact dans les embeddings textuels de conditionnement de l'étudiant. Sur le benchmark LIBERO-Plus, le système atteint 86,1 % de taux de réussite global en n'entraînant que 1,17 % des paramètres du modèle étudiant, approchant les performances du fine-tuning complet. En conditions réelles, quatre tâches de manipulation longue portée ont été évaluées avec 83,3 % de réussite moyenne, résultat présenté comme meilleur de la catégorie par les auteurs. Le code est disponible sur GitHub (YuhuaJiang2002/CKT-WAM). L'enjeu industriel est direct : affiner un WAM ou un VLA (Vision-Language-Action model) de taille fondationnelle exige des ressources GPU considérables ; descendre à 1,17 % de paramètres entraînables tout en conservant des performances comparables ouvre une voie concrète pour les équipes R&D à ressources limitées. La démonstration d'une généralisation zero-shot suggère que le contexte transféré encode des capacités motrices transposables au-delà des tâches d'entraînement, ce qui valide partiellement l'hypothèse d'une composabilité des modèles robotiques génératifs. Deux réserves s'imposent toutefois : les quatre scénarios réels évalués restent trop peu nombreux pour conclure à une robustesse hors laboratoire, et les conditions d'évaluation (définition du succès, variabilité environnementale, sélection des vidéos) ne sont pas détaillées dans le preprint, ce qui limite la portée des chiffres annoncés. CKT-WAM s'inscrit dans la vague actuelle des modèles robotiques fondationnels interopérables, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). L'idée de capitaliser sur des modèles enseignants hétérogènes plutôt que de réentraîner from scratch rejoint les travaux de distillation de connaissances explorés en académique comme en industrie, dans un contexte où la course aux WAMs s'accélère significativement depuis 2025. En Europe, Enchanted Tools et Wandercraft développent des architectures de contrôle avancées, bien que moins orientées WAMs dans leurs publications récentes. La suite logique serait une validation sur des benchmarks plus larges comme DROID ou Open-X Embodiment, et des expérimentations terrain pour confirmer la robustesse réelle du transfert en dehors des environnements contrôlés.

UELes équipes R&D européennes travaillant sur des VLAs à ressources GPU limitées (dont Enchanted Tools et Wandercraft) pourraient exploiter ce framework pour réduire drastiquement le coût d'affinage de modèles fondationnels robotiques, dès validation sur des benchmarks plus larges.

💬 1,17 % des paramètres entraînés pour des perfs comparables au fine-tuning complet, c'est le genre de chiffre qui change les plans de roadmap. Les équipes qui rêvaient de WAMs génératifs mais bloquaient sur le budget GPU vont regarder ça de près. Bon, quatre tâches réelles c'est maigre pour crier victoire, mais l'axe est le bon.

IA physiqueOpinion

1 source

Robotique-U0 de Xiaomi : un modèle génératif incarné à 38 milliards de paramètres unifiant quatre tâches robotiques

46

3Pandaily

Robotique-U0 de Xiaomi : un modèle génératif incarné à 38 milliards de paramètres unifiant quatre tâches robotiques

Xiaomi a mis en open source Xiaomi-Robotics-U0, un modèle génératif embarqué multimodal autorégressif de 38 milliards de paramètres, code et poids disponibles sur GitHub, HuggingFace et ModelScope. L'entreprise chinoise le présente comme le premier modèle génératif unifié du secteur de l'IA embarquée capable de gérer simultanément quatre tâches robotiques distinctes : la génération de scènes multi-vues à partir de descriptions textuelles (établis, cuisines, entrepôts, environnements ouverts) pour un matériel robotique donné ; le transfert de trajectoires existantes vers de nouveaux environnements en modifiant éclairage, arrière-plan, matériaux ou objets cibles tout en conservant les poses du bras et la disposition de la scène ; la génération de vidéos d'interaction robotique prolongeant des observations initiales selon des instructions données, avec généralisation zero-shot à des scénarios inédits ; et des capacités classiques de génération et d'édition d'images texte-image. Sur le benchmark WorldArena, Xiaomi revendique le meilleur score parmi 126 modèles participants. Sur robot réel, en conditions hors distribution (éclairages et arrière-plans inconnus), le taux de réussite des tâches aurait progressé de 26 % en moyenne grâce à l'entraînement sur données augmentées par U0. L'architecture d'inférence UNIS annoncée accélérerait la génération d'environ 83 fois par rapport au paradigme autorégressif brut. Ces chiffres proviennent des communications de Xiaomi et n'ont pas fait l'objet de vérification indépendante à ce stade. L'enjeu dépasse la simple démonstration technique : la rareté des données réelles reste l'un des principaux goulots d'étranglement du développement de l'IA embarquée, et un modèle capable de générer ou d'augmenter des jeux de données synthétiques, y compris pour des scénarios dangereux ou rares physiquement inaccessibles, réduit potentiellement le coût de collecte terrain pour les intégrateurs et laboratoires. Pour les décideurs B2B et les équipes robotique, cela déplace une partie de l'effort d'ingénierie de la collecte physique vers la génération contrôlée de données, à condition que le gain de performance annoncé se vérifie hors du cadre contrôlé du fabricant. C'est aussi un signal de plus que les grands acteurs chinois de l'électronique grand public investissent lourdement la pile complète de l'IA embarquée, du matériel au modèle fondation. Cette sortie s'inscrit dans la continuité du déploiement d'usines robotisées par Xiaomi et positionne le groupe comme acteur intégré sur toute la chaîne : fabrication de robots, déploiement réel et recherche en modèles fondation. Elle intervient dans un paysage déjà occupé par Physical Intelligence (Pi-0), NVIDIA (GR00T N2) ou Figure (Helix), où la course porte désormais autant sur la disponibilité de données d'entraînement à grande échelle que sur l'architecture des modèles eux-mêmes. Aucune feuille de route de déploiement commercial ni de partenariat industriel n'a pour l'instant été précisée au-delà de la publication open source du modèle.

IA physiqueActu

1 source

WAM4D : modèle d'action du monde 4D rapide via des tokens de registre spatial

42

4arXiv cs.RO

WAM4D : modèle d'action du monde 4D rapide via des tokens de registre spatial

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.14048) WAM4D, un modèle d'action mondial (WAM) capable de prédire simultanément vidéo future et actions robotiques en espace 4D (3D plus temps). Sa contribution centrale repose sur des spatial register tokens légers, injectés à l'entraînement dans un transformeur causal de type Mixture-of-Transformers pour y distiller des priors géométriques denses, puis supprimés à l'inférence afin de préserver la vitesse de génération d'actions. L'architecture intègre également une attention causale mixte (causal mixture attention) segmentant la visibilité entre tokens vidéo, action et géométrie. Les résultats sont évalués sur le benchmark RoboTwin 2.0 et sur des tâches de manipulation réelle, avec des gains mesurés en cohérence spatiale et en précision de prédiction d'action. L'intérêt de l'approche tient à un compromis longtemps bloquant en robotique de manipulation: les WAMs opérant en espace 2D ou latent produisent des rollouts visuellement plausibles mais ignorent les contraintes géométriques 3D et la géométrie de contact occludée, deux facteurs critiques pour la préhension précise. À l'inverse, forcer une représentation 4D dense à l'inférence alourdit le décodage géométrique et ralentit la génération d'actions causales. WAM4D dissocie les deux phases en apprenant la géométrie à l'entraînement via les register tokens, sans répercuter ce coût à l'inférence, une stratégie comparable au token pruning dans les Vision Transformers. Ce découplage entraînement/inférence pourrait représenter un levier concret pour les équipes robotiques cherchant à intégrer des priors 3D dans des politiques fonctionnant en temps réel. Les WAMs s'inscrivent dans une tendance plus large visant à doter les robots de politiques génératives capables de simuler leurs propres conséquences avant d'agir, un domaine en concurrence directe avec UniSim et Genie 2 (Google DeepMind), ainsi que les Visual Language Action models comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. WAM4D se distingue de ces approches par son ancrage explicite en géométrie 4D, là où la majorité des VLAs raisonnent en espace de features visuelles 2D ou latentes. Le paper ne mentionne ni déploiement industriel ni partenariat commercial; il s'agit d'une contribution académique dont les suites naturelles seraient une validation sur des benchmarks standardisés comme Open X-Embodiment ou des tests sur des plateformes commerciales (Franka, UR, xArm).

IA physiqueOpinion

1 source

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

À lire aussi

LingBot-Vision d'Ant Group : 12 premières mondiales, un modèle de 1,1 milliard de paramètres bat DINOv3 (7 milliards)

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

Robotique-U0 de Xiaomi : un modèle génératif incarné à 38 milliards de paramètres unifiant quatre tâches robotiques

WAM4D : modèle d'action du monde 4D rapide via des tokens de registre spatial