Aller au contenu principal
IA physique36Kr2h

RoboScience lance Visics, un modèle fondation incarné universel, multi-morphologies, multi-objets et multi-tâches

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Le 24 juin 2026, la startup chinoise RoboScience a dévoilé Visics, son modèle fondamental d'IA incarnée, en révélant pour la première fois l'architecture complète de son système VLOA (Vision-Language-Object-Action). Les démonstrations présentées couvrent des scénarios réels: assemblage de meubles, préhension dextre et lignes de production dynamiques. Le coeur technique est l'Object Trajectory, une représentation intermédiaire unifiée sous forme de trajectoires 3D en nuage de points, qui sert d'interface entre deux moteurs entraînés séparément: un modèle monde incarné, alimenté par des vidéos internet massives pour modéliser états d'objets, forces de contact et causalité physique; et un modèle d'opération universel, générant des commandes de contrôle multi-plateforme via le moteur de simulation propriétaire RoboMirage. Ce second module supporte corps rigides, pièces articulées et matériaux déformables, avec entrées vision, tactile et force. Le pipeline de données réduirait le coût unitaire à 1/20 à 1/200 des méthodes classiques selon l'entreprise, à raison de centaines de milliers d'heures par semaine; un dataset supérieur à 1 To de trajectoires manipulation est annoncé pour fin 2026.

L'enjeu est structurel: contrairement aux LLM qui ont convergé sur le token texte, ou à l'autonomie automobile sur le nuage de points, la robotique généraliste ne dispose pas encore de représentation de base partagée, ce qui lie chaque modèle à un hardware, un objet et une tâche spécifiques. L'Object Trajectory tente de casser cette dépendance en permettant un déploiement cross-embodiment, sur objets variés et tâches non vues à l'entraînement, sans re-fine-tuning par configuration hardware. Pour un intégrateur ou un COO industriel, la promesse est un seul pipeline modèle couvrant un parc de robots hétérogènes, ce que les architectures actuelles liées aux trajectoires articulaires ne permettent pas.

RoboScience, fondée par Tian Ye (CEO) et Wang Tao (co-fondateur), est soutenue par JD.com, SenseTime, Dachen Caizhao, China Merchants Capital, Zero One Ventures et PuHua Capital, avec des centres de R&D à Pékin, Shenzhen, Suzhou et Hangzhou. Elle se positionne dans le même espace que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures génériques de Figure, mais avec une approche délibérément centrée sur l'objet plutôt que sur la trajectoire articulaire. La société évite la confrontation directe avec l'automatisation industrielle lourde et cible en priorité la grande distribution et la logistique e-commerce, où la diversité massive de SKU constitue un banc d'essai naturel pour la généralisation multi-objet. Des pilotes sont en cours dans le retail, la logistique et les services à la personne; une production en série de robots standard pour usages industriels et commerciaux est annoncée pour 2026, sans prix ni volumes publics.

Impact France/UE

L'avancée chinoise en modèles fondation cross-embodiment renforce la pression concurrentielle sur les acteurs européens de la robotique généraliste, sans impact opérationnel direct identifiable à court terme.

À lire aussi

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
1arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

IA physiqueOpinion
1 source
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
2TechNode 

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion
1 source
RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques
3Robotics Business Review 

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

La startup sud-coréenne RLWRLD a présenté la semaine dernière RLDX-1, un modèle de fondation conçu spécifiquement pour les mains robotiques à haut nombre de degrés de liberté (DoF). L'architecture multi-flux couvre les configurations single-arm, dual-arm et humanoïde, et intègre l'ensemble du cycle robotique : collecte de données, entraînement et déploiement. RLWRLD structure ses travaux autour d'un benchmark maison, DexBench, qui organise les défis industriels en cinq régimes de dextérité : diversité de préhension, précision spatiale, précision temporelle, précision de contact, et conscience du contexte. Pour chaque régime, un module dédié : un VLM (vision language model) fin-tuné sur des questions-réponses spatiales pour la localisation précise des contacts ; un module de mouvement extrayant des correspondances visuelles spatio-temporelles pour anticiper les objets en déplacement sur convoyeur ; un module physique qui traite couple et force tactile comme des flux séparés, permettant de prédire les transitions de contact avant qu'elles n'arrivent. Les données d'entraînement combinent téleopération synthétique et démonstrations humaines pour couvrir la manipulation en main (in-hand dexterity) inaccessible à la téléopération standard. L'enjeu est concret : les robots échouent encore sur des tâches en apparence banales comme verser du café depuis une cafetière qui s'allège, attraper un objet en mouvement sur un convoyeur, ou visser un écrou hexagonal avec des doigts. Ce "dernier kilomètre" de l'automatisation industrielle est précisément la cible de RLDX-1. L'architecture multi-flux, où chaque modalité (couple haute fréquence, frames vidéo, mémoire d'état) dispose de sa propre capacité gradient, répond à un problème réel d'optimisation : dans un transformer classique, la modalité dominante absorbe toute la capacité au détriment des autres. Cela dit, les affirmations de RLWRLD sur des performances "état de l'art" restent à valider indépendamment -- les vidéos de démonstration ne constituent pas des métriques de taux de succès en conditions industrielles réelles, et aucun cycle time chiffré n'est communiqué. RLWRLD s'inscrit dans une vague de startups cherchant à combler le fossé entre modèles d'action généralistes et déploiements industriels réels. Elle affronte des acteurs aux ressources bien supérieures : Physical Intelligence avec son modèle pi0 (fondée par d'anciens de Google et Stanford, 400 M$ levés en 2024), Figure AI avec son humanoïde Figure 03, ou encore Agility Robotics et 1X. En Europe, des acteurs comme Enchanted Tools (humanoïde Mirokaï) ou Wandercraft se positionnent sur la mobilité et l'assistance plutôt que sur la manipulation haute-dextérité, laissant ce créneau industriel quasi exclusivement aux acteurs américains et asiatiques. Aucun déploiement pilote chez un client industriel n'a été annoncé à ce stade par RLWRLD.

IA physiqueOpinion
1 source
OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches
4arXiv cs.RO 

OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches

Une équipe de chercheurs propose OxyGen, un système de gestion unifiée du cache KV (Key-Value) pour l'inférence des modèles VLA (Vision-Language-Action) sous parallélisme multi-tâches, décrit dans un preprint arXiv (2503.14371). Le travail cible en particulier π₀.₅, le modèle VLA de type Mixture-of-Transformers (MoT) développé par Physical Intelligence, une startup robotique fondée en 2023 par d'anciens chercheurs de Google et DeepMind. Sur un GPU NVIDIA GeForce RTX 4090, OxyGen atteint jusqu'à 3,7 fois la vitesse d'exécution par rapport à un système isolé classique, tout en maintenant simultanément un débit de plus de 200 tokens/s en génération de langage et une fréquence d'action de 70 Hz. Ces résultats ont également été validés sur un robot humanoïde physique embarquant un Jetson AGX Thor, la carte de calcul ciblée par NVIDIA pour les déploiements robotiques edge. Le problème que résout OxyGen est concret : lorsqu'un agent robotique doit exécuter simultanément plusieurs tâches (manipulation, conversation, mise à jour mémoire) à partir d'une même observation visuelle partagée, les systèmes d'inférence existants recalculent indépendamment le cache KV pour chaque tâche, générant une redondance coûteuse et une contention de ressources. Les auteurs identifient la gestion isolée des caches KV comme la cause racine et proposent deux optimisations clés : le partage cross-tâches du cache KV, qui élimine le recalcul des tokens d'observation lors du prefill, et le batching continu inter-frames, qui désolidarise la génération de langage à longueur variable de la génération d'actions à cadence fixe. Cette architecture est particulièrement structurante pour les intégrateurs qui cherchent à déployer des VLAs sur du matériel embarqué sans recourir à des serveurs GPU distants, un verrou majeur pour la commercialisation des robots à intelligence embarquée. Les modèles VLA de type MoT, dont π₀ (publié en octobre 2024) et π₀.₅ sont les représentants les plus visibles, routent les sorties hétérogènes vers des blocs transformer spécialisés tout en partageant un encodeur d'observation commun, ce qui rend techniquement possible le partage de cache KV inter-tâches proposé par OxyGen. Sur le plan concurrentiel, ce type d'optimisation d'inférence concerne aussi les VLAs de Google DeepMind (Gemini Robotics), OpenVLA, ainsi que les projets internes de Tesla pour Optimus Gen 3. Il s'agit à ce stade d'une contribution de recherche sans déploiement industriel annoncé, mais la validation sur robot réel avec Jetson AGX Thor embarqué indique une trajectoire claire vers le déploiement on-device à grande échelle.

IA physiqueOpinion
1 source