Aller au contenu principal
IA incarnée généraliste : RoboScience dévoile Visics
IA physiquePandaily1h

IA incarnée généraliste : RoboScience dévoile Visics

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

La société pékinoise RoboScience a officiellement présenté le 24 juin 2026 Visics, son modèle d'IA embarquée à usage général, accompagné d'une divulgation technique complète de l'architecture VLOA (Vision-Language-Object-Action). L'annonce s'appuie sur des démonstrations réelles couvrant l'assemblage de meubles, la préhension dextre et des opérations sur lignes d'assemblage dynamiques. L'architecture repose sur une représentation intermédiaire unifiée baptisée Object Trajectory, soit une trajectoire de nuage de points 3D centrée sur l'objet manipulé plutôt que sur les trajectoires articulaires propres à un robot donné. Deux moteurs fonctionnent en tandem : un Embodied World Model, entraîné sur de vastes volumes de vidéos Internet pour apprendre la physique des objets et les dynamiques de force, et un General Operation Model qui traduit ces trajectoires en commandes hardware-agnostiques. La simulation propriétaire RoboMirage, couplée à des pipelines d'annotation vidéo automatisés, permettrait de générer des données d'entraînement à un coût représentant 1/20 à 1/200 des approches conventionnelles, avec un objectif de plus d'un téraoctet de données de trajectoires de manipulation d'ici fin 2026. Le tour de table inclut JD.com, SenseTime, Fortune Capital, CMB Capital et Sinovation Ventures ; les centres de R&D et de production sont répartis entre Pékin, Shenzhen, Suzhou et Hangzhou.

L'approche VLOA tente de résoudre un problème structurel du secteur : les modèles de contrôle robotique sont aujourd'hui massivement liés à la cinématique d'un hardware précis, ce qui rend toute généralisation coûteuse et fragile. En découplant la couche cognitive (comprendre la tâche et l'objet) de la couche d'exécution (générer les commandes moteur), RoboScience affirme pouvoir déployer Visics sur des plateformes hétérogènes sans réentraînement complet. Si cela se confirme à l'échelle, l'impact pour les intégrateurs industriels serait significatif : fini le verrouillage sur un fournisseur de robot unique pour une cellule donnée. Les métriques de coût de données (1/200e du coût traditionnel) restent toutefois à vérifier indépendamment ; les vidéos de démonstration présentées sont sélectionnées et ne constituent pas un benchmark contradictoirement validé, un écart classique entre communication marketing et performance opérationnelle réelle.

RoboScience s'inscrit dans une vague dense de startups chinoises d'IA embarquée qui cherchent à contester le leadership américain dans l'humanoïde et la manipulation généraliste. Face à Physical Intelligence (Pi-0), à NVIDIA (GR00T N2), ou encore à Agibot et Unitree sur le segment domestic/industrial, la stratégie de RoboScience mise sur l'abstraction hardware plutôt que sur la verticalisation matériel-logiciel adoptée par Figure ou 1X Technologies. Les pilotes annoncés portent sur le commerce de détail, la logistique et l'aide aux personnes âgées, trois segments où la variabilité des tâches et des objets est élevée, ce qui constituerait un test pertinent de la généralisation revendiquée. Le lancement d'une production en série standardisée pour des applications industrielles et commerciales est prévu pour le second semestre 2026, sans calendrier précis communiqué à ce stade.

À lire aussi

RoboScience lance Visics, un modèle fondation incarné universel, multi-morphologies, multi-objets et multi-tâches
136Kr 

RoboScience lance Visics, un modèle fondation incarné universel, multi-morphologies, multi-objets et multi-tâches

Le 24 juin 2026, la startup chinoise RoboScience a dévoilé Visics, son modèle fondamental d'IA incarnée, en révélant pour la première fois l'architecture complète de son système VLOA (Vision-Language-Object-Action). Les démonstrations présentées couvrent des scénarios réels: assemblage de meubles, préhension dextre et lignes de production dynamiques. Le coeur technique est l'Object Trajectory, une représentation intermédiaire unifiée sous forme de trajectoires 3D en nuage de points, qui sert d'interface entre deux moteurs entraînés séparément: un modèle monde incarné, alimenté par des vidéos internet massives pour modéliser états d'objets, forces de contact et causalité physique; et un modèle d'opération universel, générant des commandes de contrôle multi-plateforme via le moteur de simulation propriétaire RoboMirage. Ce second module supporte corps rigides, pièces articulées et matériaux déformables, avec entrées vision, tactile et force. Le pipeline de données réduirait le coût unitaire à 1/20 à 1/200 des méthodes classiques selon l'entreprise, à raison de centaines de milliers d'heures par semaine; un dataset supérieur à 1 To de trajectoires manipulation est annoncé pour fin 2026. L'enjeu est structurel: contrairement aux LLM qui ont convergé sur le token texte, ou à l'autonomie automobile sur le nuage de points, la robotique généraliste ne dispose pas encore de représentation de base partagée, ce qui lie chaque modèle à un hardware, un objet et une tâche spécifiques. L'Object Trajectory tente de casser cette dépendance en permettant un déploiement cross-embodiment, sur objets variés et tâches non vues à l'entraînement, sans re-fine-tuning par configuration hardware. Pour un intégrateur ou un COO industriel, la promesse est un seul pipeline modèle couvrant un parc de robots hétérogènes, ce que les architectures actuelles liées aux trajectoires articulaires ne permettent pas. RoboScience, fondée par Tian Ye (CEO) et Wang Tao (co-fondateur), est soutenue par JD.com, SenseTime, Dachen Caizhao, China Merchants Capital, Zero One Ventures et PuHua Capital, avec des centres de R&D à Pékin, Shenzhen, Suzhou et Hangzhou. Elle se positionne dans le même espace que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures génériques de Figure, mais avec une approche délibérément centrée sur l'objet plutôt que sur la trajectoire articulaire. La société évite la confrontation directe avec l'automatisation industrielle lourde et cible en priorité la grande distribution et la logistique e-commerce, où la diversité massive de SKU constitue un banc d'essai naturel pour la généralisation multi-objet. Des pilotes sont en cours dans le retail, la logistique et les services à la personne; une production en série de robots standard pour usages industriels et commerciaux est annoncée pour 2026, sans prix ni volumes publics.

UEL'avancée chinoise en modèles fondation cross-embodiment renforce la pression concurrentielle sur les acteurs européens de la robotique généraliste, sans impact opérationnel direct identifiable à court terme.

IA physiqueOpinion
1 source
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
2TechNode 

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion
1 source
Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots
3Interesting Engineering 

Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots

Alibaba a annoncé en juin 2026 le lancement de la suite Qwen-Robot, sa première famille de modèles d'IA dite "embodied", développée par son Tongyi Lab et actuellement en phase de pilote avec des clients entreprise d'Alibaba Cloud. La suite repose sur trois modèles spécialisés : Qwen-RobotNav pour la navigation et le suivi de cibles, Qwen-RobotManip pour la manipulation d'objets physiques, et Qwen-RobotWorld pour la modélisation de l'environnement et la prédiction des conséquences d'actions. Le groupe a également publié Qwen-RobotClaw, un framework d'agents qui expose les modèles Qwen-Robot comme outils accessibles à des agents LLM, ainsi que Chat2Robot, une plateforme open-source en navigateur pour tester des interactions avec des robots physiques. Sur le plan des performances déclarées, Qwen-RobotManip a été entraîné sur plus de 38 000 heures de données open-source et a obtenu sur le benchmark RoboChallenge un process score de 59,83 avec un taux de succès de tâches de 45 % dans la catégorie "généraliste". La démonstration de navigation a mis en scène un quadrupède Unitree Go2 équipé d'un NVIDIA Jetson Thor et d'une seule caméra basse résolution, atteignant une latence d'inférence de 196 millisecondes dans un appartement inconnu, sans carte préchargée. Ces résultats méritent d'être lus avec prudence : un taux de succès de 45 % sur un benchmark réel, s'il est confirmé en conditions non contrôlées, reste modeste mais significatif pour un modèle généraliste. Le vrai signal industriel n'est pas le score brut, c'est l'approche architecturale : au lieu de fusionner indifféremment données de navigation, bras robotiques, caméras et véhicules autonomes, Alibaba a opté pour une spécialisation par modalité, évitant les conflits d'apprentissage que génère le mélange hétérogène de données physiques. Pour les intégrateurs et décideurs B2B, la disponibilité via Alibaba Cloud en pilote marque un premier pas vers la commercialisation d'une couche d'IA robotique as-a-service, potentiellement utilisable sur du matériel tiers sans pipeline de training propriétaire. Alibaba entre dans une course déjà engagée par plusieurs acteurs de premier plan. Aux États-Unis, Google DeepMind fait avancer Gemini Robotics sur des architectures Vision-Language-Action (VLA) similaires, tandis que Physical Intelligence (Pi-0), Figure AI (Figure 03) et Boston Dynamics misent sur des pipelines de données propriétaires et des déploiements industriels réels. NVIDIA pousse son framework GR00T N2 comme socle hardware-logiciel pour l'humanoid. Côté chinois, Unitree et Agibot ont déjà des robots en production, mais sans la couche LLM intégrée qu'Alibaba apporte. L'open-sourcing de Chat2Robot et les pilotes cloud suggèrent une stratégie d'écosystème : capter les développeurs et intégrateurs autour des modèles Qwen-Robot avant que le marché des robots généraux ne se consolide, probablement d'ici 2027-2028 selon les timelines annoncées par les principaux concurrents.

UEL'entrée d'Alibaba dans l'IA robotique cloud-as-a-service intensifie la pression concurrentielle mondiale, sans déploiement ni partenariat européen annoncé à ce stade.

💬 45 % de réussite sur un benchmark généraliste, c'est pas brillant, je sais, mais tu regardes au mauvais endroit. Le vrai signal, c'est l'architecture : trois modèles spécialisés par modalité plutôt qu'un gros fourre-tout, parce que mélanger navigation, manipulation et caméras dans le même pipeline, ça crée des conflits d'apprentissage que tout le monde a sous-estimés depuis le début. Alibaba ne cherche pas à gagner les benchmarks robotiques, ils cherchent à s'installer comme la couche cloud entre le matériel tiers et l'IA physique avant que le marché se consolide.

IA physiqueOpinion
1 source
Zibian Robotics lance WALL-B, un modèle d'IA incarnée destiné au déploiement à domicile
4Pandaily 

Zibian Robotics lance WALL-B, un modèle d'IA incarnée destiné au déploiement à domicile

Le 21 avril 2026, Zibian Robotics a annoncé WALL-B, un modèle d'IA incarnée reposant sur une architecture qu'elle nomme World Unified Model (WUM), en marge d'une initiative "robots pour la maison". Contrairement aux systèmes Vision-Language-Action (VLA) classiques, qui traitent séquentiellement perception visuelle, raisonnement et contrôle moteur, WALL-B est entraîné en fusion native sur quatre modalités (vision, langage, mouvement, prédiction physique) et revendique trois propriétés clés : multimodalité native, modélisation de la dynamique physique du monde, et auto-amélioration après échec. Le corpus d'entraînement intègre des données issues de centaines de foyers réels, et Zibian annonce un déploiement dans de vrais domiciles d'ici 35 jours, avec recrutement d'utilisateurs déjà en cours. Des précisions techniques et les plans d'écosystème seront révélés le 27 avril à la première conférence sur les applications IA du Guangdong. L'intérêt architectural de l'approche WUM est réel : les VLA souffrent d'une perte d'information à chaque interface entre modules, et leur incapacité à modéliser la physique reste un obstacle documenté au sim-to-real. Un entraînement unifié sur ces quatre flux pourrait réduire ce fossé, notamment pour la manipulation en environnement non structuré, défi central du déploiement résidentiel. Les affirmations de "premier modèle au monde" de ce type restent invérifiables à ce stade, et l'annonce d'un déploiement en 35 jours demeure un engagement commercial non confirmé ; la robustesse à grande échelle dans des foyers variés, avec leurs contraintes de lumière, d'encombrement et de comportements imprévisibles, constitue une barre difficile à franchir. Zibian s'inscrit dans un segment où la concurrence s'intensifie rapidement : Figure AI (Figure 03), Agility Robotics (Digit), Unitree et Agibot développent tous des plateformes polyvalentes pour environnements non structurés. En Chine, l'écosystème robotique bénéficie d'un fort soutien institutionnel, et le choix du Guangdong comme vitrine situe Zibian dans l'orbite de Shenzhen. L'intégration de l'anonymisation visuelle embarquée et d'une gestion explicite du consentement utilisateur répond aux exigences réglementaires croissantes, mais aussi à l'enjeu d'acceptabilité sociale des robots dans l'espace privé. Les prochaines semaines seront décisives pour évaluer si WALL-B franchit la frontière entre annonce et produit déployé en conditions réelles.

IA physiqueOpinion
1 source