RoboScience lance Visics, un modèle fondation incarné universel, multi-morphologies, multi-objets et multi-tâches
Le 24 juin 2026, la startup chinoise RoboScience a dévoilé Visics, son modèle fondamental d'IA incarnée, en révélant pour la première fois l'architecture complète de son système VLOA (Vision-Language-Object-Action). Les démonstrations présentées couvrent des scénarios réels: assemblage de meubles, préhension dextre et lignes de production dynamiques. Le coeur technique est l'Object Trajectory, une représentation intermédiaire unifiée sous forme de trajectoires 3D en nuage de points, qui sert d'interface entre deux moteurs entraînés séparément: un modèle monde incarné, alimenté par des vidéos internet massives pour modéliser états d'objets, forces de contact et causalité physique; et un modèle d'opération universel, générant des commandes de contrôle multi-plateforme via le moteur de simulation propriétaire RoboMirage. Ce second module supporte corps rigides, pièces articulées et matériaux déformables, avec entrées vision, tactile et force. Le pipeline de données réduirait le coût unitaire à 1/20 à 1/200 des méthodes classiques selon l'entreprise, à raison de centaines de milliers d'heures par semaine; un dataset supérieur à 1 To de trajectoires manipulation est annoncé pour fin 2026.
L'enjeu est structurel: contrairement aux LLM qui ont convergé sur le token texte, ou à l'autonomie automobile sur le nuage de points, la robotique généraliste ne dispose pas encore de représentation de base partagée, ce qui lie chaque modèle à un hardware, un objet et une tâche spécifiques. L'Object Trajectory tente de casser cette dépendance en permettant un déploiement cross-embodiment, sur objets variés et tâches non vues à l'entraînement, sans re-fine-tuning par configuration hardware. Pour un intégrateur ou un COO industriel, la promesse est un seul pipeline modèle couvrant un parc de robots hétérogènes, ce que les architectures actuelles liées aux trajectoires articulaires ne permettent pas.
RoboScience, fondée par Tian Ye (CEO) et Wang Tao (co-fondateur), est soutenue par JD.com, SenseTime, Dachen Caizhao, China Merchants Capital, Zero One Ventures et PuHua Capital, avec des centres de R&D à Pékin, Shenzhen, Suzhou et Hangzhou. Elle se positionne dans le même espace que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures génériques de Figure, mais avec une approche délibérément centrée sur l'objet plutôt que sur la trajectoire articulaire. La société évite la confrontation directe avec l'automatisation industrielle lourde et cible en priorité la grande distribution et la logistique e-commerce, où la diversité massive de SKU constitue un banc d'essai naturel pour la généralisation multi-objet. Des pilotes sont en cours dans le retail, la logistique et les services à la personne; une production en série de robots standard pour usages industriels et commerciaux est annoncée pour 2026, sans prix ni volumes publics.
L'avancée chinoise en modèles fondation cross-embodiment renforce la pression concurrentielle sur les acteurs européens de la robotique généraliste, sans impact opérationnel direct identifiable à court terme.
Dans nos dossiers




