Aller au contenu principal
RLWRLD désignée Pionnière Technologique du Forum Économique Mondial pour ses avancées en infrastructure d'IA physique
IA physiqueRobotics & Automation News3h

RLWRLD désignée Pionnière Technologique du Forum Économique Mondial pour ses avancées en infrastructure d'IA physique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

RLWRLD, société spécialisée en "physical AI", a été sélectionnée parmi les 100 Technology Pioneers 2026 du Forum Économique Mondial (WEF). La distinction, attribuée annuellement depuis 2000 à des entreprises technologiques jugées susceptibles d'exercer un impact structurant sur les industries mondiales, récompense ici le développement de RLDX-1, un modèle de fondation en robotique (Robotics Foundation Model) propriétaire. Le WEF cite RLWRLD dans son analyse officielle comme acteur positionné pour transformer l'infrastructure de l'IA physique à long terme. L'article source est toutefois un communiqué court, sans données techniques publiées sur RLDX-1 : payload, degrés de liberté contrôlés, benchmarks de performance ou sites de déploiement ne sont pas mentionnés.

Il faut distinguer ici label de visibilité et validation technique : le programme WEF Pioneer est un exercice de sélection éditoriale, pas une certification de performance. Cela dit, pour une startup dans l'espace des foundation models robotiques, l'intégration au réseau WEF représente un accès réel aux décideurs industriels et aux fonds d'investissement à l'échelle mondiale. Le marché des modèles de fondation pour robots physiques est précisément le terrain où se joue la prochaine phase de la course aux humanoïdes et aux bras industriels autonomes.

Le secteur des Robotics Foundation Models est en forte compétition en 2026, avec Physical Intelligence (Pi-0), NVIDIA (GR00T N2), et les propres modèles intégrés de Figure AI et 1X. RLWRLD se positionne comme couche d'infrastructure mutualisée, à destination potentiellement de plusieurs constructeurs, plutôt que comme fabricant de hardware. Les prochaines étapes à surveiller : publication de benchmarks sur RLDX-1, annonces de partenariats OEM, et levées de fonds post-label WEF.

À lire aussi

IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3
1NVIDIA Developer Blog 

IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3

NVIDIA a annoncé Cosmos 3, un modèle fondamental de frontière dédié à l'IA physique, conçu pour doter les robots, les véhicules autonomes et les espaces intelligents d'une capacité de compréhension du monde réel. L'architecture de Cosmos 3 repose sur trois composantes intégrées : des modèles de raisonnement physique, des modèles de monde et des modèles d'action, permettant à un système de percevoir son environnement, d'anticiper les événements à venir et de produire des séquences d'actions adaptées à une incarnation physique et à une tâche spécifiques. Ce type d'approche unifiant raisonnement, simulation et action au sein d'un seul modèle fondamental représente un changement de paradigme pour les intégrateurs robotiques. Jusqu'ici, ces trois briques étaient souvent développées séparément, ce qui générait des lacunes au niveau du transfert sim-to-real. Un modèle entraîné à raisonner sur la physique du monde avant de planifier l'action offre théoriquement une meilleure généralisation sur des tâches non vues en production, bien que les benchmarks industriels indépendants restent à confirmer. NVIDIA avait introduit la plateforme Cosmos en janvier 2025 au CES, positionnant alors ses modèles génératifs de monde comme infrastructure pour les fabricants de robots et les constructeurs automobiles. Cosmos 3 s'inscrit dans cette trajectoire d'itération rapide, face à une concurrence directe : Google DeepMind avec les modèles Gemini Robotics et RT-2, Physical Intelligence (pi) avec Pi-0, et Figure AI avec ses propres VLA. L'enjeu pour NVIDIA est de s'imposer comme couche d'infrastructure fondamentale de l'IA physique, au-delà du seul matériel GPU.

UENVIDIA Cosmos 3 pourrait devenir une couche d'infrastructure fondamentale adoptée par les intégrateurs robotiques européens (ABB, KUKA, Stäubli), mais l'impact réel dépendra des benchmarks industriels indépendants et des conditions d'accès à la plateforme.

💬 Le vrai pari de NVIDIA avec Cosmos 3, c'est de s'imposer comme couche d'infrastructure logicielle de l'IA physique, au-delà du GPU. Raisonner sur la physique avant de planifier l'action, et unifier les trois briques dans un seul fondamental, c'est exactement ce qui manquait pour réduire les galères de transfert sim-to-real qui plombent les déploiements robotiques depuis des années. Sans benchmarks industriels indépendants, ça reste du déclaratif, mais la direction est la bonne.

IA physiqueOpinion
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
2arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

IA physiqueOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
3arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA
4arXiv cs.RO 

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Une équipe de chercheurs publie VISTA (Vision-grounded and Physics-Validated Adaptation), un framework visant à entraîner des modèles Vision-Language-Action (VLA) à partir de données collectées via l'Universal Manipulation Interface (UMI). L'UMI permet une collecte robotique à grande échelle sans téléopération hardware-spécifique, mais son exploitation pour les VLA bute sur deux incompatibilités identifiées par les auteurs : les caméras fisheye montées au poignet génèrent une distorsion radiale sévère, hors distribution pour les modèles de vision pré-entraînés ; et les trajectoires humaines enregistrées violent fréquemment les limites cinématiques du robot ou dépassent la bande passante du contrôleur, enseignant ainsi des actions physiquement irréalisables. VISTA répond avec trois composants : UMI-VQA, un premier dataset VQA à grande échelle conçu spécifiquement pour les vues fisheye au poignet ; un pipeline de validation physique scorant chaque trajectoire sur la continuité, le risque d'auto-collision et la fidélité d'exécution ; et une recette d'entraînement en deux étapes combinant ancrage vision-langage et prédiction d'actions. Le modèle, les données et le pipeline sont publiés en open source sous forme de preprint arXiv. L'enjeu est directement opérationnel : les VLA actuels souffrent d'un écart persistant entre démonstration et déploiement réel. VISTA apporte une réponse méthodologique en filtrant les trajectoires défectueuses avant l'entraînement, plutôt qu'en espérant que le modèle les absorbe. Les auteurs montrent que les scores de validation physique sont fortement prédictifs du succès en déploiement, ce qui plaide pour une approche data-quality-first plutôt que data-volume-first, un argument qui contredit la logique dominante du secteur. En simulation et sur des tâches réelles de manipulation, VISTA surpasse des baselines solides incluant π0.5 (Physical Intelligence), LingBot-VLA et Wall-X. Pour un intégrateur ou un décideur industriel, cela valide une voie vers des pipelines de collecte scalables via UMI, compatibles avec les VLA modernes, sans recourir à un hardware propriétaire coûteux. L'UMI avait été conçu initialement pour découpler la collecte de données du hardware robotique spécifique, mais son intégration aux VLA restait largement non documentée à grande échelle. Physical Intelligence a popularisé l'approche VLA avec π0 et π0.5 ; Figure AI, 1X et Apptronik misent sur des architectures concurrentes. VISTA s'attaque à un goulot d'étranglement rarement traité en publication : la qualité intrinsèque des données d'entraînement avant qu'elles n'entrent dans le pipeline. En libérant pipeline de validation, dataset UMI-VQA et modèle pré-entraîné, les auteurs positionnent VISTA comme un outil d'infrastructure pour la communauté robotique cherchant à industrialiser la collecte et le filtrage de données manipulation, en amont des choix d'architecture VLA.

IA physiqueOpinion
1 source