IA physiqueRobotics Business Review2h

Pourquoi l'IA physique 2.0 a besoin d'un retour à la réalité

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

L'intelligence artificielle physique amorce une transition conceptuelle que le secteur commence à nommer "Physical AI 2.0". La première génération, aujourd'hui dominante, repose sur une logique de volume : des milliards de séquences vidéo et textuelles, complétées par des simulateurs hyperréalistes comme la plateforme Cosmos de NVIDIA, permettent d'entraîner des systèmes robotiques avant tout déploiement réel. Ce paradigme, qualifié de "vision-first", postule qu'avec suffisamment de caméras et de puissance de calcul, un robot peut modéliser et anticiper son environnement. Mais cette hypothèse se révèle fragile dès que les capteurs sont éblouis, que des objets sont occultés ou que les données sont bruitées et contradictoires. La "Physical AI 2.0" propose d'introduire une couche supplémentaire dans la pile logicielle : la récupération d'état physique (physical state recovery), qui reconstruit l'état réel du monde à partir de données incomplètes ou dégradées, avant même que le raisonnement de haut niveau n'entre en jeu. L'architecture cible comprend quatre briques en boucle fermée : des modèles du monde nourris par la simulation et l'expérience passée ; la récupération d'état physique ; un module de raisonnement qui sélectionne une intention ; et l'action, exécutée dans des contraintes de sécurité strictes. Le raisonnement n'actionne pas directement les effecteurs : il propose une intention, que la logique de planification et de sécurité traduit ensuite en mouvement borné.

L'enjeu industriel est concret. Un robot qui mal-estime l'état de son environnement ne peut pas raisonner correctement, même si son modèle sous-jacent est de haute qualité : une mauvaise observation produit une erreur de raisonnement confiante, pas simplement une incertitude. La distinction clé est entre "cas difficile" et "cas mal observé". Un benchmark peut identifier qu'un système échoue dans des scénarios d'occlusion ou de comportements atypiques d'usagers de la route, sans pour autant corriger l'observation elle-même. Traiter la récupération d'état comme un module dédié, potentiellement alimenté par des capteurs spécialisés comme le radar ou des capteurs tactiles, évite à chaque nouveau robot de réapprendre les lois élémentaires de la physique depuis zéro. Pour les intégrateurs et décideurs B2B, la conséquence pratique est que l'unité de compétition dans l'IA physique n'est plus le modèle seul, mais l'ensemble de la chaîne : captation, simulation, entraînement de politique, orchestration, sécurité embarquée et boucle de retour terrain.

Ce cadrage s'inscrit dans un débat plus large sur les limites des approches end-to-end dans la robotique et l'autonome. NVIDIA a investi massivement dans Cosmos pour normaliser la simulation physique, et plusieurs laboratoires explorent des architectures de type VLA (Vision-Language-Action) qui intègrent partiellement ces problématiques. L'argument central du texte est qu'agrandir indéfiniment des modèles bout-en-bout n'est pas la seule voie : une couche dédiée à la récupération d'état physique serait à la fois plus efficiente et plus robuste. À noter que ce texte est publié en amont de la conférence RoboBusiness 2026 et constitue essentiellement un cadrage conceptuel d'un positionnement produit, sans annonce ni déploiement commercial à la clé. Aucune métrique de performance concrète n'est avancée pour étayer la thèse, ce qui limite l'évaluation indépendante des affirmations.

Dans nos dossiers

IA physique & VLA

À lire aussi

1arXiv cs.RO

Auto-cohérence guidée par la géométrie pour l'IA physique

KeyStone est une méthode de cohérence automatique à l'inférence pour les modèles d'IA physique basés sur la diffusion, présentée dans un preprint arXiv (arXiv:2605.08638) publié en mai 2026. Le principe opérationnel : au lieu de retenir une seule trajectoire d'action par round d'inférence, KeyStone génère K trajectoires candidates en parallèle depuis un contexte de modèle partagé, les regroupe par clustering dans l'espace d'action continu, puis retourne le médoïde du cluster le plus dense. Aucun modèle additionnel n'est requis. Les auteurs rapportent une amélioration du taux de succès allant jusqu'à 13,3 % par rapport à l'échantillonnage sur trajectoire unique, avec une latence additionnelle négligeable. La méthode a été validée sur plusieurs classes d'architectures : vision-language-action models (VLAs) et world-action models (WAMs). Le code est publié en open source sur GitHub. L'enjeu central est la fragilité intrinsèque des politiques diffusion-based : chaque inférence est stochastique, et retenir une mauvaise trajectoire compromet l'ensemble de l'épisode suivant, défaut qui se cumule sur des séquences longues. KeyStone exploite une propriété géométrique spécifique aux systèmes robotiques : la distance euclidienne entre chunks d'action reflète directement la similarité physique entre trajectoires, contrairement aux espaces token ou pixel où cette métrique est sémantiquement vide et nécessite un modèle de scoring appris. La sélection est donc principled et judge-free, sans coût d'entraînement. Pour un intégrateur ou un ingénieur robotique, l'argument est concret : gain de performance sans pipeline additionnel, sans latence notable. Ce dernier point repose sur le fait que l'inférence par diffusion est memory-bandwidth bound, laissant de la capacité de calcul disponible pour exécuter K chaînes en parallèle dans le même budget temporel. KeyStone s'inscrit dans l'écosystème des politiques de contrôle apprises pour la manipulation et la navigation physique, dont les représentants actifs sont pi0 de Physical Intelligence, OpenVLA (UC Berkeley), Octo et Diffusion Policy. Ces architectures génèrent des séquences d'action par diffusion ou flow matching, une approche en forte expansion mais exposée précisément à la variabilité stochastique que KeyStone cible. La méthode se positionne comme une amélioration orthogonale, applicable sans réentraînement à tout modèle de cette famille. Le preprint ne mentionne ni déploiement terrain, ni partenaire industriel, ni timeline commerciale : il s'agit d'une contribution de recherche académique, pas d'un produit. La mise en open source immédiate du code accélérera néanmoins l'évaluation par les équipes qui testent des pipelines VLA dans des environnements semi-structurés ou industriels.

IA physiqueOpinion

1 source

2arXiv cs.RO

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps. L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe. Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

IA physiquePaper

1 source

3Robotics Business Review

Built Robotics et Penn xLAB s'associent pour développer une IA physique dédiée à la construction

Built Robotics, spécialiste américain de l'automatisation des engins de chantier fondé en 2016, s'associe au Safe Autonomous Systems Lab (xLAB) de l'Université de Pennsylvanie pour développer des modèles d'IA physiques adaptés aux environnements de construction. Le partenariat repose sur le déploiement de petits robots mobiles équipés de suites de capteurs, chargés de collecter des données sur des chantiers actifs : postures corporelles atypiques, occultations, conditions d'éclairage dégradées, comportements humains imprévus. Ces cas limites viennent enrichir un jeu de données déjà conséquent : Built revendique plus de 50 000 heures d'opérations terrain, l'installation de plus de 3 gigawatts de panneaux solaires et une présence sur plus de 40 sites. Depuis son entrée sur le marché du solaire à grande échelle en 2023 avec le RPD 35 (Robotic Pile Driver, son robot de battage de pieux autonome), la société a accumulé des volumes de données opérationnelles dans certains des environnements industriels les plus contraignants du secteur. L'objectif déclaré est de construire un "world foundation model" pour la coexistence sûre entre machines autonomes et opérateurs humains sur site. L'enjeu est structurant pour l'industrie de la construction, l'un des secteurs les plus accidentogènes au monde et l'un des derniers à amorcer sa transition vers l'autonomie robotique à grande échelle. Le partenariat cible explicitement le "sim-to-real gap" : l'écart entre la performance validée en environnement contrôlé et la robustesse réelle sur chantier, avec des centaines d'ouvriers sur des sites pouvant s'étendre sur plusieurs milliers d'acres. Le modèle edge AI de détection de personnes développé en interne par Built sera affiné à partir de ces données d'edge cases, avec l'ambition d'atteindre une perception dite "surhumaine", capable de détecter des dangers transitoires qu'un opérateur humain pourrait manquer. Pour les intégrateurs et les décideurs industriels, ce travail représente un pas vers une certifiabilité effective des systèmes autonomes outdoor, domaine où les standards de sécurité restent embryonnaires. Built est par ailleurs membre de l'Association of Equipment Manufacturers (AEM) et siège au Futures Council de l'organisation, dont Erol Ahmed, VP communications de Built, assure la présidence. Built Robotics a été fondé par Noah Ready-Campbell, diplômé de Penn, ce qui explique en partie la fluidité du rapprochement avec xLAB, dirigé par Rahul Mangharam, professeur en ingénierie électrique et des systèmes. Sur le plan concurrentiel, le segment des robots de construction autonomes voit émerger plusieurs acteurs : Caterpillar et Komatsu investissent dans l'autonomie de leurs engins lourds, tandis que des startups comme Dusty Robotics (traçage au sol) ou Trimble (géolocalisation de chantier) avancent sur des niches complémentaires. En Europe, des initiatives restent plus discrètes sur ce front spécifique. La phase initiale du pilote de recherche porte sur le déploiement du modèle edge AI de Built sur des chantiers actifs avec cartographie haute fidélité, avant une montée en puissance vers un modèle de fondation plus généraliste dont les contours et la timeline publique n'ont pas encore été précisés.

UEL'émergence d'un standard de perception 'surhumaine' et de certifiabilité pour robots autonomes outdoor pourrait servir de référence aux acteurs européens de la construction, encore en retrait sur ce segment spécifique.

IA physiqueOpinion

1 source

4arXiv cs.RO

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

IA physiqueOpinion

1 source