Aller au contenu principal
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
IA physiquearXiv cs.RO2j

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source.

Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas.

Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

Impact France/UE

Les poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 Le point de vue du dev

8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

À lire aussi

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
1arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

IA physiqueOpinion
1 source
IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite
2arXiv cs.RO 

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

Des chercheurs présentent SAGE (Sandbox-Abstracted Grounded Experience), un framework pour la navigation autonome de robots en environnement ouvert, publié en mai 2026 sur arXiv (2605.10118). Le constat de départ : les Vision-Language Models (VLMs) disposent de fortes capacités de raisonnement général, mais échouent en navigation embodied faute de données alignées vision-contrôle en monde réel. Les simulateurs photoréalistes (Habitat, Isaac Sim) offrent une alternative moins coûteuse, mais les politiques apprises peinent à se transférer vers des environnements physiques. SAGE résout ce problème en entraînant les agents dans des abstractions sémantiques contraintes par la physique plutôt que dans des décors photoréalistes, imitant le mécanisme de "simulation mentale" humain où l'on planifie dans le simplifié avant d'exécuter dans le réel. Le système fonctionne en trois phases : Genesis (génération d'environnements sémantiques variés), Evolution (apprentissage par renforcement avec un mécanisme d'écrêtage adaptatif asymétrique) et Navigation (transfert vers le contrôle robot réel). Sur le benchmark A-EQA (Embodied Question Answering), SAGE atteint 53,21 % de taux de succès LLM-Match, soit +9,7 points par rapport à la baseline. La validation inclut un déploiement préliminaire sur robot physique en environnement intérieur. Ce résultat valide une hypothèse contre-intuitive pour le secteur : réduire le réalisme visuel de la simulation peut améliorer le transfert sim-to-real plutôt que le compromettre. La majorité des frameworks actuels parient sur la fidélité photoréaliste pour combler le reality gap ; SAGE inverse ce paradigme. Pour les intégrateurs et décideurs industriels, la démarche ouvre une voie moins gourmande en compute et en données terrain pour déployer des agents de navigation autonome dans des espaces non structurés (entrepôts, hôpitaux, bureaux). Le mécanisme d'écrêtage adaptatif asymétrique de la phase Evolution représente également une contribution technique ciblée : il stabilise l'apprentissage par renforcement lorsque les distributions d'expériences sont déséquilibrées, un point de friction récurrent dans les pipelines de navigation embodied. La navigation embodied assistée par VLMs est en forte expansion depuis 2023, portée par des travaux comme NavGPT, EmbodiedGPT et les architectures VLA (Vision-Language-Action). Le reality gap y reste un obstacle structurel : les politiques entraînées sur des datasets de simulation (Gibson, Matterport3D) généralisent rarement aux environnements réels, contraignant les équipes à des campagnes de collecte terrain coûteuses. SAGE propose une troisième voie entre simulation photoréaliste et données terrain. La validation physique reste toutefois préliminaire et limitée à un contexte indoor, ce qui positionne encore ce travail dans la catégorie recherche académique expérimentale plutôt que produit déployable. Aucune comparaison directe avec des frameworks établis comme Habitat 3.0 ou Isaac Lab n'est fournie dans cette version initiale, ce qui compliquera le positionnement pour les équipes R&D souhaitant adopter SAGE sans reproduire les expériences de zéro.

IA physiqueActu
1 source
π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes
3arXiv cs.RO 

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes

Physical Intelligence, le laboratoire californien fondé en 2023 par d'anciens chercheurs de Google DeepMind et Stanford, publie π0.7 (pi-zéro-point-sept), un nouveau modèle de fondation robotique généraliste présenté dans un preprint arXiv (2604.15483) daté d'avril 2026. Le modèle démontre des capacités zero-shot sur des tâches multi-étapes en environnements inconnus : manipulation d'appareils de cuisine variés, pliage de linge sans avoir vu la tâche en entraînement, et opération d'une machine à expresso à un niveau de performance comparable à des modèles spécialisés entraînés par reinforcement learning. La généralisation cross-embodiment, c'est-à-dire la capacité à transférer des comportements entre plateformes robotiques différentes sans réentraînement dédié, est présentée comme une propriété émergente du système. L'innovation centrale de π0.7 est un mécanisme de conditionnement contextuel multimodal étendu. Là où la plupart des VLA (Vision-Language-Action models) se contentent d'une instruction textuelle, π0.7 reçoit en entrée de prompt des métadonnées sur la qualité de l'exécution, des images de sous-objectifs intermédiaires, et des informations sur la stratégie à adopter. Ce conditionnement riche permet d'intégrer à l'entraînement des données hétérogènes : démonstrations humaines, données autonomes potentiellement sous-optimales incluant des échecs, et données issues de sources non-robotiques. C'est un levier direct sur le problème du sim-to-real gap et sur le coût de collecte de données de qualité, deux freins majeurs au déploiement industriel. Pour un intégrateur ou un COO industriel, la promesse est concrète : un modèle qui fonctionne correctement sans fine-tuning coûteux sur chaque nouvelle tâche. Physical Intelligence avait introduit π0 fin 2024 comme premier modèle de fondation robotique à architecture flow matching, capable de piloter des bras manipulateurs avec haute dextérité. π0.7 constitue une évolution orientée généralité et pilotabilité plutôt que spécialisation. Dans le paysage concurrentiel, ce positionnement affronte directement Google DeepMind avec RT-2 et ses successeurs, Figure AI avec son modèle Helix, ainsi qu'1X Technologies. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un preprint académique sans validation industrielle publiée. Les évaluations portent sur plusieurs plateformes robotiques en laboratoire, et les prochaines étapes probables incluent des collaborations avec des fabricants de robots pour valider le passage à l'échelle en conditions réelles.

IA physiqueOpinion
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
4arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

IA physiqueOpinion
1 source