Aller au contenu principal

Dossier World models — page 2

239 articles · page 2 sur 5

Les world models pour l'IA physique : Cosmos, Genie, V-JEPA, simulation différentiable comme alternative au sim2real classique.

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente
51arXiv cs.RO RechercheOpinion

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Une équipe de chercheurs a publié fin juin 2026 SC3-Eval (arXiv:2606.18610), un cadre d'évaluation des politiques de manipulation robotique basé sur la génération vidéo cohérente. Le principe : plutôt que de rouler une politique en conditions réelles, un modèle fondamental vidéo pré-entraîné simule les trajectoires du robot et prédit si la tâche aboutit. SC3-Eval repose sur trois mécanismes de cohérence complémentaires. La cohérence dynamique avant-inverse entraîne simultanément le modèle à prédire les images à partir des actions et à récupérer les actions à partir des images, ancrant les rollouts à un espace d'action physiquement plausible. La cohérence multi-vue oblige le modèle à reconstruire chaque caméra depuis les autres, maintenant la cohérence spatiale sur de longs épisodes. Enfin, à l'inférence, un signal d'incertitude par chunk d'actions interrompt les rollouts dont les images générées divergent des actions demandées. Évalué sur sept politiques vision-langage-action (VLA) réelles, SC3-Eval atteint une corrélation de Pearson de 0,929 avec les résultats terrain et un MMRV de 0,119, surpassant trois baselines vidéo existantes. Ce résultat a une portée pratique immédiate : évaluer une politique de manipulation en conditions réelles est coûteux, lent et difficile à paralléliser. Un corrélat simulé à 0,929 constitue un substitut crédible pour filtrer les candidats politiques avant déploiement physique, réduisant potentiellement les cycles d'itération de plusieurs semaines à quelques heures. Fait notable, SC3-Eval reproduit fidèlement les modes d'échec observés en réel, permettant un diagnostic fin au niveau tâche plutôt qu'un classement agrégé, ce qui est plus actionnable pour un intégrateur. Le cadre se généralise par ailleurs à des tâches hors distribution d'entraînement, un point critique pour les équipes qui développent des politiques généralistes. Ce travail s'inscrit dans la vague d'adoption des modèles VLA commerciaux et de recherche, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix, OpenVLA, dont l'évaluation standardisée reste un goulot d'étranglement reconnu. Les approches alternatives passent par des simulateurs physiques classiques (MuJoCo, Isaac Sim) ou des rollouts réels coûteux ; les world models vidéo comme UniSim ou IRASim avaient amorcé cette direction mais se heurtaient à la dérive autorégressiveet à l'incohérence multi-caméras que SC3-Eval adresse directement. Le code et les données ne sont pas encore publiés au moment de la préprint, ce qui limite l'adoption immédiate. La prochaine étape logique sera de valider la méthode sur des plateformes humanoïdes à plus haute dimensionnalité, où le coût d'évaluation réelle est encore plus prohibitif.

1 source
Luo Jianlán : le vrai Scaling Law de la robotique naît dans la boucle fermée du déploiement réel
5236Kr 

Luo Jianlán : le vrai Scaling Law de la robotique naît dans la boucle fermée du déploiement réel

Luo Jianlan, ancien doctorant à l'université de Berkeley sous la direction de Sergey Levine - figure fondatrice de l'intelligence incarnée - et ex-chercheur chez Google X puis DeepMind, a rejoint il y a quatorze mois l'Institut de Shanghai pour l'apprentissage et l'intelligence (创智学院) et Zhiyuan Robotics (AgiBot) en qualité de directeur scientifique. Il détaille dans une interview publiée par 36Kr Hardware trois jalons techniques développés depuis son retour : SOP (Scalable Online Post-training), une infrastructure de retour de données en temps réel depuis les robots terrain vers le cloud d'entraînement ; LWD (Learning While Deploying), qui supprime la frontière rigide entraînement/déploiement pour permettre une évolution continue des robots dans des épiceries ou entrepôts réels ; et τ0-WM, un world model codéveloppé avec l'Institut de Shanghai, qui utilise la prédiction vidéo non pas comme fin en soi mais comme simulateur physique conditionné par l'action - comparant plusieurs trajectoires candidates avant exécution pour éviter, par exemple, de faire tomber un objet fragile positionné en bordure de table. La contribution principale de Luo est son refus d'appliquer mécaniquement la Scaling Law des grands modèles de langage aux robots incarnés. Selon lui, la majorité des "modèles fondamentaux incarnés" actuellement annoncés par des équipes chinoises relèvent en réalité du mid-training ou du fine-tuning appliqué à des bases open-source existantes, faute de données d'interaction hétérogènes en volume suffisant. Or la diminution de la loss curve sur données statiques ne prédit pas le taux de succès en déploiement physique : un robot qui mémorise des données ne maîtrise pas pour autant les perturbations et les cas rares du monde réel. Le vrai marqueur de maturité du secteur, selon Luo, est le moment où l'augmentation du parc de robots déployés entraîne une réduction mesurable du coût d'adaptation à de nouveaux scénarios - ce qu'il appelle le déclenchement du flywheel de données. Ce seuil n'est pas encore atteint, et aucune équipe ne sait le quantifier précisément. Pour les intégrateurs et les décideurs industriels, cela signifie que les performances en démo laboratoire restent peu prédictives des performances terrain. Zhiyuan Robotics s'impose comme l'un des acteurs phares de l'humanoïde en Chine, dans un secteur qui a progressivement déplacé son attention de la course aux degrés de liberté hardware vers la question de l'intelligence embarquée. Luo cite Physical Intelligence (PI) - la startup américaine issue de chercheurs de Google et DeepMind, connue pour son modèle π0 - avec une formule devenue un adage dans le milieu : "sur le papier, PI n'a jamais gagné ; dans la réalité, PI n'a jamais perdu", illustrant le découplage persistant entre métriques académiques et performances terrain. Zhiyuan vise à valider son flywheel de données dans des environnements semi-structurés réels - épiceries, supermarchés, entrepôts - sur une fenêtre de 12 à 18 mois. Le pari de τ0-WM est que la planification par simulation interne est la clé du passage de la démo au déploiement fiable à grande échelle, là où les modèles VLA (Vision-Language-Action) standards émettent une commande directe sans anticipation des conséquences physiques.

Chine/AsieOpinion
1 source
WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne
53arXiv cs.RO 

WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne

Des chercheurs ont publié le 17 juin 2026 sur arXiv (2606.17906) WAM-RL, un cadre d'apprentissage par renforcement conçu pour les modèles World-Action (WA), une classe d'architectures qui couplent un modèle de monde (world model, chargé de prédire les états futurs de l'environnement) avec un modèle d'action (actor, chargé de sélectionner les commandes). L'originalité de WAM-RL tient à l'optimisation conjointe et en ligne de ces deux composants via une méthode d'optimisation hiérarchique, complétée par des récompenses de reconstruction et un fine-tuning supervisé sur vidéos en ligne (online video SFT). L'ensemble des expériences a été conduit en interaction réelle avec l'environnement, sans dépendre uniquement de trajectoires d'expert pré-collectées. Ce travail comble une lacune structurelle des modèles WA actuels : entraînés exclusivement sur des démonstrations, ils ne peuvent pas acquérir de compétences de manipulation fines au-delà de la distribution couverte par ces données, ni s'améliorer en continu par l'expérience. L'insight central mis en évidence par les auteurs est particulièrement net : optimiser uniquement l'actor suffit à progresser sur des tâches à horizon court, mais échoue à produire des gains significatifs sur des tâches à horizon long. C'est la co-évolution du world model et de l'actor qui s'avère déterminante pour les scénarios complexes, ce qui implique que les pipelines de fine-tuning RL qui ignorent le world model introduisent un plafond de performance non trivial dans les applications de manipulation séquentielle. WAM-RL s'inscrit dans une tendance plus large qui vise à dépasser les limites du behavioral cloning dans les robots à apprentissage (VLA, diffusion policies, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) en intégrant des boucles de feedback online. Les travaux connexes comme DreamerV3 ou TD-MPC2 ont montré la puissance du model-based RL, mais leur application aux modèles WA multimodaux restait inexplorée. Il s'agit, selon les auteurs, de la première introduction du RL dans le paradigme World-Action. Il faut noter que l'article est un preprint non encore évalué par les pairs, que les benchmarks et environnements expérimentaux ne sont pas détaillés dans le résumé, et que la transférabilité vers du matériel réel (sim-to-real gap) reste à démontrer.

RechercheOpinion
1 source
LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques
54arXiv cs.RO 

LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.15768) LaWAM, un Latent World Action Model destiné au contrôle robotique. Le système atteint 98,6 % de taux de succès sur le benchmark LIBERO, 91,22 % sur RoboTwin, et maintient des résultats compétitifs sur des tâches de manipulation en environnement réel. Sa latence d'inférence est de 187 ms par chunk d'actions, soit jusqu'à 24 fois inférieure à celle des World Action Models (WAM) opérant dans l'espace pixel. L'architecture résout un compromis structurel dans les VLA (Vision-Language-Action models) actuels : ces systèmes exploitent le préentraînement vision-langage à grande échelle pour le contrôle sémantique, mais restent aveugles à la dynamique physique de la scène. Les WAM corrigent ce défaut en conditionnant la politique sur une prédiction du futur, mais leur génération vidéo pixel par pixel les rend prohibitifs pour le temps réel. LaWAM substitue à cette vidéo des sous-objectifs visuels latents compacts, calculés dans l'espace de représentation d'un modèle de fondation vision préentraîné. Son composant central, le Latent World Model (LaWM), réutilise un décodeur forward pour prédire les caractéristiques d'observation future, éliminant la redondance au niveau pixel. Le résultat est une planification dynamique compatible avec les contraintes de latence du contrôle robotique industriel. Ce travail prend place dans la convergence entre grands modèles et robotique, après que pi-0 (Physical Intelligence) et GR00T de NVIDIA ont validé l'approche VLA mais buté sur le demo-to-reality gap et la latence d'inférence. LaWAM propose une voie d'intégration plus réaliste : 187 ms par inférence autorise des boucles de contrôle à environ 5 Hz, suffisantes pour de nombreuses tâches de manipulation structurée. Le préprint ne mentionne ni partenariat industriel ni timeline de déploiement ; il s'agit à ce stade d'une contribution académique sans produit shipé ni pilote annoncé. La prochaine étape naturelle sera de valider la robustesse hors distribution sur des environnements plus variés que LIBERO et RoboTwin, qui restent des benchmarks relativement contrôlés.

RechercheActu
1 source
Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir
5536Kr 

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

Wang Zhongyuan, directeur du Beijing Academy of Artificial Intelligence (BAAI, 北京智源人工智能研究院), institution de recherche non lucrative chinoise, a accordé une interview approfondie au média spécialisé 硬氪 en marge de la conférence annuelle de l'académie, consacrée cette année aux modèles du monde (World Models) et aux agents intelligents. Il y cartographie quatre grandes familles de world models en compétition : les modèles centrés sur le langage comme les VLA et VLM (dont Gemini 3), qui prédisent le prochain token sans comprendre les conséquences physiques ; les modèles centrés sur les pixels comme Sora ou Seedance, efficaces pour la génération vidéo mais aveugles à la causalité physique ; les modèles centrés sur la structure 3D, dont Marble de World Labs (l'équipe de Li Feifei), qui reconstruisent l'espace géométrique sans en modéliser les états physiques ; et les modèles centrés sur la représentation visuelle, comme la série V-JEPA de Yann LeCun, dont l'évolution des embeddings ne correspond pas à l'évolution des lois physiques. BAAI explore une cinquième voie : fusionner représentations linguistiques et visuelles dans un espace latent unifié (latent space), depuis lequel des décodeurs distincts restituent langage, actions et vision selon le besoin, via des systèmes déjà déployables comme Physis et RoboBrain Orca. L'enjeu central, selon Wang, est de substituer au paradigme "Next Token Prediction" des LLM un paradigme "Next Physical State Prediction", soit la prédiction du prochain état physique du monde. Cette bascule est directement liée aux limites exposées par l'IA incarnée (embodied AI) : les robots actuels, qu'ils s'appuient sur des VLA ou des architectures plus simples, restent des exécutants passifs, cantonnés à des tâches mono-scène avec des données très spécifiques. Ils ne généralisent pas. Un robot VLA peut attraper un colis sur une chaîne logistique, mais il est incapable de prédire ce qui se passe si une bouteille ouverte tombe à côté. Wang rejette catégoriquement l'équivalence entre génération vidéo et world model, qui s'est répandue depuis qu'OpenAI a qualifié Sora de "World Simulator" : produire une vidéo physiquement plausible n'est pas modéliser le monde. Un vrai world model doit être physiquement correct (gravité, optique, fluides), doté d'une causalité action-résultat explicite, cohérent sur de longues séquences temporelles, et généralisable à des tâches multiples. Quant au débat "VLA is dead", Wang le tranche sans ambiguïté : les VLA restent utiles aujourd'hui et le resteront à court terme, mais les world models représentent l'étape suivante. BAAI a construit cette position en couches successives depuis le LLM Wudao (悟道), premier grand modèle chinois public, jusqu'aux architectures multimodales natives Emu3 et Emu3.5, avant d'amorcer en 2024 la transition vers la "Next State Prediction". L'académie est aussi un vivier : les fondateurs de Zhipu AI (Tang Jie), Moonshot AI (Yang Zhilin), iFlytek Research (Liu Zhiyuan) et Galactic General Robotics (Wang He) y ont tous conduit des recherches. Côté compétition internationale, BAAI se positionne face à World Labs (Marble), OpenAI (Sora), DeepMind (Genie 2) et au programme V-JEPA de LeCun chez Meta. Wang situe l'état actuel des world models à l'équivalent du deep learning vers 2012 : données fragmentées, benchmarks divergents, pas encore de "moment ChatGPT". Il estime qu'un véritable cerveau robotique à base de world model est un horizon de trois ans minimum, avec des applications prioritaires dans la robotique industrielle, la simulation physique et l'IA for Science.

Chine/AsieOpinion
1 source
WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace
56arXiv cs.RO 

WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace

Une équipe de chercheurs présente WOMBET (World Model-Based Experience Transfer), un cadre d'apprentissage par renforcement (RL) publié sur arXiv sous la référence 2604.08958 (troisième version, indiquant un travail en révision active). Le constat de départ est simple : en robotique, collecter des données d'entraînement est coûteux et potentiellement risqué, ce qui freine l'adoption du RL réel. WOMBET répond à ce problème en deux temps. D'abord, un modèle du monde (world model) est appris sur une tâche source, et sert à générer synthétiquement un jeu de données hors-ligne via une planification pénalisée par l'incertitude épistémique. Les trajectoires générées sont ensuite filtrées selon deux critères : rendement cumulé élevé et faible incertitude. Ensuite, un agent s'affine en ligne sur la tâche cible, avec un échantillonnage adaptatif qui équilibre progressivement données offline (issues du world model) et données online (issues de l'environnement réel), assurant une transition stable. Les auteurs formalisent également que l'objectif pénalisé constitue une borne inférieure du rendement vrai, et décomposent l'erreur finie en termes de décalage de distribution et d'erreur d'approximation. Le gain pratique est réel : WOMBET améliore la vitesse de convergence et les performances finales sur des benchmarks de contrôle continu (probablement DeepMind Control Suite ou MuJoCo, non précisés dans l'abstract) par rapport à des baselines solides. Pour la robotique industrielle, où chaque heure de collecte sur robot physique se paie cher, la capacité à générer des données fiables via un modèle appris, tout en contrôlant leur qualité par l'incertitude, est un levier concret. La double garantie -- théorique et empirique -- est rare dans ce domaine et renforce la crédibilité de l'approche au-delà d'un simple résultat expérimental. Ce travail s'inscrit dans un courant actif qui associe world models et RL offline-to-online, où des systèmes comme DreamerV3 ou TD-MPC2 font référence. WOMBET se distingue en ciblant explicitement le problème du transfert inter-tâche, là où la majorité des approches existantes supposent un jeu de données fixe et pré-collecté. Aucune entreprise ni partenariat industriel n'est mentionné ; il s'agit de recherche académique à stade préprint. Trois versions déposées suggèrent des révisions significatives en cours, possiblement vers une soumission en conférence (NeurIPS, ICML, CoRL). Les prochaines étapes naturelles seraient une validation sur hardware réel et une comparaison avec des méthodes de sim-to-real transfer plus classiques.

RecherchePaper
1 source
PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts
57arXiv cs.RO 

PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts

Une équipe de recherche présente PLUME (Probabilistic Latent Unified World Modeling and Parameter Estimation), une architecture de modèle du monde conçue pour la manipulation dextre avec des mains multi-doigts. L'article, déposé sur arXiv en juin 2026, s'attaque à un obstacle bien documenté en robotique : les politiques entraînées en simulation échouent souvent en déploiement réel parce que des paramètres physiques clés, forme des objets, pose initiale, coefficients de friction, sont inconnus au moment de l'exécution. PLUME apprend conjointement un espace latent représentant plusieurs paramètres physiques hétérogènes et un modèle de dynamique conditionné sur ces paramètres, permettant une inférence en ligne sans ré-entraînement ni fine-tuning. Le système est évalué sur quatre tâches en simulation (vissage de tournevis, rotation de vanne, levage de seau, projection de disque) puis validé sur une tâche de vissage réelle en zéro-shot, surpassant les baselines de référence en apprentissage par renforcement offline et en imitation augmentée par modèle du monde. Ce résultat conteste l'hypothèse que la randomisation de domaine suffit pour les tâches de précision. Visser un tournevis avec une friction faible ou élevée ne demande pas la même stratégie motrice : la politique doit changer qualitativement, pas simplement se robustifier. PLUME répond à cela via une mise à jour bayésienne de la croyance sur les paramètres au fil de l'exécution, fonctionnant comme un système d'adaptation en temps réel sans accès aux vrais paramètres. Le transfert zéro-shot sur hardware est le point fort concret de l'article, même si les conditions exactes du banc d'essai (matériau des objets, tolérances mécaniques de la main utilisée) ne sont pas précisées dans le résumé public, ce qui limite la reproductibilité immédiate. La manipulation dextre multi-doigts reste un problème ouvert depuis plusieurs décennies, avec des tentatives notables chez OpenAI (Dactyl, arrêté en 2021) ou ETH Zurich. PLUME s'inscrit dans une tendance récente couplant modèles du monde et inférence de paramètres, approche complémentaire aux VLA (Vision-Language-Action models) mais plus ciblée sur l'incertitude physique. Les travaux concurrents les plus proches incluent DreamerV3, TD-MPC2 et des méthodes d'inférence contextuelle comme PEARL. La prochaine étape naturelle serait l'extension à des tâches bi-manuelles ou impliquant des objets déformables, domaines où l'incertitude sur les paramètres est encore plus sévère.

RecherchePaper
1 source
MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL
58arXiv cs.RO 

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

Des chercheurs ont publié MIND-V, un modèle de monde hiérarchique conçu pour générer automatiquement des vidéos d'entraînement de manipulation robotique à long horizon, problème resté en grande partie non résolu jusqu'ici. L'architecture s'articule autour de trois modules : un Semantic Reasoning Hub (SRH) qui s'appuie sur un vision-language model pré-entraîné pour la planification de tâches, un Behavioral Semantic Bridge (BSB) qui traduit ces instructions abstraites en représentations invariantes au domaine, et un Motor Video Generator (MVG) chargé du rendu vidéo conditionnel. Pour garantir la cohérence physique des séquences générées, les auteurs ont introduit une phase de post-entraînement par reinforcement learning GRPO pilotée par une récompense inédite, la Physical Foresight Coherence (PFC), qui mobilise V-JEPA2 (le modèle de monde de Meta) comme arbitre de physique dans l'espace latent. Les expériences en simulation montrent des résultats état de l'art sur les benchmarks long-horizon, selon les auteurs. Le problème central que MIND-V adresse est la pénurie de données diversifiées pour l'intelligence incarnée : entraîner des politiques de manipulation requiert des milliers d'épisodes réussis sur des tâches enchaînées, données coûteuses à collecter en réel et difficiles à simuler de façon convaincante. L'approche est entièrement autonome, sans trajectoires définies manuellement, ce qui la distingue des générateurs de vidéos robotiques antérieurs limités à des clips courts et des gestes simples. La valeur opérationnelle est directe pour les équipes qui développent des VLA (Vision-Language-Action models) : des pipelines de synthèse de données à grande échelle pourraient réduire significativement la dépendance aux démonstrations téléopérées, principal goulot d'étranglement des robots comme Figure 03, Optimus ou 1X NEO. Ce travail s'inscrit dans une vague de recherche sur les world models pour la robotique, aux côtés de Dreamer, GAIA-1 adapté au robot, et du propre V-JEPA2 de Meta qu'il intègre comme brique de validation physique. L'article, initialement soumis en décembre 2024 (arXiv:2512.06628) et mis à jour en juin 2026, reste à ce stade un résultat en simulation uniquement : aucun déploiement physique ni intégration industrielle n'est mentionné, et le franchissement du sim-to-real gap reste à démontrer sur hardware réel.

IA physiqueOpinion
1 source
PRISM : échantillonnage guidé par les priors dans les modèles du monde
59arXiv cs.RO 

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Une équipe de chercheurs a publié PRISM (PRior-guided Imagination Sampling in world Models), un framework de planification basée sur les modèles du monde pour le contrôle continu en robotique. L'approche cible un angle précis : dans la planification par MPC (Model Predictive Control), la qualité des actions candidates générées pour évaluation compte autant que la précision du simulateur lui-même. PRISM repose sur un modèle de monde latent de style JEPA (Joint Embedding Predictive Architecture) auquel est attaché un MLP léger branché sur l'encodeur gelé du modèle. Ce MLP prédit un prior gaussien conditionné à l'état courant ; au moment de la planification, PRISM fusionne ce prior dans la distribution d'échantillonnage via une mise à jour Product-of-Gaussians pondérée par précision, une opération en forme fermée sans paramètres additionnels. Les gains mesurés atteignent +35 points de pourcentage sur la tâche Cube et +32 points sur PushT face à un MPC standard sur modèle du monde, sans surcoût d'inférence significatif. Pour les praticiens du contrôle robotique, l'enjeu est concret. Les planificateurs existants compensent l'inefficacité d'exploration en important des encodeurs visuels indépendants ou des VLMs (Vision Language Models) de grande taille pour construire un prior d'actions, ce qui alourdit l'architecture et complique le déploiement embarqué. PRISM extrait ce prior directement des représentations apprises par le modèle du monde, depuis le même jeu de données d'entraînement, sans composant externe. Le mécanisme s'auto-régule naturellement : le prior est confiant là où les données sont denses, et s'efface là où elles sont rares. Pour un ingénieur en manipulation industrielle ou un intégrateur système, c'est un gain d'efficacité d'échantillonnage sans refonte de l'infrastructure existante. PRISM s'inscrit dans la lignée des travaux sur les modèles du monde pour le contrôle incarné, dont JEPA (Meta/LeCun), TD-MPC2 et Dreamer v3 sont des jalons récents, et dont l'efficacité en phase de planification reste un problème ouvert. Les approches concurrentes privilegient des modèles de grande taille intégrant nativement un prior d'action, comme les VLA (Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), une philosophie diamétralement opposée à la compacité revendiquée par PRISM. Point de vigilance : les benchmarks utilisés, Cube et PushT, sont des environnements de manipulation simulés relativement standards. La validation sur hardware réel et en manipulation dextre en conditions non structurées reste à venir, ce qui tempère la portée opérationnelle des gains annoncés.

RecherchePaper
1 source
ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents
60arXiv cs.RO 

ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents

Une équipe de recherche a présenté ω-EVA (omega-EVA) en juin 2026 sur arXiv, un système de contrôle robotique qui introduit une boucle "Envision-Verify-Act" pour la génération d'actions en manipulation. Le coeur du système est un modèle de monde latent interactif structuré en trois étapes: apprentissage de dynamiques latentes conditionnées par l'action, entraînement d'une politique de flux conditionnée par le langage sur des représentations visuelles "dynamiques-aware", puis rétroalimentation de la proposition d'action à travers ce même modèle. Un raffineur tri-branche raisonne simultanément sur l'état courant, le futur conditionné par la proposition, et l'action candidate pour produire le chunk d'action final. Le modèle compte environ 1,2 milliard de paramètres et n'a pas nécessité de préentraînement sur des données robotiques supplémentaires. Les évaluations couvrent des tâches de manipulation à bras unique, bimanuelle, à horizon long et en environnements perturbés, toutes menées en simulation. La plupart des politiques robotiques actuelles, y compris les VLA (Vision-Language-Action models) comme π0 de Physical Intelligence ou GR00T N2 de NVIDIA, mappent directement les observations vers les actions sans inspecter les conséquences des actions candidates avant exécution. ω-EVA propose un changement de paradigme: le modèle de monde devient un module de rétroaction actif à l'inférence, permettant à la politique de "vérifier" dans l'espace latent l'effet probable de son action avant de la valider. Point clé du design: cette vérification se fait entièrement dans l'espace des features latentes, sans génération de vidéo future, ce qui maintient une charge computationnelle raisonnable à l'inférence. Pour un intégrateur industriel ou un roboticien, l'enjeu est concret: filtrer les actions à risque avant qu'elles atteignent l'effecteur, un problème structurel des VLA déployés en milieu non contrôlé où le "demo-to-reality gap" reste critique. L'utilisation des world models comme module de rétroaction à l'inférence reste rare dans la littérature; la majorité des travaux existants, dont la série Dreamer de Hafner (2019-2023), les exploite pour l'entraînement ou la planification hors ligne. Dans la course aux VLA, les acteurs dominants, Physical Intelligence (π0, π0.5), NVIDIA (GR00T N2), Figure (Helix) et 1X Technologies, misent sur des architectures plus larges et des datasets propriétaires massifs. ω-EVA propose une alternative compacte à 1,2 milliard de paramètres sans ce prérequis en données, ce qui peut intéresser des laboratoires académiques ou des startups à ressources limitées. L'article étant un preprint arXiv non encore soumis à peer review, et les benchmarks étant exclusivement en simulation, la validation sur robot physique en environnement réel reste l'étape déterminante à franchir.

UEL'approche compacte (1,2 Md paramètres, sans données robotiques supplémentaires) pourrait intéresser les laboratoires académiques européens et les startups FR/EU à ressources limitées travaillant sur les VLA, mais aucun acteur européen n'est directement impliqué.

IA physiqueOpinion
1 source
NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA
61NVIDIA Blog Robotics 

NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA

NVIDIA et le conglomérat sud-coréen Doosan Group ont annoncé en juin 2026 un élargissement de leur collaboration couvrant quatre entités du groupe : Doosan Robotics, Doosan Bobcat, Doosan Enerbility et Doosan Corporation Electro-Materials BG. Côté robotique, Doosan Robotics intègre la pile physique AI de NVIDIA, dont Isaac Sim et Isaac Lab pour la simulation, les modèles de fondation Cosmos pour la génération de monde physique, le moteur de physique open source Newton, et le SoC embarqué Jetson Thor. L'objectif est de faire évoluer leur plateforme "Agentic Robot OS" -- présentée comme une couche logicielle unifiant perception, raisonnement, simulation, apprentissage et inférence on-device -- pour des tâches industrielles concrètes comme la dépalettisation et le ponçage, ainsi que pour de nouveaux facteurs de forme incluant des bras doubles et des plateformes humanoïdes. Doosan Bobcat, spécialisé dans les engins compacts (construction, agriculture, manutention), entend de son côté exploiter les mêmes technologies pour développer des world models spécialisés. Enfin, Doosan Enerbility explore l'alimentation des AI factories NVIDIA via turbines à gaz, vapeur, réacteurs modulaires de petite taille (SMR) et piles à combustible hydrogène, pendant que Doosan Electro-Materials fournit des copper clad laminates (CCL) haute performance pour les PCB des accélérateurs et serveurs IA compatibles NVIDIA MGX. Il faut lire cette annonce pour ce qu'elle est : un accord de collaboration, pas un déploiement. Aucun chiffre de production, de cycle time, ni de volume shipment n'est communiqué. Cela dit, la structure de l'accord est stratégiquement cohérente. Doosan couvre plusieurs couches de la chaîne de valeur de l'infrastructure IA simultanément : hardware embarqué (Jetson Thor sur cobots), logiciel de simulation (Isaac Lab), matériaux de base pour data centers (CCL), et production d'énergie pour alimenter ces mêmes data centers. Pour les intégrateurs industriels, le signal le plus concret est le passage revendiqué de Doosan Robotics d'un fournisseur de bras articulés vers une entreprise "AI-first full-stack" -- une ambition que partagent Universal Robots, Fanuc et Yaskawa, mais que peu ont encore matérialisée à l'échelle. L'intégration sim-to-real via Cosmos et Newton suggère une volonté de réduire le demo-to-reality gap qui plombe encore de nombreuses démonstrations de manipulation complexe. Doosan Group, fondé en Corée du Sud en 1896 et désormais actif dans l'énergie, l'industrie lourde et la robotique, a acquis Bobcat en 2007 et structuré Doosan Robotics en unité autonome cotée en 2023. Sur le terrain de la robotique collaborative, ses concurrents directs incluent Universal Robots (acquis par Teradyne), FANUC, ABB et Techman Robot, tous en train d'intégrer des couches IA similaires. Sur le segment humanoïde, auquel Doosan fait désormais référence explicitement, la concurrence est plus intense encore : Figure (qui déploie chez BMW), Agility Robotics (Amazon), 1X, Apptronik et Tesla Optimus avancent tous sur des timelines industrielles. NVIDIA, de son côté, capitalise sur cette annonce pour consolider son positionnement de "système d'exploitation de la robotique physique", après des accords similaires avec Boston Dynamics, Foxconn et Intrinsic (Alphabet). Les prochaines étapes mentionnées restent vagues : des cas d'usage de référence sont "en cours de développement", sans date ni client annoncés.

IndustrielOpinion
1 source
AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles
62The Robot Report 

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

AGIBOT Innovation Technology, également connue sous le nom de Zhiyuan Robotics, a organisé la AGIBOT World Challenge 2026 en marge de l'ICRA 2026 à Vienne, réunissant 526 équipes de recherche et d'entreprises issues de 27 pays autour de deux pistes compétitives en IA incarnée : "Reasoning to Action" (R2A) et "World Model" (WM). La finale hors ligne s'est déroulée sur le robot humanoïde AGIBOT G2, avec des évaluations standardisées via les benchmarks EWMBench et Genie Sim 3.0. Dans la piste R2A, qui élargit l'évaluation de la simple exécution motrice à la compréhension d'environnement et à la planification de tâches, c'est l'équipe PrismBot de vivo qui a remporté le championnat avec 43,47 points, devant RP-VLA de Shanghai RoboParty (35,66 points) et GreenVLA de la Russie (33,19 points). Dans la piste WM, NeoVerse-ABot, équipe conjointe de l'Institut d'Automatisation de l'Académie des Sciences de Chine et du laboratoire Amap CV, a décroché la première place. Plus de 100 équipes ont dépassé le score de référence officiel, avec des participants issus de la Tsinghua University, de l'USTC, de l'UC San Diego, d'Alibaba et du Sber Robotics Center russe. La signification industrielle de cet événement tient moins aux classements qu'au format d'évaluation lui-même : l'abandon progressif des scores de simulation au profit de tests en boucle fermée sur robots réels, avec des métriques reproductibles et standardisées. Pour les intégrateurs et les décideurs B2B, c'est un signal que le secteur commence à construire des référentiels comparables entre systèmes -- un prérequis pour toute contractualisation sérieuse. La piste "World Model", centrée sur la prédiction de changements physiques et la modélisation d'interactions à partir d'entrées sensorielles, teste directement la capacité des VLA (Vision-Language-Action models) à généraliser hors distribution, y compris le transfert zéro-shot et l'adaptation aux perturbations. Le benchmark supermarché co-développé avec Dexmal va plus loin en intégrant des interactions physiques non idéales -- chutes d'objets, échecs de préhension -- et impose la navigation autonome, le picking et le placement sous contraintes réelles (hauteurs de rayonnage variables, placement aléatoire des articles), contrôlés via API distante. C'est une démarche de validation orientée déploiement, pas de démonstration. AGIBOT, fondée à Shanghai, s'est imposée comme l'un des acteurs centraux de l'écosystème robotique humanoïde chinois, aux côtés d'Unitree, de Fourier Intelligence et de l'initiative GR00T de NVIDIA. Son dataset open-source AGIBOT WORLD, utilisé pour entraîner les modèles de la piste WM, constitue un levier de standardisation communautaire similaire à ce qu'Open X-Embodiment représente côté américain. La compétition s'appuie sur Genie Sim 3.0 pour l'évaluation de capacités couvrant la compréhension du langage, le raisonnement spatial et les compétences atomiques de manipulation. Dans la course mondiale à la robotique humanoïde commerciale -- où Boston Dynamics, Figure AI, Agility Robotics et 1X Technologies avancent leurs propres plateformes -- AGIBOT positionne le G2 comme un banc d'essai de référence pour la communauté académique et industrielle, avec une stratégie d'écosystème ouverte qui rappelle davantage un hub de recherche qu'une pure offre produit.

Chine/AsieOpinion
1 source
DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils
63arXiv cs.RO 

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils

Des chercheurs ont publié DexFuture (arXiv:2606.05699), une architecture hiérarchique pour la manipulation bimanuelle dextre avec des outils. Le système se décompose en deux niveaux : un prédicteur de cibles visuomotrices futures (Future-State Visuomotor Target Predictor) en haute couche, et une politique d'exécution bas niveau conditionnée sur ces cibles (Target-Conditioned Structured Dexterous Policy). Le prédicteur exploite un flux RGB égocentrique, des données proprioceptives et un historique géométrique pour générer une trajectoire multi-étape via un transformeur conditionné sur l'horizon temporel ; le module d'exécution suit ensuite ces cibles articulation par articulation (per-link) à 60 Hz. Sur le benchmark OakInk2 de tâches bimanuelles avec outils, DexFuture atteint 90 % des performances d'un oracle disposant d'états privilégiés (informations inaccessibles en déploiement réel), contre seulement 7 % pour une politique sans référence future, et s'exécute environ 250 fois plus vite que les approches de planification CEM de type DexWM. Ce résultat est notable car il s'attaque à l'un des verrous fondamentaux de la robotique dextre : comment générer une référence future dynamiquement cohérente sans s'appuyer sur des états privilégiés issus de démonstrations humaines, et sans planification contrefactuelle lente sur des séquences d'actions à haute dimension. L'écart de performance entre la politique sans référence (7 %) et DexFuture (90 %) illustre à quel point le conditionnement sur un horizon temporel est déterminant pour la manipulation fine à deux mains. Pour les intégrateurs et décideurs B2B, l'exécution à 60 Hz est compatible avec du contrôle temps-réel sur hardware standard, là où les approches CEM nécessitaient des cycles bien trop longs pour un déploiement industriel. La séparation explicite entre prédiction sémantique lente (long horizon) et exécution haute fréquence (bas niveau) est une architecture qui se répand dans la robotique de précision, et DexFuture en fournit une validation quantitative significative sur benchmark public. Le benchmark OakInk2 est une référence académique établie pour évaluer la manipulation d'outils à deux mains avec des mains anthropomorphes, couvrant des tâches réalistes de préhension, transfert et utilisation d'outils courants. Le champ des politiques visuomotrices pour mains dextres est en pleine effervescence : DexWM (world models pour la dextérité), Pi-0 de Physical Intelligence, et les approches VLA (Vision-Language-Action) de Google DeepMind et Figure AI poussent la généralisation vers des niveaux inédits. DexFuture se distingue en ciblant la cohérence dynamique de la trajectoire future sans supervision privilégiée, une contrainte plus réaliste que les méthodes supposant un accès complet à l'état du système. L'article n'annonce ni déploiement physique ni timeline commerciale : il s'agit d'un résultat de recherche fondamentale validé en simulation et sur données de démonstration. Les étapes naturelles seraient le passage à des mains physiques (sim-to-real), l'extension à des outils non vus à l'entraînement, et l'intégration dans des pipelines VLA pour des tâches de longue durée.

RecherchePaper
1 source
Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
64arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena
65Pandaily 

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

La société chinoise Kuawei Intelligence a décroché la première place du classement mondial WorldArena Track 2 (Data Engine) pour le mois de mai 2026, devançant les concurrents internationaux WoW et BLM. Ce benchmark évalue non pas la qualité visuelle des sorties générées, mais les taux de succès réels de robots sur des tâches physiques, ce qui le rend plus pertinent pour les déploiements industriels que les métriques classiques de génération d'images. Le modèle lauréat, DSCFuncWorld, repose sur l'architecture DexWorldModel et est conçu pour produire des données d'entraînement robotique de haute qualité. Contrairement aux world models génératifs conventionnels qui opèrent au niveau du pixel, Kuawei utilise l'espace de features sémantiques DINO pour la prédiction d'état, une approche qui réduit la charge de calcul tout en améliorant la robustesse. La société a par ailleurs open-sourcé son infrastructure de données EmbodiChain. Ces résultats benchmark s'accompagnent de chiffres de déploiement concrets : Kuawei revendique plus de 1 000 projets dans plus de 50 secteurs industriels, un taux de succès de 99,99 % sur une ligne de production Hisense, une efficacité de tri trois fois supérieure à l'humain chez Midea, un chiffre d'affaires dépassant 100 millions de RMB en 2024 et plus de 100 unités de son robot humanoïde W1 Pro livrées à des clients comme BYD, GAC, Zoomlion, SANY et Panasonic. Ces chiffres sont issus de communications officielles de l'entreprise et n'ont pas fait l'objet de vérification indépendante. La performance de Kuawei sur WorldArena Track 2 est significative précisément parce que ce classement mesure le sim-to-real transfer, soit la capacité d'un modèle entraîné en simulation à fonctionner sur du matériel réel, longtemps considéré comme le principal obstacle à la robotisation à l'échelle. Si les chiffres revendiqués se confirment, ils suggèrent qu'une entreprise chinoise de taille intermédiaire a résolu, au moins partiellement, le problem de la data engine, c'est-à-dire la génération automatisée de données d'entraînement suffisamment réalistes pour produire des politiques motrices robustes. Pour les intégrateurs industriels et les décideurs B2B, l'argument le plus fort n'est pas le benchmark lui-même mais la combinaison revenus/déploiements réels, qui tranche avec le schéma habituel du secteur humanoïde, souvent long en annonces et court en traction commerciale. Kuawei Intelligence s'inscrit dans une vague d'acteurs chinois de l'IA incarnée qui ont émergé depuis 2023, parmi lesquels Unitree Robotics, Fourier Intelligence et AgileX Robotics, tous positionnés sur le segment des robots à bas coût et des plateformes open-source. Sur la scène internationale, elle affronte Physical Intelligence (Pi-0), Apptronik, Figure AI (Figure 03) et Boston Dynamics, dont les approches misent davantage sur la puissance des VLA (Vision-Language-Action models) que sur la data synthesis. La victoire de Kuawei à l'ICRA 2025 avec un robot bi-bras en manipulation fine sans intervention humaine avait déjà signalé ses ambitions. La prochaine étape pour l'entreprise sera de démontrer que ses déploiements tiennent dans des environnements non structurés, au-delà des lignes de production contrôlées où les benchmarks ont jusqu'ici été réalisés.

Chine/AsieActu
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
66arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source
LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées
67arXiv cs.RO 

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

LDA-1B est un modèle fondation pour la robotique à 1 milliard de paramètres, présenté dans un preprint arXiv (2602.12215v2, "replace", donc une version révisée). Ses auteurs introduisent ce qu'ils appellent une "ingestion universelle de données incarnées" : plutôt que le clonage comportemental classique, qui se borne à imiter des actions expertes en ignorant la connaissance des dynamiques physiques, LDA-1B entraîne simultanément un modèle de dynamiques, une politique d'action et un module de prévision visuelle. Pour opérer à cette échelle, les chercheurs ont constitué EI-30k, un jeu de données standardisé regroupant plus de 30 000 heures de trajectoires humaines et robotiques dans un format unifié. La prédiction s'effectue dans l'espace latent structuré de DINO (modèle de vision auto-supervisé de Meta), évitant la modélisation redondante au niveau pixel. L'architecture repose sur un transformeur de diffusion multimodal gérant des flux vidéo et d'action asynchrones. En simulation et en conditions réelles, LDA-1B dépasse π0.5 de Physical Intelligence de 21 % sur les tâches à contacts intenses, 48 % sur les tâches de dextérité, et 23 % sur les tâches à long horizon. Résultat contre-intuitif : en réintégrant 30 % de trajectoires de faible qualité habituellement écartées, le modèle gagne 10 % de performance supplémentaire. Ce travail s'attaque à une limite structurelle des modèles robotiques actuels : le clonage comportemental traite comme déchets toutes les données sans annotation action-état précise, vidéos téléopérées approximatives, démonstrations ratées, captations partielles. En assignant des rôles distincts selon la qualité des données, LDA-1B récupère de la valeur dans ces corpus dégradés. Pour les intégrateurs et décideurs industriels, l'implication est concrète : si des trajectoires sous-optimales contribuent positivement à l'entraînement, le coût de constitution des jeux de données de référence diminue sensiblement. Les gains de 48 % sur la dextérité, talon d'Achille historique des robots manipulateurs, sont particulièrement significatifs, même si ces chiffres proviennent d'un preprint non encore évalué par les pairs, et que les conditions exactes des benchmarks méritent une lecture critique avant généralisation. LDA-1B s'inscrit dans une course aux modèles fondation robotiques qui s'intensifie depuis 2024. Physical Intelligence (Pi), dont π0 puis π0.5 font référence sur les benchmarks manipulation, est le principal étalon ici. Google DeepMind pousse RT-2 et ses successeurs, tandis que des modèles open-source comme OpenVLA et Octo peinent à franchir le cap du milliard de paramètres avec des données hétérogènes. La formulation UWM (Unified World Model), que LDA-1B exploite et étend, tentait déjà de valoriser des données non-action (vidéos, interactions humaines), mais les tentatives précédentes manquaient d'échelle et de standardisation. EI-30k, avec ses 30 000 heures normalisées, est l'une des bases d'interaction incarnée les plus vastes publiées à ce jour. Ce preprint n'annonce ni produit commercial ni déploiement terrain, c'est de la recherche académique avec expériences en simulation et quelques validations réelles. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une intégration sur des plateformes humanoïdes comme Unitree H1 ou G1.

RechercheOpinion
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
68arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

IA physiqueOpinion
1 source
WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
69arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
Modification des activations latentes : affinage à l'inférence des politiques apprises pour une navigation multi-robots plus sûre
70arXiv cs.RO 

Modification des activations latentes : affinage à l'inférence des politiques apprises pour une navigation multi-robots plus sûre

Des chercheurs ont publié sur arXiv (référence 2509.20623v2) une méthode baptisée Latent Activation Editing (LAE) permettant d'améliorer la sécurité de politiques de contrôle multi-robots déjà entraînées, sans modifier leurs poids ni leur architecture. Le protocole cible la navigation de quadrotors multiples en environnements encombrés, un scénario où les politiques issues du renforcement (RL) restent exposées à des collisions rares mais critiques. LAE fonctionne en deux étapes : un classifieur en ligne surveille les activations intermédiaires du réseau de politique pour détecter les états à risque, puis un module d'édition modifie sélectivement ces activations pour orienter le comportement vers des régimes plus sûrs. Le composant central est un "latent collision world model" entraîné à prédire les activations pré-collision futures, forçant ainsi des réponses d'évitement plus précoces. Sur les Crazyflie de Bitcraze en conditions réelles, la méthode atteint une réduction de près de 90 % des collisions cumulées par rapport à la politique de base, tout en préservant le taux de complétion des trajectoires. L'intérêt industriel de cette approche réside dans son coût d'intégration quasi nul : aucun réentraînement, aucun risque de dégradation des compétences acquises (catastrophic forgetting), et une exécution compatible avec du matériel embarqué à ressources limitées. Pour les intégrateurs de flotte AMR ou les opérateurs de drones industriels, cela signifie qu'un correctif de sécurité peut s'appliquer post-déploiement sans toucher au pipeline de formation. La méthode transpose au contrôle robotique une technique bien établie en NLP (activation steering, popularisée notamment dans les travaux sur l'alignement des LLMs) et en vision générative, ce qui valide l'hypothèse d'une transférabilité cross-domaine des mécanismes de représentation latente. Le cadre LAE s'inscrit dans une tendance plus large de recherche sur la correction comportementale à l'inférence, distincte des approches de fine-tuning ou de constraint RL. Côté concurrents conceptuels, on trouve les méthodes de safe RL par barrières de Lyapunov, les approches CBF (Control Barrier Functions) ou le shielding symbolique, qui agissent elles aussi sans retraining mais à un niveau différent (sortie de politique plutôt qu'espace latent). Les auteurs n'annoncent pas de déploiement commercial : l'article reste une contribution académique avec validation en simulation étendue et expériences sur Crazyflie, sans timeline industrielle précisée. La prochaine étape logique serait la validation sur des architectures plus hétérogènes (quadrupèdes, bras, flottes mixtes) et dans des environnements dynamiques avec obstacles mobiles.

RechercheOpinion
1 source
Modèles du monde locaux et globaux couplés pour un apprentissage par renforcement efficace du premier ordre
71arXiv cs.RO 

Modèles du monde locaux et globaux couplés pour un apprentissage par renforcement efficace du premier ordre

Des chercheurs ont publié en février 2026 une méthode d'entraînement de politiques de contrôle robotique entièrement à l'intérieur de modèles du monde appris depuis des données réelles, sans aucun simulateur physique. L'approche, baptisée FoG (First-order Gradient découplé), repose sur un couplage inédit : un modèle du monde global, basé sur un modèle de diffusion à grande échelle, génère des trajectoires précises dans l'espace image, tandis qu'un modèle local léger opérant dans un espace latent approche les dynamiques locales pour calculer les gradients de manière tractable. Les auteurs valident la méthode sur la tâche Push-T, un benchmark standard de manipulation planaire, où FoG surpasse significativement PPO (Proximal Policy Optimization) en efficacité d'échantillons. Une deuxième évaluation porte sur de la manipulation d'objets en vue égocentrique avec un robot quadrupède. Ce travail s'attaque à un verrou majeur de la robotique de manipulation : les simulateurs physiques classiques peinent à modéliser fidèlement les contacts, la non-rigidité des objets et les perceptions visuelles complexes, créant un écart sim-to-real difficile à combler. En substituant entièrement le simulateur par un modèle du monde appris sur des interactions réelles, FoG contourne ce problème structurellement plutôt que de l'atténuer par du domain randomization ou du fine-tuning. Le découplage local/global est la contribution centrale : utiliser le modèle de diffusion complet pour le déroulé (roll-out) garantit la fidélité, tandis que le substitut latent rend le calcul du gradient computationnellement viable, une tension que les approches précédentes ne résolvaient pas proprement. Les world models comme levier pour l'apprentissage robotique constituent un axe de recherche en forte accélération depuis les travaux fondateurs de Dreamer (DeepMind, 2019-2023) et de MBPO. Les modèles de diffusion, d'abord dominants en génération d'images, sont progressivement intégrés comme modèles de transition dynamique dans des travaux récents chez Google DeepMind, Berkeley et le MIT. FoG se positionne dans cette veine mais avec un angle d'optimisation first-order qui le distingue des approches model-based RL classiques. Les résultats sont préliminaires, limités à deux tâches de complexité modérée, et les auteurs ne présentent pas de métriques de temps de calcul détaillées ni de comparaison sur des benchmarks de manipulation plus exigeants comme ManiSkill ou RoboSuite. La prochaine étape naturelle serait de tester la méthode sur des tâches dextères en environnement non structuré, où le gap sim-to-real est le plus pénalisant.

RecherchePaper
1 source
SKIP : paradigme d'interpolation par images-clés éparses pour modèles du monde incarnés efficaces
72arXiv cs.RO 

SKIP : paradigme d'interpolation par images-clés éparses pour modèles du monde incarnés efficaces

Une équipe de recherche publie SKIP (Sparse Keyframe Interpolation Paradigm), un cadre visant à accélérer l'inférence des modèles de monde incarnés (embodied world models) en robotique. Ces modèles prédisent visuellement l'effet des actions d'un robot sur son environnement et servent à générer des données synthétiques pour entraîner des politiques de contrôle. Générer ces séquences image par image est coûteux en calcul, mais supprimer des frames de façon indiscriminée détruit les événements critiques (approche, contact, saisie, relâchement) dont les politiques aval ont besoin. SKIP fonctionne en trois étapes : identification des keyframes pertinentes via des caractéristiques multimodales robot-aware, synthèse de ces seules keyframes par un modèle de diffusion vidéo sparse, puis reconstruction des intervalles manquants par un interpolateur conditionné sur les actions du robot. Sur le benchmark LIBERO, SKIP génère des séquences denses 4,16 fois plus vite qu'une baseline frame-by-frame et réduit le FVD (Fréchet Video Distance) agrégé de 89,0 %. Lorsque les vidéos SKIP remplacent intégralement les démonstrations réelles pour entraîner la politique π₀.₅ de Physical Intelligence, la perte de performance n'est que de 1,3 point de pourcentage en simulation et de 6,7 pp sur robot réel, contre un effondrement de 48 à 58 pp avec la génération dense classique. Ce résultat valide un principe clé pour les pipelines de robotique apprenante : une génération synthétique ciblée sur les événements critiques peut remplacer des démonstrations humaines coûteuses sans dégrader sérieusement la politique finale. L'effondrement de la génération dense (48-58 pp) confirme que c'est la préservation des keyframes critiques, et non la densité brute des frames, qui conditionne le transfert sim-to-real. Pour les équipes développant des robots manipulateurs à grande échelle, réduire la dépendance aux données réelles est un levier économique et opérationnel majeur. SKIP répond également au goulot d'étranglement du rollout inference, qui freine actuellement le déploiement de ces modèles de monde dans des boucles d'entraînement intensives. Les modèles de monde incarnés s'imposent comme axe de recherche depuis les travaux sur UniSim et les premières politiques visuomotrices génératives. La politique π₀.₅ est issue de Physical Intelligence, startup fondée en 2023 spécialisée en modèles de fondation pour la robotique généraliste. Dans le paysage concurrentiel, des approches comme IRASim ou RoboDreamer poursuivent des objectifs similaires ; SKIP se distingue par sa stratégie d'économie computationnelle orientée événements plutôt que par simple sous-échantillonnage temporel. Aucun acteur européen n'est directement impliqué dans ce travail. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation plus complexes et l'intégration dans des pipelines VLA (Vision-Language-Action) en production.

RechercheOpinion
1 source
RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle
73arXiv cs.RO 

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

Des chercheurs ont publié RoboDream (arXiv:2606.02577), un world model centré sur l'embodiment conçu pour générer des démonstrations photorealistic destinées à l'entraînement de politiques de manipulation robotique. Le système s'appuie sur des modèles de diffusion vidéo conditionnés simultanément sur le mouvement rendu du robot et sur des priors explicites de scène et d'objet, découplant ainsi l'exécution de trajectoire de la synthèse d'environnement. Cette architecture permet deux capacités distinctes : le "retrieval and rebirth", qui réutilise des trajectoires existantes dans des contextes entièrement nouveaux sans collecter de nouvelles données de mouvement, et la "prop-free teleoperation", où l'opérateur manipule dans le vide et le modèle génère a posteriori les objets cibles et la scène. Les expériences en conditions réelles montrent que les données ainsi synthétisées améliorent systématiquement les performances des politiques en aval et réduisent significativement les besoins en données réelles sur des tâches de manipulation variées. La télé-opération reste aujourd'hui le principal goulot d'étranglement du robot learning à grande échelle : coûteuse, lente, et contrainte par le temps de reset entre chaque démonstration (repositionner les objets, réorganiser la scène). RoboDream attaque ce problème en proposant une augmentation sémantique profonde plutôt qu'une simple modification de texture ou de couleur : le système génère des objets et des environnements entièrement nouveaux à partir d'une même trajectoire capturée. La "prop-free teleoperation" est opérationnellement significative car elle supprime le temps de reset, l'une des sources de coût caché les plus sous-estimées dans les pipelines de collecte actuels. Le fait que les politiques entraînées sur données synthétiques surpassent les baselines en conditions réelles valide partiellement la thèse que le sim-to-real gap peut être comblé par un générateur suffisamment ancré dans la géométrie et la cinématique du robot réel, contrairement aux approches purement visuelles. Cette publication s'inscrit dans une course à la mise à l'échelle des données robotiques qui s'est accélérée depuis 2023 avec l'essor des VLA (Vision-Language-Action models) : OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA. Ces architectures nécessitent des dizaines de milliers de démonstrations diversifiées pour être robustes. Face à ce besoin, deux voies coexistent : la collecte distribuée à grande échelle (projet Open X-Embodiment) et la génération synthétique. RoboDream s'inscrit dans la seconde, aux côtés de travaux comme UniSim ou RoboGen, mais se différencie par son ancrage explicite à la cinématique du robot, évitant les "embodiment hallucinations" qui affectent les générateurs purement visuels. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade. Les questions ouvertes portent sur la généralisation à des morphologies de robots différentes et sur les tâches de manipulation longue durée, où la cohérence temporelle des séquences générées reste un défi non résolu.

RechercheOpinion
1 source
Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique
74arXiv cs.RO 

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

Des chercheurs ont déposé le 1er juin 2026 sur arXiv (réf. 2606.01027) τ₀-WM (tau-zéro World Model), une architecture unifiée vidéo-action pour la manipulation robotique. Le modèle repose sur un backbone de diffusion vidéo partagé qui intègre simultanément apprentissage de politique, prédiction vidéo et évaluation d'actions au sein d'un même cadre prédictif. Il expose deux interfaces complémentaires : un modèle d'action vidéo qui prédit conjointement des représentations visuelles latentes futures et des séquences d'actions continues à partir d'observations multi-caméras, d'instructions en langage naturel et de l'état courant du robot ; et un simulateur vidéo conditionné sur l'action, capable de dérouler des séquences candidates en projections multi-vues tout en attribuant des scores denses de progression de tâche. L'entraînement porte sur environ 27 300 heures de données combinant téléopération réelle, interactions de style UMI (Universal Manipulation Interface, protocole de collecte de données en bimanuel développé par Stanford), vidéos égocentrées humaines, et trajectoires de succès comme d'échecs. L'intérêt principal réside dans la convergence entre politique et modèle de monde au sein d'une architecture commune. Les VLA (Vision-Language-Action models) actuels génèrent des actions sans anticiper leurs conséquences, laissant la gestion des erreurs à des modules séparés. τ₀-WM introduit un mécanisme de rectification à l'inférence : le simulateur évalue chaque séquence candidate via un score dense de progression, et les candidats jugés insuffisants sont corrigés par re-débruitage. Ce test-time scaling structuré pourrait réduire les interventions humaines sur des tâches longue durée, un enjeu clé pour les intégrateurs industriels qui peinent encore à déployer des robots autonomes sur des séquences de plus de quelques étapes. Sur les benchmarks de manipulation fine et longue séquence, les auteurs déclarent surpasser les baselines comparables, sans préciser les conditions expérimentales ni les contraintes matérielles testées. Ce travail s'inscrit dans une course engagée depuis fin 2024 entre Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Figure (Helix) pour des architectures VLA à grande échelle, mais rares sont celles qui intègrent simulation interne et évaluation d'action dans un seul modèle plutôt que dans un pipeline découplé. L'usage de données UMI signale une stratégie d'agrégation multi-source qui dépasse les corpus propriétaires et pourrait favoriser la généralisation à de nouveaux environnements. Le papier reste pour l'instant un preprint non soumis à revue par les pairs : les performances annoncées restent à valider sur robot physique en conditions réelles, et aucune date de déploiement ou partenariat industriel n'est mentionné.

IA physiqueOpinion
1 source
Tous les points ne se valent pas : synthèse de scènes LiDAR 4D avec conscience de l'incertitude
75arXiv cs.RO 

Tous les points ne se valent pas : synthèse de scènes LiDAR 4D avec conscience de l'incertitude

Une équipe de chercheurs a publié en juin 2026 sur arXiv un cadre de génération de scènes LiDAR 4D baptisé U4D (arXiv:2606.02510), conçu pour l'IA incarnée (embodied AI) et la simulation de véhicules autonomes. Le constat de départ : dans un seul scan LiDAR, la difficulté perceptuelle varie considérablement selon les régions ; surfaces distantes, contours occultés et petits objets présentent une incertitude géométrique bien plus élevée que les structures bien observées. U4D quantifie cette incertitude point par point via l'entropie de Shannon, extraite d'un segmenteur neuronal pré-entraîné, pour produire des cartes d'incertitude spatiale par point. Le pipeline adopte un ordonnancement "du difficile au simple" : un premier stage de diffusion non conditionnelle synthétise les zones à haute entropie avec précision géométrique, puis un stage de complétion conditionnelle remplit les régions restantes en s'appuyant sur ces structures comme priors. Un bloc MoST (Mixture of Spatio-Temporal) assure la cohérence inter-images en équilibrant détail spatial et continuité temporelle. Les validations sur les benchmarks nuScenes et SemanticKITTI affichent des résultats revendiqués état de l'art en fidélité de scène, cohérence temporelle et performances sur les tâches aval de perception. L'approche corrige une limite fondamentale des générateurs LiDAR existants, qui allouent une capacité de modélisation uniforme sur l'ensemble de l'espace, traitant de fait un trottoir proche et un piéton à 60 mètres avec le même effort de synthèse. En concentrant la puissance générative sur les zones les plus incertaines, U4D vise à améliorer la qualité des données synthétiques pour l'entraînement de percepteurs embarqués, enjeu critique pour les intégrateurs de systèmes autonomes cherchant à réduire le coût de collecte et d'annotation de données réelles. La robustesse sur SemanticKITTI, jeu de données distinct des conditions d'entraînement principales, suggère une certaine généralisation, bien que les résultats demeurent limités à des expériences académiques sans déploiement industriel annoncé ni évaluation publique indépendante. La génération de LiDAR synthétique est un champ actif depuis l'essor des modèles de diffusion appliqués à la 3D, avec des travaux antérieurs comme LiDARGen, UltraLiDAR ou DriveDreamer couvrant partiellement ce problème. U4D se distingue en introduisant explicitement l'incertitude dans le processus génératif, concept emprunté à la littérature sur l'apprentissage actif et la calibration de réseaux. Aucun acteur européen n'est cité dans l'article, mais des laboratoires comme le CEA-List ou des startups de perception comme Outsight pourraient intégrer de tels outils dans leurs pipelines de validation sim-to-real. La prochaine étape naturelle sera d'évaluer U4D sur des capteurs et environnements hors distribution, et de l'intégrer dans des pipelines de World Model pour la planification autonome à grande échelle.

RecherchePaper
1 source
Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène
76arXiv cs.RO 

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01072) une méthode d'apprentissage par imitation qui exploite des graphes de scène dynamiques comme mécanisme de mémoire structurée pour les robots mobiles. Le principe : pendant l'exécution d'une tâche, le robot maintient un graphe de scène mis à jour en continu, qui encode les relations entre objets et leur évolution dans le temps. Plutôt que de traiter uniquement les observations courantes du capteur, le système capitalise sur l'historique accrété de l'environnement pour inférer des politiques d'action. Les validations couvrent deux régimes : manipulation mobile en simulation (environnements à grande échelle spatialement) et manipulation sur table en conditions réelles. Les auteurs rapportent une amélioration substantielle des performances par rapport aux baselines, particulièrement sur des tâches nécessitant un raisonnement à long terme, sans donner de métriques chiffrées précises dans l'abstract. Ce travail s'attaque à deux verrous persistants du déploiement de robots apprenants dans des environnements non-structurés. Le premier est l'observabilité partielle : dans un appartement ou un bureau, le champ de vision d'un robot ne capture qu'une fraction de l'espace pertinent, et les objets manipulés disparaissent régulièrement du cadre. Le second est l'horizon temporel : des tâches comme "ranger la cuisine" enchaînent des dizaines de sous-tâches dont les dépendances ne sont pas localement visibles. En substituant un graphe de scène explicite et structuré à une mémoire implicite (fenêtre d'observations brutes, état caché LSTM), l'approche donne au robot une représentation interprétable et modulaire du contexte. Pour les intégrateurs industriels et les équipes qui déploient des politiques d'imitation dans des environnements semi-structurés, c'est une piste crédible pour réduire le gap entre démo de labo et robustesse opérationnelle, même si les expériences restent pour l'instant confinées à la simulation et au tabletop. L'apprentissage par imitation (behavioral cloning, GAIL, DAgger) a connu un regain d'intérêt majeur avec l'essor des Visual Language Action models (VLA) comme Pi-0 de Physical Intelligence, RT-2 de Google DeepMind, ou OpenVLA. Les graphes de scène sont une technique éprouvée en vision par ordinateur et en navigation robotique (travaux de Armeni, Rosinol, Chang notamment), mais leur intégration dans des pipelines d'imitation learning reste peu explorée. Les approches concurrentes pour gérer la mémoire à long terme incluent les transformers avec attention sur un historique d'observations, les représentations de tâches hiérarchiques (task graphs), et les world models latents. Ce preprint n'étant pas encore évalué par les pairs, ses résultats méritent confirmation sur des benchmarks plus larges et des environnements réellement non-structurés avant de pouvoir orienter des décisions d'architecture. Les auteurs n'annoncent pas de code public ni de suite industrielle à ce stade.

RechercheOpinion
1 source
Vérificateur d'actions mondiales : modèles du monde auto-améliorés via asymétrie avant-inverse
77arXiv cs.RO 

Vérificateur d'actions mondiales : modèles du monde auto-améliorés via asymétrie avant-inverse

Des chercheurs ont publié sur arXiv (2604.01985, avril 2026) le cadre World Action Verifier (WAV), une architecture conçue pour permettre aux modèles de monde (world models) de détecter leurs propres erreurs de prédiction et de s'auto-améliorer. Le problème est structurel : ces modèles, utilisés pour évaluer et optimiser des politiques de contrôle robotique, doivent rester fiables sur un vaste espace d'actions sous-optimales, lesquelles sont systématiquement sous-représentées dans les données d'interactions robot étiquetées. WAV répond en décomposant la prédiction d'état conditionnée à l'action en deux facteurs vérifiables indépendamment : la plausibilité d'état et l'accessibilité par l'action. Le système augmente un modèle de monde existant avec un générateur de sous-objectifs entraîné sur des corpus vidéo sans annotations d'action, et un modèle inverse sparse inférant des actions depuis un sous-ensemble réduit de features d'état. Une cohérence cyclique est ensuite imposée entre sous-objectifs proposés, actions inférées et rollouts forward. Sur neuf tâches couvrant MiniGrid, RoboMimic et ManiSkill, WAV atteint une efficacité d'échantillonnage deux fois supérieure et améliore les performances des politiques aval de plus de 22 %. L'intérêt central de l'approche est l'exploitation d'une asymétrie fondamentale : les données vidéo sans annotations sont abondantes et peu coûteuses à collecter, tandis que les données robot étiquetées restent rares et chères. En s'appuyant sur cette asymétrie pour décomposer la vérification, WAV contourne l'un des principaux goulets d'étranglement du model-based RL appliqué à la robotique. Pour les équipes R&D et les intégrateurs, cela signifie moins de démonstrations téléopérées nécessaires pour obtenir des politiques robustes, point critique dans des déploiements industriels où la collecte de données est un frein opérationnel réel. La méthode valide empiriquement une hypothèse souvent posée sans preuve : les vidéos non annotées peuvent servir de supervision indirecte efficace dans la boucle d'apprentissage robotique. Ce travail s'inscrit dans le champ du model-based RL, où DreamerV3 de Google DeepMind constitue la référence principale pour la prédiction d'états latents. Il propose une voie orthogonale aux approches VLA (Vision-Language-Action) dominantes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la mise à l'échelle massive des corpus de pré-entraînement pour améliorer la généralisation. WAV parie plutôt sur la robustesse intrinsèque du modèle de monde via la vérification interne. À noter : le code et les modèles ne semblent pas encore publiés au moment de la soumission, ce qui positionne ces résultats au stade de la recherche en cours d'évaluation par les pairs, pas d'un outil directement intégrable.

RecherchePaper
1 source
Apprentissage auto-régressif forcé : vers un modèle du monde pour la navigation robotique à long horizon
78arXiv cs.RO 

Apprentissage auto-régressif forcé : vers un modèle du monde pour la navigation robotique à long horizon

Une équipe de chercheurs (arXiv:2605.31314, mai 2026) propose AR Forcing, une stratégie d'entraînement autorégressive pour les world models de navigation robotique basés sur la diffusion. Le problème adressé est un écart de distribution persistant : ces modèles sont entraînés avec une supervision parallèle, mais exécutent une inférence autorégressive au moment du planning de trajectoire. Cette asymétrie déstabilise les prédictions sur des horizons longs. AR Forcing l'attaque à la source en intégrant la fonction de perte diffusion standard dans la boucle autorégressive : à chaque étape, le modèle utilise ses propres prédictions pour mettre à jour le contexte et optimiser l'objectif de prédiction de bruit pas à pas. Les expériences ont été menées sur quatre jeux de données multi-domaines couvrant des environnements variés : RECON et SCAND (navigation urbaine et extérieure), HuRoN (interactions humain-robot) et TartanDrive (tout-terrain). L'intérêt pratique de cette approche tient à sa sobriété architecturale : AR Forcing ne requiert ni discriminateur supplémentaire, ni fonction de distribution-matching, et conserve le framework diffusion d'origine ainsi que son sampler. Pour les équipes développant des robots mobiles autonomes (AMR) ou des systèmes de navigation vision-only, cela signifie une intégration sans refonte de pipeline. Les résultats déclarés montrent une meilleure cohérence des images générées sur de longs horizons temporels et une amélioration de la précision des trajectoires prédites, y compris dans des environnements inconnus. Le bémol habituel s'applique ici : les métriques sont évaluées sur des datasets publics en conditions contrôlées, et le gap sim-to-real sur du hardware réel reste à démontrer. Les world models pour la navigation robotique constituent un axe de recherche actif, en lien direct avec les VLA (Vision-Language-Action models) et des travaux comme DreamerV3 ou UniSim. La dérive cumulative sur les horizons longs est précisément le verrou historique que AR Forcing tente de lever, là où les approches concurrentes recourent souvent à des mécanismes d'ancrage externes plus lourds. Le code source doit être publié prochainement selon les auteurs, ce qui permettra à la communauté de valider les résultats sur ses propres domaines applicatifs. Ce papier est un preprint arXiv non encore évalué par les pairs, sans financement industriel déclaré ni déploiement annoncé.

RecherchePaper
1 source
RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
79arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source
X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel
80Pandaily 

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

La startup chinoise X-Square Robot, connue pour sa série GreatWall de modèles de fondation robotiques, publie WALL-WM, présenté comme le premier world model à prédiction par événements sémantiques pour la robotique incarnée. Le papier associé, "WALL-WM: Carving World Action Modeling at the Event Joints", décrit une architecture en trois couches : une couche d'entrée d'instructions d'événements, une couche de prédiction centrale utilisant l'optimiseur Muon distribué (DMuon) pour une meilleure stabilité de convergence, et une stratégie de packing multi-événements réduisant les pertes de calcul lors de l'entraînement. Sur les benchmarks de génération vidéo incarnée, WALL-WM surpasse Wan2.1-14B et Open-Sora 2.0 sur qualité de mouvement, cohérence sémantique et plausibilité physique. Sur le benchmark Core15 L1, il dépasse Pi0.5 de Physical Intelligence et DreamZero sur les tâches de base, raisonnement, manipulation dextre et généralisation sous instruction abstraite. L'intérêt technique réside dans un changement de paradigme pour les modèles d'action. Les architectures VLA dominantes prédisent des chunks d'actions à intervalles fixes, où sera la main du robot dans 0.1, 0.2, 0.3 secondes, ce qui force le modèle à mémoriser des déplacements millimétriques par frame plutôt qu'à comprendre l'objectif sémantique ("saisir la tasse"). Cette fragilité structurelle signifie qu'un changement d'objet ou de surface suffit à faire échouer le modèle. WALL-WM prédit directement l'état cible, c'est-à-dire le moment de la saisie, puis génère synchroniquement la séquence d'actions pour y parvenir. Le papier identifie par ailleurs un problème architectural fondamental : texte, vision et action opèrent sur des géométries de manifold distinctes, et leur projection directe dans un espace latent partagé dégrade les représentations préentraînées, un défaut que l'architecture cherche à corriger via ses trois couches spécialisées. X-Square Robot s'inscrit dans la course des laboratoires chinois aux fondations VLA et world models, aux côtés d'Unitree, Fourier Intelligence et Agibot. Les benchmarks publiés visent directement Physical Intelligence (Pi0.5) et ses homologues américains comme Figure AI. Il faut toutefois souligner que WALL-WM reste, à ce stade, une publication de recherche sans déploiement commercial ni pilote industriel annoncé. Les performances sur benchmark L1 ne préjugent pas des résultats en conditions réelles, où l'éclairage variable, la déformation des objets et les perturbations de contact constituent le vrai test de la généralisation sim-to-real. Aucune timeline de productisation n'est mentionnée dans l'annonce.

IA physiqueOpinion
1 source
GE-Sim 2.0 : une feuille de route vers des simulateurs vidéo en boucle fermée pour la manipulation robotique
81arXiv cs.RO 

GE-Sim 2.0 : une feuille de route vers des simulateurs vidéo en boucle fermée pour la manipulation robotique

Une équipe de recherche a publié sur arXiv (arXiv:2605.27491) GE-Sim 2.0, un simulateur vidéo en boucle fermée conçu pour l'entraînement et l'évaluation de politiques de manipulation robotique. Le système, Genie Envisioner World Simulator 2.0, prolonge l'architecture de génération vidéo conditionnée par l'action de son prédécesseur et a été ré-entraîné sur des milliers d'heures de données robotiques réelles couvrant la télé-opération, les interactions contact-rich et le déploiement de politiques embarquées. Trois nouveaux modules ferment la boucle simulation-apprentissage : un "state expert" qui décode l'état proprioceptif depuis les latents vidéo pour alimenter les politiques VLA (Vision-Language-Action) en prédiction de trajectoire ; un "world judge" qui évalue automatiquement les rollouts générés face aux instructions de tâche, produisant des signaux de réussite vérifiables sans inspection manuelle ; et un framework d'accélération capable de générer un rollout de 25 frames en 2,3 secondes sur un seul GPU H100, avec jusqu'à 4x de frame skipping à l'inférence pour les scénarios longue-portée. Avec seulement 2 milliards de paramètres, le modèle domine le classement public WorldArena, devançant à la fois des world models robotiques dédiés et des générateurs vidéo généralistes en source fermée. L'enjeu central est le sim-to-real gap, la difficulté chronique à transférer des politiques entraînées en simulation vers des robots réels. GE-Sim 2.0 tente d'y répondre sur deux fronts : en générant des données synthétiques crédibles sur lesquelles entraîner des politiques VLA, avec des gains mesurables en conditions réelles selon les auteurs, et en automatisant l'évaluation des rollouts via le world judge, un goulot d'étranglement qui nécessitait jusqu'ici infrastructure physique ou inspection humaine. Pour les équipes travaillant à l'échelle sur des politiques de manipulation, l'équation coût-délai d'itération pourrait évoluer sensiblement. La performance au benchmark WorldArena avec 2B paramètres seulement suggère une efficacité paramétrique notable, même si les benchmarks de simulation ne garantissent pas directement des performances terrain. GE-Sim 2.0 s'inscrit dans la continuité directe de Genie Envisioner, framework de génération vidéo conditionné par l'action publié par la même équipe. Le marché des world models pour la robotique s'est densifié rapidement, avec notamment UniSim et des travaux issus de Google DeepMind, IRASim, ainsi que les simulateurs développés par Physical Intelligence autour de pi_zero. Dans l'espace VLA, Lerobot (Hugging Face) et plusieurs groupes académiques de MIT et Stanford investissent des directions parallèles. Ce résultat reste une pré-publication arXiv sans révision par les pairs ; les "gains mesurables en conditions réelles" annoncés ne sont pas quantifiés précisément dans l'abstract, ce qui limite l'interprétation des performances de transfert. La prochaine étape logique serait une validation externe sur des benchmarks physiques standardisés.

RechercheOpinion
1 source
Dextérité extrinsèque émergente en scènes encombrées via l'apprentissage de politique sensible à la dynamique
82arXiv cs.RO 

Dextérité extrinsèque émergente en scènes encombrées via l'apprentissage de politique sensible à la dynamique

Des chercheurs ont publié DAPL (Dynamics-Aware Policy Learning), un cadre d'apprentissage par renforcement destiné à la manipulation non-préhensile en environnements encombrés. L'approche exploite la "dextérité extrinsèque" - la capacité d'un robot à utiliser les contacts avec l'environnement pour déplacer des objets sans les saisir directement - dans des configurations où plusieurs objets interagissent avec des dynamiques couplées. La nouveauté centrale est une représentation apprise des dynamiques de contact, construite via un modèle du monde explicite, qui conditionne ensuite la politique de RL sans recourir à des heuristiques codées manuellement ni à un reward shaping complexe. En simulation, DAPL surpasse de plus de 25 % les approches de manipulation préhensile, la télé-opération humaine et les politiques à représentation implicite, évaluées sur des scènes encombrées à densité variable non vues à l'entraînement. En conditions réelles, le taux de succès atteint environ 50 % sur dix scènes distinctes, avec un déploiement pilote en contexte épicerie pour valider le transfert sim-to-real. Ce résultat adresse un verrou concret en robotique de manipulation : la plupart des systèmes industriels actuels évitent le désordre ou le gèrent par des stratégies d'isolement d'objets, coûteuses en infrastructure. L'émergence de comportements de contact sans ingénierie manuelle des heuristiques représente un pas vers des robots capables de travailler dans des bacs en vrac, des rayons de supermarché ou des convoyeurs non triés. Le gain de 25 % en simulation est significatif, mais les 50 % de succès en conditions réelles appellent à la prudence : les détails sur le type d'objets, la densité exacte et la vitesse d'exécution ne sont pas fournis dans le résumé, ce qui rend difficile toute comparaison directe avec des systèmes comme Sparrow d'Amazon Robotics ou les approches de Covariant AI. La dextérité extrinsèque est un axe de recherche actif depuis une décennie, porté notamment par les groupes de Carnegie Mellon, MIT et ETH Zurich autour du pushing, du pivoting et de la singulation d'objets. DAPL s'inscrit dans cette continuité en ajoutant le world modeling explicite comme composant structurant du pipeline. Le preprint, disponible en version v2 sur arXiv (2603.09882), a été révisé depuis sa soumission initiale, signe d'un affinement des résultats ou des analyses sous revue par les pairs. Aucune timeline de déploiement commercial n'est annoncée ; l'étape logique serait une validation en entrepôt réel sur des volumes plus importants et avec des contraintes de cadence industrielle.

RecherchePaper
1 source
L’IA physique : le prochain marché que surveille déjà Wall Street
83Robot Magazine FR 

L’IA physique : le prochain marché que surveille déjà Wall Street

Wall Street identifie désormais la "Physical AI" comme le prochain cycle d'investissement majeur après l'IA générative. Selon plusieurs cabinets spécialisés, le marché mondial de la robotique intelligente et de l'IA physique pourrait dépasser 3 000 milliards de dollars d'ici 2040. Goldman Sachs est plus précis sur le segment humanoïde : 150 milliards de dollars d'ici 2035, avec un marché global de robotique intelligente franchissant les 400 milliards. NVIDIA, valorisé à plus de 3 000 milliards de dollars en 2026, est présenté comme le principal bénéficiaire actuel de cette tendance, son PDG Jensen Huang ayant publiquement intégré la "Physical AI" à sa feuille de route. Tesla, de son côté, est repositionnée dans cette grille de lecture grâce à son robot humanoïde Optimus, au-delà de son coeur de marché automobile. À noter : ces chiffres sont des projections de marché, pas des revenus confirmés, et l'article ne cite aucune métrique opérationnelle de déploiement. La rupture que pointe cet article est structurelle : l'IA générative est restée confinée aux écrans (texte, images, code), tandis que la Physical AI vise à en faire une force de travail dans le monde réel, capable de manipuler des objets, se déplacer et exécuter des tâches physiques de manière autonome. Pour un COO industriel ou un intégrateur, ce changement de paradigme est pertinent dans un contexte de pénuries de main-d'oeuvre persistantes et d'accélération de l'automatisation. Ce qui change pour les décideurs B2B, c'est l'horizon de planification : les fonds se positionnent déjà, ce qui signifie que les valuations des acteurs émergents (robotique, simulation, edge computing industriel) vont probablement se comprimer dans les 18 à 36 prochains mois, avant même que des déploiements à grande échelle soient prouvés. Ce récit s'inscrit dans un cycle bien rodé : après le cloud (AWS, Azure), puis l'IA générative (NVIDIA, OpenAI), les analystes financiers cherchent le prochain thème de surperformance. NVIDIA a amorcé ce pivot avec ses plateformes Isaac (simulation robotique) et Cosmos (world model pour robots), et ses partenariats avec Figure, 1X, Agility Robotics ou Boston Dynamics. Tesla joue la même carte avec Optimus, dont les premières vidéos de ligne de production interne ont été diffusées fin 2024, sans chiffres de cadence publiés. L'article reste toutefois une analyse financière généraliste : il ne cite aucun robot spécifique avec des métriques techniques (DOF, payload, cycle time), aucun site de déploiement confirmé, et aucun acteur européen malgré la pertinence d'entreprises comme Wandercraft ou Enchanted Tools sur ce segment. Les prochaines étapes annoncées restent floues, ce qui est caractéristique du registre "thème d'investissement émergent" plutôt que d'un bilan opérationnel.

UELa dynamique d'investissement Wall Street sur la Physical AI devrait indirectement comprimer les valorisations des startups robotiques européennes dans les 18-36 mois, avant tout déploiement prouvé, ce qui rend la fenêtre de levée de fonds pour des acteurs comme Wandercraft ou Enchanted Tools potentiellement plus courte.

IA physiqueOpinion
1 source
Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA
84arXiv cs.RO 

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

Une équipe de chercheurs a publié en février 2026 sur arXiv (identifiant 2602.06508v2) World-VLA-Loop, un cadre d'entraînement qui couple un modèle de monde vidéo et une politique VLA (Vision-Language-Action) dans une boucle d'amélioration mutuelle. Le problème de départ est concret : raffiner une politique VLA par apprentissage par renforcement (RL) dans le monde physique coûte cher, entre les rollouts répétés, les remises à l'état initial, la supervision humaine et les risques de sécurité. Les approches existantes utilisent des modèles de monde vidéo conditionnés sur les actions comme simulateurs virtuels, mais ces simulateurs peinent à reproduire les échecs proches du succès ("near-success failures") et ne produisent pas nativement de signal de récompense. World-VLA-Loop propose deux innovations fondamentales : SANS, un protocole de curation qui mélange délibérément trajectoires réussies et trajectoires quasi-réussies pour améliorer l'alignement action-résultat ; et un modèle de monde vidéo "state-aware" qui prédit simultanément frames futures et récompenses binaires à partir des latents de diffusion, intégrant l'estimation de récompense directement dans le générateur plutôt que dans un module séparé. L'apport principal est d'adresser le problème du décalage de distribution dynamique. Lorsqu'une politique VLA évolue pendant le RL, un simulateur figé se désaligne progressivement avec la politique mise à jour. World-VLA-Loop ferme cette boucle en réinjectant les rollouts de chaque politique améliorée pour affiner le modèle de monde, lequel alimente à son tour le post-entraînement VLA suivant. Cette co-évolution itérative réduit la dépendance aux interactions physiques coûteuses. Les expériences couvrent des environnements de simulation et des robots réels, avec des améliorations de performance significatives annoncées, bien que les métriques précises et les benchmarks ne soient pas détaillés dans le résumé disponible, ce qui limite l'évaluation indépendante à ce stade. Ce travail s'inscrit dans l'essor rapide des politiques VLA depuis 2024 : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA ou Helix de Figure AI constituent l'écosystème de référence. L'enjeu commun est de dépasser le behavior cloning pur pour intégrer du RL sans exploser les coûts de collecte de données réelles. World-VLA-Loop reste un preprint académique en attente de révision par les pairs, sans déploiement industriel annoncé. Les concurrents directs sur la thématique des world models appliqués à la robotique incluent DreamerV3 et les approches de Google DeepMind. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes et une comparaison quantitative publiée contre ces baselines.

IA physiqueOpinion
1 source
GigaAI dévoile son système « Dual Pyramid » d'IA générale physique pour surmonter le mur du passage à l'échelle de l'IA incarnée
85Pandaily 

GigaAI dévoile son système « Dual Pyramid » d'IA générale physique pour surmonter le mur du passage à l'échelle de l'IA incarnée

Le 20 mai 2026, lors d'un événement de lancement dans l'Optical Valley de Wuhan, la startup chinoise GigaAI a dévoilé ce qu'elle appelle une architecture "Dual Pyramid" pour l'intelligence physique générale. Le système repose sur deux couches parallèles : une couche données qui fusionne dans un seul pipeline d'entraînement des données issues de robots réels (pour la physique de référence), de vidéos internet (pour la diversité situationnelle à grande échelle) et de simulation (pour la couverture synthétique illimitée) ; et une couche algorithmique qui empile des world models et des modèles VLA (Vision-Language-Action) comme piliers complémentaires. En parallèle, GigaAI a lancé SeeLight, une sous-marque dédiée aux environnements domestiques, ainsi que le SeeLight S1, son premier robot humanoïde polyvalent pour la maison. Une flotte de 100 unités est déjà déployée dans des foyers réels à Wuhan, avec un passage en opérations à grande échelle prévu pour le troisième trimestre 2026. La feuille de route sur 12 mois prévoit trois releases successives de modèles de base, GigaBrain-1, GigaBrain-2 et GigaBrain-3, que la société positionne comme l'équivalent du "moment GPT-3" pour la robotique physique généraliste. L'enjeu stratégique de cette annonce dépasse la présentation d'un nouveau robot : GigaAI s'attaque frontalement au débat qui structure le champ depuis deux ans. Le camp des world models, représenté par NVIDIA Cosmos et Google Genie, défend l'idée que des modèles vidéo génératifs peuvent fournir de la donnée d'entraînement à l'échelle industrielle. Le camp des modèles d'action, incarné par Physical Intelligence avec sa série pi-0 et les chercheurs en Diffusion Policy, argue que seules les données collectées sur robots réels permettent de généraliser les compétences de manipulation. En proposant une architecture hybride qui refuse ce choix binaire, GigaAI parie que world models et VLA ne sont pas concurrents mais codépendants. Si le déploiement des 100 unités en conditions réelles se confirme au-delà des vidéos de démonstration sélectionnées, cela constituerait une preuve sérieuse du sim-to-real scaling sur des tâches domestiques non structurées. La revendication d'un "GPT-3 moment" reste un signal marketing à surveiller avec prudence, mais l'architecture elle-même est techniquement cohérente avec les travaux récents sur les données hybrides. GigaAI s'inscrit dans une vague de startups chinoises en robotique humanoïde qui ont accéléré leurs sorties produit depuis 2024, en réponse directe aux annonces d'Agility Robotics (Digit), Figure (Figure 02), et Tesla (Optimus Gen 2). L'Optical Valley de Wuhan est devenu un pôle de référence pour la robotique en Chine, au même titre que Shenzhen pour le hardware grand public. La prochaine étape observable sera la publication de métriques de performance des unités SeeLight S1 dans des conditions d'utilisation domestique réelle, ainsi que le lancement de GigaBrain-1 selon le calendrier annoncé. Aucun acteur européen n'est directement impliqué dans cette annonce, mais les intégrateurs industriels et les décideurs robotique suivront de près la montée en échelle du Q3 2026 comme premier test de vérité.

UELa montée en échelle du SeeLight S1 prévue en Q3 2026 constituera un indicateur de compétitivité chinoise en robotique domestique que les acteurs industriels et décideurs européens devront intégrer dans leur veille stratégique.

Chine/AsieOpinion
1 source
GEM-4D : modèles du monde vidéo enrichis par la géométrie pour la manipulation robotique
86arXiv cs.RO 

GEM-4D : modèles du monde vidéo enrichis par la géométrie pour la manipulation robotique

Une équipe en soumission anonyme (probablement ICCV ou NeurIPS 2025) publie GEM-4D sur arXiv, un modèle mondial vidéo ancré géométriquement pour la manipulation robotique. Le constat de départ est bien documenté : les VWM (Video World Models) génèrent des séquences futures visuellement plausibles à partir d'une instruction, mais ne maintiennent pas la cohérence du mouvement au niveau des points entre les images, ce qui les rend inutilisables pour l'exécution d'actions physiques fiables. GEM-4D résout cette limitation en injectant, pendant l'entraînement, une supervision de correspondances 4D denses distillée depuis un modèle de fondation géométrique pré-entraîné dans le backbone génératif vidéo, tout en conservant une architecture single-stream sans surcoût à l'inférence. Un module de dynamique inverse convertit ensuite les rollouts vidéo cohérents en trajectoires exécutables, déployables en simulation comme en réel. Sur la combinaison prédiction vidéo et cohérence géométrique, GEM-4D atteint l'état de l'art, et le taux de succès en manipulation réelle progresse de 61 % à 81 %, soit un gain de 20 points. Ce gain de 20 points sur des tâches réelles est le chiffre central : il valide l'hypothèse que la supervision géométrique suffit à combler le gap entre apparence visuelle et ancrage physique. Pour les intégrateurs et décideurs industriels, l'architecture single-stream représente un avantage concret, sans module géométrique séparé à maintenir en opération. Cela positionne les VWM comme une alternative sérieuse aux approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, jusque-là perçues comme plus directement actionnables. La réserve habituelle s'applique : la soumission reste anonyme, les vidéos de la page projet ne permettent pas encore d'évaluation indépendante, et le protocole de test en environnement réel n'est pas détaillé dans le résumé disponible. Les VWM appliqués à la robotique constituent un axe de recherche actif depuis 2023, avec des travaux précurseurs comme UniSim (OpenAI) ou IRASim. GEM-4D s'y distingue en apportant la cohérence géométrique 3D+temporelle qui faisait défaut, en s'appuyant sur des modèles de fondation pour la reconstruction dense, domaine où l'INRIA Paris (à l'origine de DUSt3R et MASt3R) est un acteur européen de référence. La chaîne supervision géométrique → génération vidéo → action robotique apparaît ainsi viable à l'échelle d'un déploiement réel. Les prochaines étapes naturelles seront une validation sur des benchmarks standardisés comme RLBench ou LIBERO, et des tests hors des environnements de laboratoire contrôlés.

UELes modèles géométriques de fondation de l'INRIA Paris (DUSt3R, MASt3R) constituent la base de la supervision géométrique de GEM-4D, positionnant la recherche européenne en reconstruction dense comme un maillon clé de la prochaine génération de modèles de manipulation robotique.

RechercheOpinion
1 source
V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)
87arXiv cs.RO 

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion
1 source
SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée
8836Kr 

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle. L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité. La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

Chine/AsieOpinion
1 source
Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans
8936Kr 

Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans

JuNao Panshi (具脑磐石), startup chinoise spécialisée dans les architectures cognitives pour la robotique incarnée, a annoncé en mai 2026 la clôture d'un tour de financement dépassant 100 millions de yuans (environ 13,5 millions d'euros), conduit par un fonds industriel positionné sur l'intersection neuromorphique et robotique, avec réinvestissement des actionnaires existants et participation de plusieurs fonds de premier rang. Un second tour serait en cours de finalisation simultanément, selon la publication chinoise 36Kr. La société, fondée en 2025, est dirigée par Zhu Senhua, ancien responsable du programme "cerveau incarné" chez Huawei, où il a piloté la plateforme cloud IA-neurosciences, le modèle Pangu pour l'intelligence incarnée et le Global Embodied Intelligence Innovation Center. Titulaire d'un doctorat en neurosciences cognitives de l'Université de Pennsylvanie et d'un post-doctorat au Laboratoire national clé Cerveau et Cognition de l'Académie des sciences de Chine, Zhu Senhua est l'un des rares profils combinant recherche académique en neuro-IA, validation expérimentale et industrialisation à grande échelle. JuNao Panshi développe un Cognitive World Model (modèle de monde cognitif) fondé sur l'intelligence neuromorphique, avec quatre objectifs techniques structurants : apprentissage avec peu de données, forte généralisation intersituationnelle, apprentissage à vie et faible consommation énergétique. Plusieurs proof-of-concepts sont en cours de déploiement auprès de clients industriels en Chine et à l'international. L'intérêt de cette levée dépasse la valorisation d'une startup : elle signale un basculement dans les priorités de R&D du secteur de la robotique incarnée, où le terme VLA (Vision-Language-Action) cède progressivement la place au concept de world model comme axe central de compétition. JuNao Panshi argumente que la grande majorité des approches actuelles restent bloquées sur un paradigme data-intensif et énergivore, incapable de généraliser sans réentraînement à chaque nouvel environnement. En s'appuyant sur les mécanismes fonctionnels du cerveau humain, notamment les neurones multi-compartiments, l'attention non linéaire, la mémoire multi-stades et l'inférence active, la société cherche à construire un système capable d'apprentissage abstrait à partir de peu d'exemples, de mémoire persistante et de planification autonome en conditions réelles. Pour les intégrateurs industriels et les décideurs B2B, la promesse est concrète : un robot qui n'a pas besoin d'être réentraîné à chaque changement de ligne ou d'environnement est un robot économiquement viable à déployer à grande échelle. Sur le plan concurrentiel, la trajectoire technique de JuNao Panshi s'aligne explicitement avec l'architecture JEPA (Joint Embedding Predictive Architecture) de Yann LeCun, dont AMI Labs explore la branche causale et de raisonnement. En parallèle, Fei-Fei Li parie sur l'intelligence spatiale 3D, NVIDIA et Google DeepMind accélèrent la simulation physique et l'apprentissage par interaction réelle. JuNao Panshi se positionne un cran au-dessus dans la hiérarchie qu'elle définit elle-même en cinq niveaux, revendiquant la couche la plus haute : l'inférence active issue des neurosciences cognitives. La stratégie commerciale repose sur un modèle "un cerveau, plusieurs robots, plusieurs morphologies" (一脑多机一脑多形), avec des partenariats matériels déjà établis avec les fabricants de robots Lejiu, Xingchen Intelligence et Zhidongli. La feuille de route prévoit d'ouvrir le modèle de cerveau cognitif universel à l'écosystème d'intégrateurs, une fois les capacités de généralisation jugées suffisantes pour piloter des configurations de robots hétérogènes depuis un seul modèle central.

Chine/AsieActu
1 source
Pre-VLA : vérification préemptive à l'exécution pour fiabiliser les déroulements de modèles VLA et du monde
90arXiv cs.RO 

Pre-VLA : vérification préemptive à l'exécution pour fiabiliser les déroulements de modèles VLA et du monde

Une équipe de chercheurs a soumis sur arXiv (réf. 2605.22446, mai 2026) Pre-VLA, une architecture de vérification préemptive conçue pour filtrer les actions de mauvaise qualité générées par les modèles VLA (Vision-Language-Action) avant qu'elles ne soient exécutées physiquement ou simulées dans un world model génératif. Concrètement, Pre-VLA s'intercale comme un garde-fou en amont de l'exécution : il exploite un backbone multimodal avec pooling adaptatif par modalité et une tête dual-branch légère pour prédire à la fois un score de confiance sécuritaire et un advantage score dérivé d'un critique, sur des chunks d'actions candidats. L'entraînement combine trois objectifs simultanés : classification Focal (robuste aux déséquilibres de classes), régression d'avantage, et calibration par seuil souple. À l'inférence, un scheduler de rééchantillonnage dual-mode filtre les actions jugées sous-seuil et déclenche un rééchantillonnage adaptatif dans un budget de calcul contraint. Sur le benchmark LIBERO (quatre suites de tâches en boucle fermée), Pre-VLA améliore le taux de succès moyen de 30,79 % à 37,62 % par rapport au modèle de base RynnVLA-002, réduit le nombre d'étapes d'exécution, et affiche un temps de vérification de 183,9 ms par chunk d'action en moyenne. Le gain de 6,8 points de pourcentage sur LIBERO est notable dans un domaine où les benchmarks en boucle fermée restent difficiles à progresser de façon fiable. La valeur industrielle réelle de Pre-VLA ne réside pas dans la performance brute, mais dans la réduction des échecs physiques coûteux et dans la limitation de l'accumulation d'erreurs dans les rollouts de world models génératifs, dont le coût de rendu est élevé. Pour un intégrateur ou un COO industriel, un tel mécanisme de vérification préemptive représente un levier de fiabilité sans refonte du modèle principal, ce qui est compatible avec des pipelines de déploiement réels. La question non résolue reste la généralisation : LIBERO est un benchmark de manipulation tabletop relativement contrôlé, et les résultats sur des environnements plus chaotiques ne sont pas démontrés ici. Pre-VLA s'inscrit dans une tendance croissante visant à sécuriser les politiques VLA pour le déploiement réel, dans le sillage de modèles comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA), qui peinent tous à franchir le "demo-to-reality gap". Le benchmark LIBERO, développé par une équipe de l'Université de Washington et Stanford, est devenu une référence standard pour évaluer les politiques d'imitation multi-tâches. RynnVLA-002, le modèle de référence utilisé ici, est un VLA récent dont les détails publics restent limités. Ce travail est un preprint, non encore soumis à peer review, ce qui invite à une lecture prudente des chiffres annoncés. Les prochaines étapes naturelles seraient une validation sur des environnements réels hors laboratoire et une comparaison avec d'autres approches de vérification runtime comme les méthodes basées sur les ensembles de confiance ou la vérification formelle légère.

💬 Un garde-fou entre le modèle VLA et l'exécution physique, sans refonte du modèle principal, c'est le genre de solution qu'on aurait voulu avoir avant de casser du matériel. +6,8 points sur LIBERO en boucle fermée, c'est pas rien dans un domaine où les benchmarks avancent à coups de virgule. Reste à voir hors labo, parce que LIBERO c'est du tabletop propre, pas une chaîne de production.

IA physiqueOpinion
1 source
Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée
9136Kr 

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées. L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle. Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.

Chine/AsieOpinion
1 source
RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage
92arXiv cs.RO 

RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage

Les systèmes de reinforcement learning avec humain dans la boucle (HIL-RL) atteignent des taux de succès quasi parfaits sur le poste de travail où ils sont entraînés, mais s'effondrent lorsque le même robot est déplacé de quelques mètres vers un poste différent. La cause est simple : des variations d'éclairage (position des lampes, lumière naturelle) perturbent suffisamment la distribution des entrées visuelles pour invalider la politique apprise. Pour combler ce "cross-domain gap" sans recollecte de données terrain, des chercheurs présentent RoHIL (Robust Human-in-the-Loop), un framework de fine-tuning hors ligne évalué sur quatre tâches de manipulation robotique réelle. RoHIL repose sur trois mécanismes : un re-lighting basé sur un world model qui resynthétise le flux visuel des trajectoires sources sous plusieurs environnements HDRI virtuels sans modifier les actions ni les récompenses, un mécanisme anti-oubli appelé Illumination-Retention Replay (IRR) qui entrelace transitions d'adaptation et transitions de rétention, et un régulariseur Bellman-acteur ancré limitant la dérive de représentation par rapport à la politique source. L'enjeu industriel est direct : recollecte de démonstrations et ré-entraînement HIL à chaque nouveau poste sont incompatibles avec un déploiement à l'échelle. La fragilité aux variations lumineuses reste l'un des obstacles les plus sous-estimés entre laboratoire et production réelle. RoHIL répond à ce problème sans interaction robot supplémentaire, ce qui réduit le coût d'intégration pour les opérateurs. La combinaison IRR et régulariseur Bellman démontre qu'il est possible d'adapter une politique à de nouvelles conditions visuelles tout en préservant les performances sur l'environnement d'origine, résultat non trivial face à l'oubli catastrophique classique. Ce travail, déposé sur arXiv en mai 2025 sous soumission anonyme et vraisemblablement en cours d'évaluation par une conférence, s'inscrit dans la vague de recherches visant à rendre les politiques robotiques robustes aux variations de domaine. Les approches concurrentes incluent la randomisation de domaine à l'entraînement, les politiques multi-environnements ou l'augmentation visuelle agressive, mais ces techniques nécessitent d'anticiper les variations en amont. RoHIL se distingue par son mode entièrement offline. Aucun déploiement commercial ni partenariat industriel n'est mentionné : il s'agit d'un résultat académique à ce stade, dont les extensions naturelles porteront sur un plus grand nombre de postes, de conditions lumineuses et de tâches à degrés de liberté élevés.

RecherchePaper
1 source
Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées
93arXiv cs.RO 

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées

Des chercheurs ont publié sur arXiv en mai 2026 (arXiv:2605.19957) un nouveau paradigme appelé World-Ego Modeling, accompagné d'une implémentation concrète, le World-Ego Model (WEM). Le problème ciblé : les world models actuels prédisent l'évolution de la scène et du robot dans un flux unique, confondant deux dynamiques de nature différente, les régularités persistantes de l'environnement d'un côté et la dynamique propre à l'agent conditionnée par ses instructions de l'autre. Ce couplage dégrade les performances sur les tâches hybrides longue horizon, où navigation autonome et manipulation d'objets s'entrelacent. WEM sépare explicitement ces deux composantes via un planificateur implicite dual, couplé à un générateur de diffusion CP-MoE (cascade-parallel mixture-of-experts). Les auteurs publient également HTEWorld, présenté comme le premier benchmark dédié à ce type de tâches, avec 125 000 clips vidéo totalisant plus de 4,5 millions de frames et 300 trajectoires multi-tours représentant plus de 2 000 instructions. WEM atteint l'état de l'art sur HTEWorld et reste compétitif sur les benchmarks de manipulation seule. L'enjeu touche directement les systèmes de manipulation mobile : robots logistiques à bras, humanoïdes polyvalents, AMR avec capacités de saisie. La majorité des world models sont entraînés soit sur de la navigation pure, soit sur de la manipulation fixe, rarement sur des séquences hybrides longues où l'agent doit enchaîner déplacement, identification et manipulation sans intervention humaine. WEM formalise la désambiguation monde-ego et propose trois stratégies de désenchevêtrement (post-, pré- et complet), ouvrant un cadre de comparaison structuré pour les futures architectures VLA ; la création d'HTEWorld comble simultanément un manque concret, l'absence de référence commune pour les tâches hybrides rendant jusqu'ici les comparaisons entre approches difficiles à établir. Ce travail s'inscrit dans l'effervescence autour des world models incarnés, aux côtés de projets comme UniSim (Google DeepMind) ou Genie, et en parallèle des efforts des constructeurs d'humanoïdes comme Figure AI, Agility Robotics et NVIDIA (GR00T N2) sur la planification longue horizon. WEM reste un résultat académique : la validation sur robot réel n'est pas documentée dans l'article, et le code ainsi que les données HTEWorld n'étaient pas encore disponibles à la date de dépôt. Les suites naturelles sont l'évaluation sim-to-real et l'intégration avec des VLA à grande échelle comme pi-0 (Physical Intelligence) ou GR00T N2.

RechercheOpinion
1 source
WorldArena 2.0 : extension du benchmark de modèles du monde incarnés sur les modalités, fonctionnalités et plateformes
94arXiv cs.RO 

WorldArena 2.0 : extension du benchmark de modèles du monde incarnés sur les modalités, fonctionnalités et plateformes

WorldArena 2.0 est un benchmark pour l'évaluation des "world models incarnés" (embodied world models), présenté dans un preprint arXiv (2605.17912) en mai 2026. Ces modèles prédictifs entraînent des agents à anticiper l'évolution de leur environnement selon leurs propres actions, une capacité fondamentale pour la robotique autonome. Le benchmark étend l'évaluation sur trois axes : la modalité (de la vision seule vers la perception visuotactile, intégrant le toucher), la fonctionnalité (au-delà de la planification, vers l'utilisation du world model comme environnement d'entraînement par renforcement interactif), et la plateforme (depuis les simulateurs vers des robots physiques à morphologies variées). La suite est accessible sur world-arena.ai sous un protocole standardisé mesurant qualité perceptuelle, utilité interactive et performances cross-plateforme. Le principal apport est de combler un angle mort méthodologique : les benchmarks existants pour les world models se limitaient à la prédiction vidéo hors-ligne, dans des simulateurs, sans évaluer leur utilité dans une boucle RL ni leur comportement sur robots réels. Cette restriction rendait presque impossible de trancher si un world model est réellement utile pour un intégrateur : capable de générer des expériences synthétiques fiables pour affiner une politique de contrôle, et robuste face aux imprécisions du contact physique. L'extension visuotactile est particulièrement significative, le retour haptique étant un verrou connu du sim-to-real pour la manipulation. Ce benchmark succède à une première version de WorldArena centrée sur la simulation, et répond à une critique croissante dans la communauté : les métriques de qualité vidéo (FID, PSNR) ne prédisent pas la performance effective d'un agent sur robot physique. Sur le plan concurrentiel, WorldArena 2.0 s'inscrit aux côtés d'initiatives comme RoboVerse ou les suites d'évaluation des VLAs (Vision-Language-Action models) portées par DeepMind et Meta AI. Aucun acteur français ou européen n'est mentionné dans ce preprint, qui reste une contribution académique sans partenariat industriel annoncé. Les étapes suivantes logiques incluent l'extension à des humanoïdes complets et l'intégration de modalités supplémentaires comme la proprioception.

RecherchePaper
1 source
SCAR : apprentissage auto-supervisé de représentations d'actions continues
95arXiv cs.RO 

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Une équipe de chercheurs a publié début mai 2026 sur arXiv (référence 2605.16412) un framework baptisé SCAR, pour Self-Supervised Continuous Action Representation Learning, visant à apprendre des représentations d'actions unifiées et transférables entre différents robots à partir de simples transitions visuelles. L'architecture repose sur un backbone génératif préentraîné, couplé à deux modules complémentaires : un modèle de dynamique inverse (IDM) qui infère des actions latentes à partir de paires d'observations, et un modèle de dynamique directe (FDM) qui prédit les états futurs conditionnés sur ces actions latentes. Pour éviter que l'espace latent ne devienne un simple goulot d'étranglement visuel générique, les auteurs régularisent la distribution postérieure des actions vers un prior gaussien standard, et introduisent une contrainte d'invariance adversariale pour supprimer les facteurs propres à chaque morphologie de robot ou à chaque environnement. Les expériences sont conduites sur les benchmarks Procgen et Robotwin, et montrent que SCAR surpasse les actions brutes spécifiques à chaque embodiment comme interface de conditionnement pour les world models, notamment en régimes de faibles données. L'enjeu industriel est significatif : l'un des verrous les plus coûteux du déploiement robotique est précisément le besoin de recollecte massive de données à chaque changement de plateforme matérielle. Si une représentation d'action partagée peut effectivement abstraire le "changement contrôlable" indépendamment de l'actuation physique, les intégrateurs pourraient réutiliser des world models pré-entraînés sur un robot pour en adapter un autre avec beaucoup moins d'exemples. SCAR apporte un argument empirique au débat sur la transférabilité des VLA (Vision-Language-Action models) : là où des architectures comme pi-0 ou GR00T N2 s'appuient sur des actions en espace proprioceptif brut, l'approche latente supervisée de façon auto-cohérente pourrait constituer une interface de conditionnement plus robuste. Le contexte est celui d'une compétition intense autour des world models pour la robotique, portée côté industrie par des acteurs comme Physical Intelligence (pi-0), NVIDIA (GR00T), et Figure AI, et côté académique par des travaux sur les modèles d'espace d'état et les représentations de politique. SCAR se distingue en traitant l'action non comme un signal de contrôle auxiliaire mais comme un facteur représentationnel à part entière, ce qui est une position théorique distincte des approches VLA classiques. Les auteurs ne mentionnent pas de code public ni de partenariat industriel dans la prépublication, et les résultats restent à confirmer sur des benchmarks physiques réels, Procgen et Robotwin étant deux environnements de simulation. L'absence de métriques sur du matériel réel est à garder à l'esprit avant toute extrapolation vers des cas industriels.

UESi validé sur matériel physique, ce framework de représentation d'actions transférables pourrait réduire les coûts de ré-entraînement pour les intégrateurs robotiques européens lors du changement de plateforme matérielle.

RechercheOpinion
1 source
Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique
96arXiv cs.RO 

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2507.01099, version 4) un modèle de génération vidéo 4D destiné à améliorer la planification et la manipulation robotique. L'approche prend en entrée une seule image RGB-D par point de vue, c'est-à-dire une image couleur couplée à une carte de profondeur, et génère des séquences vidéo futures alignées spatialement et temporellement depuis de nouveaux angles de caméra, sans nécessiter la connaissance préalable des poses de caméra. La cohérence géométrique multi-vue est imposée pendant l'entraînement par une supervision fondée sur l'alignement de nuages de points inter-vues (cross-view pointmap alignment), forçant le modèle à construire une représentation 3D partagée de la scène. Les vidéos 4D prédites sont ensuite exploitées par un tracker de pose 6DoF disponible sur étagère pour reconstituer les trajectoires de l'effecteur terminal du robot, produisant des politiques de manipulation qui généralisent à des points de vue inédits. Les expériences portent sur plusieurs jeux de données robotiques simulés et réels, avec de meilleures performances visuelles et spatiales que les approches de référence. Ce résultat s'attaque directement à l'un des verrous majeurs du déploiement industriel de la manipulation robotique : la dépendance à une calibration précise des caméras et à leur positionnement fixe. En apprenant implicitement la géométrie de la scène plutôt qu'en la recevant comme entrée explicite, le modèle produit des prédictions visuellement stables là où les approches concurrentes dérivent dès qu'on change l'angle de vue. Pour un intégrateur ou un COO industriel, cela signifie qu'une cellule robotisée pourrait potentiellement réutiliser une politique apprise sans reconfigurer l'ensemble du système de vision si une caméra est déplacée. L'utilisation d'un tracker 6DoF hors catalogue pour extraire les trajectoires limite par ailleurs le besoin d'infrastructure propriétaire et simplifie l'intégration. Ce travail s'inscrit dans la vague des "world models" appliqués à la robotique, aux côtés d'approches comme UniSim ou des modèles VLA (Vision-Language-Action) à grande échelle qui cherchent eux aussi à donner aux robots une compréhension prédictive de leur environnement. La principale réserve est que le papier est une prépublication arXiv, sans validation industrielle annoncée ni partenaire de déploiement identifié : c'est de la recherche amont, pas un produit expédié. Les méthodes concurrentes s'appuyant sur des poses de caméra explicites, comme les approches NeRF ou 3D Gaussian Splatting pour la manipulation, offrent parfois une précision supérieure dans des environnements très contrôlés, mais au prix d'une configuration plus contraignante. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes, une montée en échelle sur des plateformes comme les bras Franka ou UR, et une intégration dans des pipelines de politique complète de type diffusion ou transformer.

IA physiquePaper
1 source
OrbiSim : des modèles du monde comme moteurs physiques différentiables pour l'IA incarnée
97arXiv cs.RO 

OrbiSim : des modèles du monde comme moteurs physiques différentiables pour l'IA incarnée

Une équipe de chercheurs a déposé sur arXiv en mai 2026 (réf. 2605.16395) un article présentant OrbiSim, un nouveau paradigme de simulation robotique qui repositionne les modèles du monde (world models) comme des moteurs physiques entièrement différentiables. Là où les world models existants, tels que DreamerV3 ou TD-MPC2, opèrent dans des espaces latents ou visuels sans contraintes physiques explicites, OrbiSim construit une chaîne unifiée et physiquement ancrée reliant trois composantes : des actifs de scène structurés, une dynamique neurale apprise, et l'entraînement par renforcement en aval. L'architecture garantit une différentiabilité de bout en bout sur l'ensemble de la boucle de simulation, depuis les transitions d'état explicites jusqu'à la génération d'observations visuelles. Cette propriété permet des tâches jusqu'ici peu tractables pour les simulateurs classiques : modélisation différentiable des contacts, optimisation de politique par gradient sous récompenses éparses, et inférence physique intuitive. Les auteurs affirment qu'OrbiSim surpasse significativement les world models de l'état de l'art en fidélité prédictive et en performance de contrôle, sans toutefois publier de métriques chiffrées dans l'abstract. L'enjeu industriel est réel : le fossé sim-to-real reste l'un des principaux freins au déploiement de robots en environnement non contrôlé. Les simulateurs classiques comme MuJoCo, Isaac Sim (NVIDIA) ou PyBullet ne sont pas différentiables au niveau des contacts, ce qui bloque l'optimisation par gradient lors des phases de manipulation ou de locomotion complexe. Les world models neuronaux offrent la flexibilité, mais au prix de la cohérence physique. OrbiSim propose une synthèse des deux approches. Si les résultats se confirment à plus grande échelle, la capacité à optimiser des politiques par gradient sous récompenses éparses pourrait réduire significativement les temps de convergence en apprentissage par renforcement, un gain direct pour les équipes développant des robots manipulateurs ou bimanes destinés à l'industrie. Il faut souligner qu'il s'agit d'un preprint non encore soumis à peer review, sans affiliation industrielle explicite ni validation sur hardware physique annoncée. Le domaine de la simulation différentiable est activement disputé : DiffTaichi, Warp (NVIDIA) et Brax (Google DeepMind) couvrent déjà certains aspects de la physique différentiable, mais sans intégrer la génération visuelle neurale. OrbiSim se positionne dans un espace hybride encore peu occupé. Les prochaines étapes crédibles seraient une validation sur benchmarks standardisés comme RoboSuite ou IsaacLab, et surtout des expériences de transfert sim-to-real sur robot physique, dont aucune n'est annoncée à ce stade.

RecherchePaper
1 source
Modèle du monde par retour d'information pour guidage précis des politiques de diffusion
98arXiv cs.RO 

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (référence 2605.15705v1) un nouveau paradigme pour améliorer la robustesse des politiques de diffusion en robotique manipulation. Leur approche, baptisée "feedback world model", s'attaque à un problème bien documenté : les modèles de monde (world models) utilisés pour anticiper les conséquences des actions robotiques perdent en fiabilité dès que le robot rencontre des états hors distribution d'entraînement. La méthode maintient un état de retour léger (feedback state) mis à jour en temps réel après chaque action, en exploitant l'observation directe de l'état suivant réel pour corriger itérativement les prédictions futures, sans données d'entraînement supplémentaires ni mise à jour des paramètres du modèle. Les expériences menées sur les benchmarks LIBERO-Plus et Robomimic, ainsi que sur des tâches de manipulation réelles, affichent une réduction de l'erreur de prédiction allant jusqu'à 76,4 % et une amélioration du taux de succès hors distribution (OOD) de 30 %. Les auteurs introduisent également une "action-aware guidance", un mécanisme qui amplifie les composantes de la prédiction contrôlables par l'action tout en supprimant les variations non pertinentes pour le contrôle. Le problème ciblé est structurant pour l'industrie robotique : les systèmes entraînés en simulation ou sur des jeux de données contraints échouent fréquemment en déploiement réel, précisément parce que les états rencontrés divergent de la distribution d'entraînement. La clé du résultat est que cette correction opère entièrement à l'inférence, ce qui la rend directement exploitable sans coût de réentraînement, un atout majeur pour les intégrateurs aux ressources de fine-tuning limitées. Les auteurs formalisent leur méthode comme un observateur en espace latent et en démontrent la convergence sous des conditions modérées, apportant une garantie théorique inhabituelle dans la littérature sur les world models. Cela contredit l'idée reçue selon laquelle la robustesse au distribution shift exige nécessairement plus de données ou un réentraînement ciblé. Les politiques de diffusion constituent depuis 2023 un paradigme dominant en manipulation robotique, adoptées dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures VLA de type GR00T (NVIDIA). Les world models en boucle ouverte associés à ces architectures sont une limite reconnue que des groupes comme Google DeepMind (RT-2) ou des laboratoires académiques cherchent activement à dépasser. Ce preprint, soumis en mai 2025, ne s'accompagne d'aucune annonce industrielle ni de pilote terrain identifié : il reste à ce stade une contribution académique. La prochaine étape naturelle serait une validation sur des robots humanoïdes ou des cellules de manipulation semi-structurées, là où les dérives hors distribution constituent le quotidien opérationnel.

💬 Le point douloureux de toutes les politiques de diffusion, c'est ce moment où le robot sort de sa distribution d'entraînement et part en vrille. Corriger ça à l'inférence, sans réentraîner, c'est exactement ce que les équipes d'intégration attendaient depuis des mois. Bon, c'est un preprint, pas de démo terrain encore, mais 30% de gain en OOD sur Robomimic avec des garanties de convergence, ça mérite qu'on y revienne dans six mois.

IA physiqueOpinion
1 source
DiLA : modèles du monde à représentation d'actions latentes disentangled
99arXiv cs.RO 

DiLA : modèles du monde à représentation d'actions latentes disentangled

Un preprint déposé sur arXiv (2605.15725) introduit DiLA, un modèle de monde à actions latentes disentanglées. Les Latent Action Models (LAMs) existants apprennent des représentations d'actions depuis des vidéos non annotées en inférant des transitions entre frames consécutifs, mais souffrent d'un compromis documenté: plus l'abstraction de l'action est poussée, plus la fidélité de génération vidéo se dégrade. DiLA attaque ce problème par un disentanglement contenu/structure: un pathway dédié encode les layouts spatiaux (structure), un second gère les détails visuels (content). L'insight central est que le goulot d'étranglement prédictif propre aux LAMs agit comme levier naturel pour ce disentanglement, sans supervision explicite. Les auteurs documentent des améliorations sur quatre métriques: qualité de génération vidéo, transfert d'action, planification visuelle et interprétabilité de l'espace latent. L'enjeu pratique pour la robotique et les modèles VLA (Vision-Language-Action) est direct: les données d'actions annotées restent coûteuses à collecter, et un modèle de monde capable d'extraire des représentations d'actions sémantiquement cohérentes depuis des vidéos brutes pourrait réduire cette dépendance. La capacité de transfert d'action est particulièrement pertinente pour le problème sim-to-real: un disentanglement robuste entre structure et contenu visuel facilite la généralisation de dynamiques apprises en simulation vers des environnements réels. Contrairement aux approches à deux étapes qui nécessitent un world model pré-entraîné en amont, DiLA s'entraîne de bout en bout, ce qui simplifie le pipeline et réduit les dépendances à des modèles tiers. Les LAMs trouvent leur ancrage dans des travaux comme LAPO et les méthodes basées sur l'optical flow, dont DiLA cherche à dépasser les limites. L'approche s'inscrit dans un écosystème plus large de world models auto-supervisés qui inclut Dreamer (DeepMind), GAIA-1 (Wayve, conduite autonome) et UniSim. Aucun partenariat industriel ni déploiement n'est annoncé: c'est une contribution de recherche fondamentale. Les suites logiques incluent une validation sur des benchmarks robotiques standardisés (RLBench, Calvin) et une intégration dans des pipelines VLA tels qu'OpenVLA ou pi0 (Physical Intelligence), où des représentations d'actions latentes robustes constituent un composant clé pour la généralisation inter-tâche et inter-robot.

RechercheOpinion
1 source
Modèle du monde multimodal pour interactions physiques : prédictions visuelles et tactiles simultanées pour une précision accrue
100arXiv cs.RO 

Modèle du monde multimodal pour interactions physiques : prédictions visuelles et tactiles simultanées pour une précision accrue

Des chercheurs ont publié sur arXiv (2304.11193v2) une étude portant sur l'intégration du retour tactile dans les modèles prédictifs de perception pour la manipulation robotique. L'approche, baptisée "visuo-tactile prediction", consiste à entraîner un modèle de monde capable de générer simultanément des prédictions visuelles et tactiles à partir d'observations de poussée d'objets. Pour alimenter ces travaux, deux jeux de données inédits ont été constitués à l'aide d'un capteur tactile à base magnétique : le premier contient des objets visuellement identiques mais aux propriétés physiques différentes (masse, rigidité), isolant explicitement l'ambiguïté physique ; le second reproduit les benchmarks classiques de robot-pushing avec des regroupements d'objets du quotidien. Le code source et les données sont mis à disposition publiquement. Le résultat central de cette recherche remet en question un postulat implicite de nombreux systèmes de world models robotiques : la vision seule ne suffit pas pour prédire fidèlement les interactions physiques dès lors que les objets sont visuellement indiscernables. Dans ces régimes ambigus, l'intégration tactile améliore significativement la précision et la robustesse des prédictions. En revanche, lorsque la dynamique est visuellement déductible, les gains tactiles restent limités. Pour les intégrateurs et équipes de R&D en manipulation, cela signifie que le retour tactile n'est pas un luxe mais une nécessité sélective : son déploiement est justifié précisément là où la vision échoue, typiquement lors de la manipulation d'objets déformables, transparents ou de densité variable. Ce travail s'inscrit dans un effort plus large de la communauté robotique pour dépasser les modèles de monde purement visuels, qui montrent leurs limites dans les tâches de contact. Des travaux concurrents comme ceux de Meta AI (v-jepa), de Google DeepMind (RT-2) ou de Physical Intelligence (Pi-0) explorent également les représentations multimodales, mais restent majoritairement centrés sur la vision et le langage. L'usage d'un capteur magnétique plutôt que optique (comme ceux de GelSight/Digit popularisés par Meta) constitue un choix technique notable, potentiellement plus robuste en conditions industrielles. La mise à disposition des données en accès libre ouvre la voie à des évaluations comparatives plus rigoureuses, un manque criant dans le domaine de la manipulation tactile.

RecherchePaper
1 source