Aller au contenu principal
$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction
RecherchearXiv cs.RO2h

$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent μ₀ (mu-zéro), un modèle mondial 3D à base de traces d'interaction, publié en préprint sur arXiv (2506.13769) en juin 2025. Plutôt que de reconstruire des pixels denses comme les modèles vidéo, ou d'exiger des étiquettes d'action spécifiques à chaque morphologie robotique, μ₀ prédit des trajectoires 3D lisses pour des points saillants : objets, outils, mains et zones de contact, encodées en points de contrôle B-spline. Le système TraceExtract extrait automatiquement cette supervision depuis des vidéos diversifiées, en sélectionnant des points clés, construisant des traces alignées globalement et associant chaque segment à des légendes linguistiques hiérarchiques. L'architecture couple un backbone vision-langage préentraîné à un expert de traces modulaire. Dans les expériences de laboratoire, μ₀ dépasse les baselines en prédiction de traces 2D et 3D, y compris les approches VLM tokenisées.

L'enjeu central est l'interopérabilité cross-embodiment : permettre à une politique robotique d'opérer sur différentes morphologies sans données d'action spécifiques. Les VLA comme π₀ de Physical Intelligence ou GR00T N2 de NVIDIA nécessitent des téléopérations coûteuses pour étiqueter les actions, freinant la scalabilité. μ₀ contourne ce verrou en apprenant une représentation intermédiaire agnostique à l'embodiment, couplable ensuite à des experts d'action légers par morphologie cible. Résultat notable : malgré un préentraînement entièrement sans étiquettes d'action, les politiques trace-conditionnées atteignent des performances compétitives avec π₀, un VLA entraîné avec supervision d'action complète. Si cette généralisation se confirme à l'échelle, des politiques de manipulation pourraient être entraînées massivement sur des vidéos génériques, humaines ou issues de la simulation, sans collecte de données robot-spécifiques.

La robotique de manipulation cherche depuis des années à s'affranchir des données proprioceptives labellisées, coûteuses à collecter. Deux approches dominent actuellement : les modèles vidéo pixel-dense comme UniSim ou Genie, et les VLA directs comme OpenVLA, π₀ ou GR00T N2, chacun présentant ses propres limites de scalabilité ou de spécificité. μ₀ propose un troisième espace latent, la trace 3D compacte, entraînable sur des vidéos brutes. Les concurrents les plus proches incluent les travaux de point-tracking tels que TAPIR et CoTracker, ainsi que les modèles d'action en espace latent. Le papier reste un préprint de laboratoire sans déploiement industriel annoncé, et la robustesse en environnement réel non contrôlé reste à démontrer. Les prochaines étapes logiques incluent la validation sur des flottes multi-robots hétérogènes et l'intégration dans des pipelines d'imitation learning à grande échelle.

À lire aussi

SKIP : paradigme d'interpolation par images-clés éparses pour modèles du monde incarnés efficaces
1arXiv cs.RO 

SKIP : paradigme d'interpolation par images-clés éparses pour modèles du monde incarnés efficaces

Une équipe de recherche publie SKIP (Sparse Keyframe Interpolation Paradigm), un cadre visant à accélérer l'inférence des modèles de monde incarnés (embodied world models) en robotique. Ces modèles prédisent visuellement l'effet des actions d'un robot sur son environnement et servent à générer des données synthétiques pour entraîner des politiques de contrôle. Générer ces séquences image par image est coûteux en calcul, mais supprimer des frames de façon indiscriminée détruit les événements critiques (approche, contact, saisie, relâchement) dont les politiques aval ont besoin. SKIP fonctionne en trois étapes : identification des keyframes pertinentes via des caractéristiques multimodales robot-aware, synthèse de ces seules keyframes par un modèle de diffusion vidéo sparse, puis reconstruction des intervalles manquants par un interpolateur conditionné sur les actions du robot. Sur le benchmark LIBERO, SKIP génère des séquences denses 4,16 fois plus vite qu'une baseline frame-by-frame et réduit le FVD (Fréchet Video Distance) agrégé de 89,0 %. Lorsque les vidéos SKIP remplacent intégralement les démonstrations réelles pour entraîner la politique π₀.₅ de Physical Intelligence, la perte de performance n'est que de 1,3 point de pourcentage en simulation et de 6,7 pp sur robot réel, contre un effondrement de 48 à 58 pp avec la génération dense classique. Ce résultat valide un principe clé pour les pipelines de robotique apprenante : une génération synthétique ciblée sur les événements critiques peut remplacer des démonstrations humaines coûteuses sans dégrader sérieusement la politique finale. L'effondrement de la génération dense (48-58 pp) confirme que c'est la préservation des keyframes critiques, et non la densité brute des frames, qui conditionne le transfert sim-to-real. Pour les équipes développant des robots manipulateurs à grande échelle, réduire la dépendance aux données réelles est un levier économique et opérationnel majeur. SKIP répond également au goulot d'étranglement du rollout inference, qui freine actuellement le déploiement de ces modèles de monde dans des boucles d'entraînement intensives. Les modèles de monde incarnés s'imposent comme axe de recherche depuis les travaux sur UniSim et les premières politiques visuomotrices génératives. La politique π₀.₅ est issue de Physical Intelligence, startup fondée en 2023 spécialisée en modèles de fondation pour la robotique généraliste. Dans le paysage concurrentiel, des approches comme IRASim ou RoboDreamer poursuivent des objectifs similaires ; SKIP se distingue par sa stratégie d'économie computationnelle orientée événements plutôt que par simple sous-échantillonnage temporel. Aucun acteur européen n'est directement impliqué dans ce travail. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation plus complexes et l'intégration dans des pipelines VLA (Vision-Language-Action) en production.

RechercheOpinion
1 source
SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde
2arXiv cs.RO 

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

Des chercheurs proposent SANTS (State-Adaptive Noise Trajectory Scheduler), un scheduler léger pour les politiques de diffusion vidéo-vers-action dans les World Action Models (WAMs). Soumis sur arXiv (2605.27947) le 28 mai 2026, le travail part d'un constat empirique : dans les WAMs pixel-space, débruiter complètement la vidéo future n'optimise pas toujours la qualité de l'action produite. Au-delà d'un seuil dépendant de l'état du robot, le raffinement supplémentaire sature ou dégrade la performance. SANTS lit la représentation vidéo-état courante et le niveau de bruit, prédit un point d'arrêt adaptatif, et est entraîné par post-training avec une récompense sur la qualité finale de l'action (et non sur la fidélité de la vidéo intermédiaire). Résultats annoncés : 94,4 % de succès sur RoboTwin 2.0, 73,1 % sur sept tâches réelles, avec une réduction de latence de 81,7 % et 79,0 % respectivement par rapport au débruitage complet. L'enjeu opérationnel est la fréquence de contrôle : les WAMs souffrent d'une latence d'inférence élevée qui limite leur déploiement dans des boucles de contrôle rapides. Diviser par cinq ce coût d'inférence sans perte majeure de performance valide l'idée que la représentation future n'a pas besoin d'être parfaitement rendue pour conditionner efficacement l'action, une hypothèse implicite des architectures WAM qui n'était pas encore démontrée à cette échelle. Cela dit, le papier reste un preprint non relu par les pairs, et sept tâches réelles constituent un set de validation étroit pour prétendre à une généralisation industrielle. Les WAMs ont émergé comme alternative aux politiques VLA classiques en intégrant une prédiction vidéo du futur pour guider la génération d'actions. SANTS se positionne comme une surcouche d'optimisation compatible avec les designs existants, sans modifier la branche action du modèle de base. Dans l'écosystème actuel, Physical Intelligence (pi0), NVIDIA (GR00T N2) et Figure (Figure 03) développent des politiques de diffusion pour la manipulation, où la réduction de la latence d'inférence devient un facteur de compétitivité commerciale. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges comme DROID ou Open X-Embodiment, et la mise à disposition publique des poids et du code.

RechercheOpinion
1 source
WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés
3arXiv cs.RO 

WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés

Une équipe de chercheurs a publié WestWorld (arXiv:2603.14392), un modèle de monde trajectoire conçu pour opérer sur des systèmes robotiques hétérogènes. Préentraîné sur 89 environnements complexes couvrant une large variété de morphologies en simulation et en conditions réelles, le modèle cible deux lacunes récurrentes dans la littérature : la difficulté de passer à l'échelle face à un grand nombre de dynamiques système distinctes, et l'absence d'intégration des connaissances sur les structures physiques des robots. La validation réelle a été conduite sur un quadrupède Unitree Go1, où WestWorld a démontré des performances stables en locomotion. Le code source est disponible sur GitHub. L'architecture repose sur un mécanisme baptisé Sys-MoE (system-aware Mixture-of-Experts), qui route dynamiquement des experts spécialisés selon le système robotique fourni en entrée, via un embedding système appris. Un embedding structurel complémentaire aligne les représentations de trajectoires avec les informations morphologiques du robot, permettant au modèle de tenir compte du fait qu'un bras articulé, un quadrupède et une plateforme mobile n'obéissent pas aux mêmes contraintes physiques. Les résultats affichent des gains significatifs en prédiction de trajectoire zero-shot et few-shot face aux baselines compétitives, ainsi qu'une amélioration des performances sur le contrôle model-based downstream pour différentes plateformes robotiques. La scalabilité tient sur un spectre large d'environnements, ce qui constitue l'argument central de la contribution. La publication s'inscrit dans une tendance forte : appliquer aux robots les world models issus du monde des agents RL et des LLMs multimodaux, à l'image de Dreamer, UniSim, ou des frameworks VLA (Vision-Language-Action) orientés manipulation. WestWorld se distingue par son ambition généraliste multi-morphologie, là où la majorité des approches concurrentes restent spécialisées sur une famille de robots. L'usage du Unitree Go1 comme banc de test réel est pertinent mais reste un cas relativement balisé dans la littérature, ce qui nuance la portée de la démonstration sim-to-real. Les prochaines étapes logiques seront d'évaluer le transfert sur des morphologies plus complexes, humanoïdes notamment, là où les défis de généralisation sont encore ouverts.

RecherchePaper
1 source
Évolution continue des compétences dans un modèle vision-langage-action (VLA)
4arXiv cs.RO 

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Des chercheurs ont publié Stellar VLA (arXiv:2511.18085v3), un cadre d'apprentissage continu par imitation (continual imitation learning, CIL) pour les modèles Vision-Langage-Action (VLA). La méthode propose deux variantes progressives : T-Stellar, fondée sur une modélisation plate centrée sur les tâches, et TS-Stellar, organisée en structure hiérarchique tâche-compétence. Les expériences menées sur le benchmark LIBERO, référence standard pour les tâches de manipulation robotique, montrent que les deux variantes surpassent les baselines VLA et CIL actuelles, avec seulement 1 % de rejeu de données. Une validation en conditions réelles sur une plateforme bi-bras, avec des configurations de scènes et d'embodiments distincts, confirme que le transfert de connaissances entre tâches reste effectif au-delà du simulateur. Le principal apport de Stellar VLA est d'adresser un frein structurel au déploiement des grands modèles VLA : les méthodes CIL existantes nécessitent des paramètres additionnels ou des modules externes, ce qui les rend difficilement scalables lorsque le modèle de base est déjà massif. En optimisant conjointement des représentations de tâches et un espace de connaissances partagé, Stellar VLA introduit un mécanisme de routage expert guidé par la sémantique, sélectionnant les K embeddings les plus proches pour orienter le modèle vers la compétence pertinente, sans alourdir l'architecture. Pour les équipes qui déploient des robots polyvalents en production, cela ouvre la voie à l'apprentissage incrémental de nouvelles tâches avec un coût de fine-tuning réduit. TS-Stellar se distingue notamment sur les manipulations hiérarchiques complexes, et les visualisations publiées illustrent une rétention robuste des compétences acquises ainsi qu'une capacité de découverte automatique de nouvelles tâches. Les VLA constituent un axe de recherche en accélération depuis 2023, portés par Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (UC Berkeley) ou encore RT-2 (Google DeepMind), qui cherchent à généraliser la manipulation robotique via un préentraînement multimodal massif. La question du catastrophic forgetting, c'est-à-dire la perte des compétences antérieures lors de l'apprentissage d'une nouvelle tâche, reste un verrou non résolu à l'échelle industrielle. Stellar VLA se positionne comme une surcouche légère applicable à des VLA existants, sans retraining complet. Le projet est documenté sur stellarvla.github.io ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un travail de recherche académique.

RechercheOpinion
1 source