Aller au contenu principal
Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone
RecherchearXiv cs.RO1h

Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche dépose sur arXiv (référence 2604.26694) X-WAM, un modèle de monde 4D unifié capable d'exécuter des actions robotiques en temps réel tout en générant simultanément des reconstructions vidéo haute fidélité et des cartes 3D de l'environnement futur. Contrairement à UWM et aux approches antérieures limitées à l'espace 2D en pixels, X-WAM prédit des flux RGB-D multi-caméras : une branche de prédiction de profondeur est greffée sur les derniers blocs d'un Diffusion Transformer vidéo pré-entraîné, une adaptation légère qui capitalise sur des priors visuels existants sans entraînement from scratch. La contribution technique centrale est l'Asynchronous Noise Sampling (ANS) : pendant l'inférence, les actions robotiques sont décodées en quelques étapes de débruitage pour respecter les contraintes de latence temps réel, tandis que la génération vidéo bénéficie du pipeline de débruitage complet. Pré-entraîné sur 5 800 heures de données robotiques, X-WAM atteint 79,2 % de taux de succès moyen sur le benchmark RoboCasa et 90,7 % sur RoboTwin 2.0, surpassant les méthodes existantes sur les métriques visuelles et géométriques de reconstruction.

Le compromis non résolu entre richesse de modélisation du monde et latence d'exécution est le noeud central de ce travail. Les architectures VLA actuelles, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, génèrent des actions rapidement mais n'estiment pas la géométrie 3D de l'environnement ; à l'inverse, les modèles génératifs produisent des représentations spatiales riches mais peinent à décoder à la cadence exigée par le contrôle robotique temps réel. ANS prétend supprimer ce dilemme en allouant des budgets de débruitage asymétriques entre les deux sorties à l'inférence, tout en maintenant un alignement de distribution pendant l'entraînement pour éviter l'écart train/test. Si ces résultats tiennent en conditions réelles, ce design ouvrirait une voie architecturale directe pour la manipulation complexe en espace non structuré.

X-WAM s'inscrit dans la vague de travaux visant à unifier perception, modélisation du monde et contrôle dans un seul réseau neuronal, une direction portée par Genie 2 de DeepMind, UniSim de Google et les recherches de World Labs. Le recours aux priors d'un modèle de diffusion vidéo pré-entraîné pour le grounding spatial est une stratégie partagée par plusieurs travaux récents sur le sim-to-real et les VLA de prochaine génération. Cela dit, l'article reste une prépublication arXiv sans revue par les pairs, et les benchmarks RoboCasa et RoboTwin 2.0 sont entièrement simulés : aucun déploiement sur robot physique n'est documenté. La validation sim-to-real constituera l'épreuve décisive, un écart qui a historiquement fait trébucher des systèmes très performants en environnement virtuel.

À lire aussi

ALAS : synthèse adaptative d'actions à long terme par séparation de flux asynchrones
1arXiv cs.RO 

ALAS : synthèse adaptative d'actions à long terme par séparation de flux asynchrones

Des chercheurs ont publié ALAS (Adaptive Long-Horizon Action Synthesis), un nouveau cadre d'apprentissage pour la robotique présenté dans un préprint arXiv (2604.20721). Ce système s'attaque à un problème central : permettre à un agent robotique d'accomplir des tâches longues et multi-étapes dans des scènes variées, ce qu'on appelle les tâches à "horizon long" dans le domaine de l'interaction humain-scène. Lors des tests comparatifs, ALAS affiche une amélioration moyenne de 23 % du taux de réussite par sous-tâche et de 29 % de l'efficacité d'exécution par rapport aux méthodes existantes. Ces résultats comptent parce que la robotique bute depuis des années sur un plafond de généralisation : les agents actuels apprennent à enchaîner des sous-tâches pré-entraînées, mais échouent dès que l'environnement ou la combinaison de compétences change légèrement. Un robot qui sait ranger une table dans un bureau peut se retrouver paralysé dans une cuisine. ALAS rompt cette dépendance en séparant explicitement la compréhension de l'environnement de l'exécution motrice, ce qui autorise le transfert vers des scènes et des compétences inédites sans tout réapprendre depuis zéro. Pour les applications industrielles et domestiques, cela rapproche concrètement la perspective d'un robot polyvalent capable de s'adapter sans reconfiguration lourde. L'architecture d'ALAS s'inspire du cerveau humain, plus précisément de la distinction neurologique entre les voies "où" et "quoi" du cortex visuel. Elle repose sur deux modules distincts : l'un dédié à la compréhension spatiale de la scène (fonctions des objets, relations géométriques, sémantique de l'environnement), l'autre au traitement des états moteurs de l'agent (degrés de liberté des articulations, schémas de mouvement). Ce découplage complet entre perception environnementale et contrôle moteur est la clé du transfert inter-domaines. La recherche en robotique s'oriente de plus en plus vers ces architectures bio-inspirées pour dépasser les limites du simple apprentissage par imitation, et ALAS constitue une étape notable dans cette direction, même si des validations sur des systèmes physiques réels restent à venir.

RecherchePaper
1 source
DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
2arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable
3arXiv cs.RO 

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

Une équipe de chercheurs a publié UniDomain, un cadre de pré-entraînement qui construit automatiquement un domaine PDDL (Planning Domain Definition Language) unifié à partir de démonstrations robotiques réelles, pour être ensuite appliqué à la planification de tâches en ligne. Le système ingère 12 393 vidéos de manipulation robotique, en extrait des domaines atomiques, et les fusionne en un domaine unifié comprenant 3 137 opérateurs, 2 875 prédicats et 16 481 arêtes causales. Face à une nouvelle classe de tâches, UniDomain récupère les atomes pertinents et les assemble dynamiquement en méta-domaines adaptés. Les expériences sur des tâches réelles inédites montrent des gains allant jusqu'à 58 % sur le taux de succès et 160 % sur l'optimalité des plans, comparé aux meilleures bases LLM seuls et LLM couplés à PDDL manuel, le tout en mode zéro-shot. Ce résultat s'attaque à l'un des verrous centraux de la robotique manipulatrice : la capacité à raisonner sur des séquences longues d'actions avec des contraintes implicites issues du langage et de la vision. Les LLM et VLM actuels fournissent de bons priors sémantiques, mais peinent à maintenir une cohérence causale sur des horizons temporels étendus et à ancrer les symboles dans le réel. UniDomain propose une voie médiane : extraire la structure symbolique directement depuis des démonstrations, évitant ainsi la fragilité des domaines PDDL codés à la main, souvent trop étroits pour généraliser. La généralisation compositionnelle zéro-shot, validée sur des tâches jamais vues, est ici une affirmation forte, bien que la sélection des vidéos sources et des scénarios de test mériterait une vérification indépendante pour écarter un biais de distribution. La planification symbolique robotique via PDDL est un paradigme ancien, remontant aux travaux STRIPS des années 1970, mais qui a souffert du coût élevé de l'ingénierie des domaines. Des approches récentes comme SayCan (Google), Code-as-Policies (Google Brain) ou les travaux de planification LLM de MetaAI ont tenté de contourner ce problème par la génération de code ou de plans en langage naturel, avec des résultats limités en environnements ouverts. UniDomain repositionne PDDL non plus comme une contrainte d'ingénierie mais comme un artefact appris, ce qui le rapproche conceptuellement des travaux sur l'apprentissage de modèles du monde. Les prochaines étapes naturelles incluent l'extension à la manipulation déformable, l'intégration avec des architectures VLA comme pi-0 ou GR00T N2, et une validation en environnement industriel réel, aujourd'hui absente de l'article.

RecherchePaper
1 source
La planification par gradient dans les modèles du monde sur des horizons prolongés
4Robohub 

La planification par gradient dans les modèles du monde sur des horizons prolongés

Des chercheurs de Meta AI, de l'Université de Californie Berkeley et du GRASP Lab ont publié un article présentant GRASP, un nouveau planificateur à base de gradients conçu pour les modèles de monde appris. L'équipe comprend Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun et Amir Bar. GRASP s'attaque à l'un des problèmes les plus persistants de l'IA incarnée : utiliser efficacement un modèle prédictif puissant pour planifier des séquences d'actions sur de longs horizons temporels. L'approche repose sur trois innovations clés : élever la trajectoire dans des états virtuels pour paralléliser l'optimisation dans le temps, introduire de la stochasticité directement dans les itérations d'état pour favoriser l'exploration, et reformuler les gradients afin que les actions reçoivent des signaux d'apprentissage clairs, tout en évitant les gradients instables qui traversent les modèles de vision haute dimension. Ce travail est important parce qu'il résout un goulot d'étranglement concret qui freine le déploiement des modèles de monde modernes dans des systèmes de contrôle réels. Un modèle de monde, dans ce contexte, est un simulateur différentiable appris : donné un état courant et une séquence d'actions futures, il prédit ce qui va se passer. En théorie, cela permettrait à un agent de planifier par optimisation, en faisant rouler le modèle en avant et en rétropropageant les erreurs. En pratique, sur de longs horizons, ce processus dégénère : les graphes de calcul deviennent mal conditionnés (problème d'explosion ou de disparition des gradients, analogue au backpropagation through time), des minima locaux apparaissent à cause de la structure non-greedy de la tâche, et les espaces latents de haute dimension introduisent des instabilités supplémentaires. GRASP contourne ces trois écueils simultanément, rendant la planification par gradient beaucoup plus robuste sans abandonner la différentiabilité du système. Les modèles de monde sont devenus un axe central de la recherche en IA depuis que Yann LeCun, directeur scientifique de Meta AI, a défendu leur rôle fondamental dans la quête d'une IA plus générale. Des systèmes comme DreamerV3 ou les modèles vidéo génératifs récents montrent que ces architectures peuvent désormais prédire de longues séquences d'observations dans des espaces visuels complexes et généraliser entre tâches. Mais posséder un simulateur puissant et s'en servir efficacement pour la prise de décision sont deux choses différentes. GRASP comble ce fossé en rendant la planification à long horizon viable là où elle échouait auparavant, ouvrant la voie à des agents robotiques ou autonomes capables de raisonner sur des séquences d'actions étendues dans des environnements réels.

RecherchePaper
1 source