J-LAW : localisation conjointe et modélisation du monde orientée action via des graphes de facteurs latents couplés
Un préprint publié sur arXiv (identifiant 2606.28712) introduit J-LAW (Joint Localization and Actionable World Modeling), une architecture qui fusionne le SLAM classique et les modèles de monde conditionnés par l'action dans un unique graphe de facteurs probabilistes. L'objectif MAP (Maximum A Posteriori) commun optimise simultanément les poses métriques des objets, les états latents du monde et les embeddings latents de landmarks. Le pont entre ces deux formulations est un encodeur latent conditionné par la pose et un facteur de couplage pose-latent appris. Les expériences portent sur deux benchmarks : PushT, une tâche de manipulation planaire, et WildGS, un environnement de reconstruction 3D gaussienne. Les résultats montrent que la correction par graphe couplé réduit l'erreur quadratique moyenne de prédiction latente et la dérive de point final par rapport au rollout en boucle ouverte, tandis que la fermeture de boucle latente améliore la cohérence globale de trajectoire.
L'enjeu est structurant pour la robotique de manipulation : les systèmes actuels souffrent d'une dichotomie entre localisation précise et planification prédictive. Le SLAM produit des cartes métriques que les planificateurs ne savent pas exploiter directement ; les modèles de monde appris prédisent l'effet des actions mais perdent la cohérence spatiale sur des horizons longs, limitant leur utilité en déploiement réel. J-LAW démontre qu'en couplant ces deux estimations, chaque composante améliore l'autre : une meilleure localisation stabilise la prédiction latente, et réciproquement. C'est une réponse partielle à la dérive en open-loop, problème concret dans les pipelines de manipulation autonome. Pour les équipes travaillant sur des systèmes VLA ou de navigation, ce cadre suggère une représentation unifiée, métrique et actionnable, sans orchestrer deux pipelines distincts.
La séparation entre SLAM et modèles de monde appris est historiquement ancrée : le SLAM probabiliste date des années 2000, tandis que les modèles de monde deep (RSSM, DreamerV3) sont apparus dans la décennie suivante. Plusieurs travaux récents tentent ce rapprochement dans le champ des VLA, où la cohérence spatiale devient un enjeu croissant. J-LAW se positionne comme une contribution théorique structurée via la formalisation en graphe de facteurs, et non comme un système prêt au déploiement. Limite à noter : les expériences restent sur des benchmarks standardisés, sans validation sur robot physique réel en scène dynamique. Aucun partenariat industriel ni timeline de transfert n'est mentionné dans ce préprint.
Dans nos dossiers




