
GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique
Des chercheurs ont publié le 3 juin 2026 sur arXiv (référence 2606.03188) une nouvelle architecture baptisée GeoSem-WAM, pour "Geometry- and Semantic-Aware World Action Model". L'objectif : améliorer les World Action Models (WAMs), une classe de modèles d'apprentissage utilisés pour la prise de décision en robotique incarnée. La contribution centrale consiste à enrichir la représentation latente apprise par ces modèles en ajoutant deux branches de prédiction auxiliaires, l'une dédiée à la géométrie future de la scène, l'autre à sa sémantique, en complément de la prédiction RGB classique. Le tout est intégré dans un espace latent unifié capturant simultanément la dynamique de la scène, sa structure spatiale et son contenu sémantique. Cruciale est la contrainte d'efficacité conservée : aucun rollout explicite ni génération vidéo n'est effectué à l'inférence, ce qui distingue GeoSem-WAM des approches monde qui consomment de la mémoire et du compute à chaque décision.
L'intérêt industriel de ce travail réside dans la question qu'il adresse en filigrane : les WAMs sont-ils efficaces parce qu'ils imaginent explicitement le futur lors de l'inférence, ou simplement parce que l'entraînement prédictif force l'encodeur à apprendre de meilleures représentations ? Les résultats suggèrent que c'est la qualité des représentations latentes qui prime, et que l'imagination à l'inférence est accessoire. Pour les équipes robotiques travaillant sur des agents navigant dans des environnements non structurés, cela signifie qu'enrichir la supervision d'entraînement avec des signaux géométriques et sémantiques peut améliorer la robustesse sans alourdir le temps de cycle à l'exécution. Les auteurs rapportent des gains en précision de prédiction d'action et en robustesse sur des scénarios difficiles, bien que ces résultats restent à ce stade des benchmarks académiques sur simulateur, non validés sur hardware physique.
Les WAMs constituent une catégorie en consolidation dans la recherche en robotique, parallèle aux approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui intègrent aussi des priors de représentation riche. GeoSem-WAM s'inscrit dans un courant visant à combler le sim-to-real gap par une meilleure compréhension structurelle de l'environnement, sans recourir à des architectures de diffusion coûteuses à l'inférence. Aucun partenariat industriel ni déploiement sur robot réel n'est annoncé dans cet article, qui demeure une contribution de recherche fondamentale soumise en preprint et n'ayant pas encore subi de revue par les pairs.
Dans nos dossiers




