
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues.
Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées.
La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.
Les laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.




