
EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage
Des chercheurs ont présenté EL3DD (Extended Latent 3D Diffusion), un cadre de politique visuomotrice conçu pour permettre aux robots d'exécuter des tâches de manipulation physique à partir de commandes en langage naturel. Le système fusionne des entrées visuelles et textuelles au sein de modèles de diffusion pour produire des trajectoires robotiques précises, en s'appuyant sur des démonstrations de référence pendant l'entraînement. Évalué sur le benchmark CALVIN, référence standard pour la manipulation robotique multi-tâches, le modèle affiche des performances améliorées sur l'ensemble des tâches testées et un taux de réussite accru sur les séquences longues, c'est-à-dire lorsque plusieurs tâches sont enchaînées consécutivement. L'approche étend un modèle existant grâce à des embeddings améliorés et à l'adaptation de techniques issues de la génération d'images par diffusion.
Cette avancée est significative pour le domaine de la robotique généraliste, car la capacité à comprendre le langage naturel et à l'appliquer à des tâches physiques dans des environnements humains reste l'un des verrous majeurs du secteur. Le gain sur les séquences longues est particulièrement notable: dans des applications réelles, un robot domestique ou industriel doit enchaîner plusieurs gestes sans intervention humaine, et chaque erreur dans la séquence se propage aux suivantes. Un taux de réussite accru sur ces horizons prolongés rapproche les systèmes actuels d'une utilisabilité concrète hors laboratoire, que ce soit en logistique, en chirurgie assistée ou dans les services à domicile.
La recherche s'inscrit dans un mouvement plus large d'application des modèles de diffusion, rendus célèbres par leur efficacité en génération d'images avec des systèmes comme Stable Diffusion ou DALL-E, au contrôle robotique. Le dataset CALVIN, utilisé pour l'évaluation, est conçu pour tester la généralisation des robots à des environnements variés et à des instructions formulées de multiples façons. EL3DD contribue ainsi au développement de politiques robotiques multi-tâches généralisables, un enjeu central pour des acteurs comme Google DeepMind, Physical Intelligence ou de nombreux laboratoires académiques travaillant sur les robots de prochaine génération.




