
Co-policy : création musicale humain-robot en temps réel
Des chercheurs proposent Co-policy, un framework de co-création musicale humain-robot présenté comme preprint sur arXiv (référence 2606.19914). Le système articule trois blocs fonctionnels indépendants : un ancrage sémantique pré-inférence associé à un planificateur multimodal Qwen-VL fine-tuné (baptisé F-Qwen), chargé de convertir la parole, des séquences musicales jouées en direct et les observations visuelles en plans de co-création structurés ; une politique visuomotrice à mélange gaussien (GMP, Gaussian-Mixture Visuomotor Policy), implémentée comme une mixture-density network conditionnelle qui produit des actions robotiques multimodales en un seul passage forward ; et un module de variation musicale opérant sous contraintes à la fois musicales et physiques. Les expériences ont été menées sur un robot réel jouant des carillons (chimes), avec ablations et évaluation experte. Co-policy surpasse les baselines à politique de diffusion sur trois métriques : alignement d'intention, précision d'exécution et fréquence de réponse.
Ce qui distingue l'approche des systèmes de lecture robotique classiques, c'est que le robot ne se contente pas de reproduire des notes prédéfinies par l'utilisateur : il génère des réponses musicales complémentaires, en temps réel, en tenant compte du contexte auditif et visuel. Pour un intégrateur ou un décideur R&D, c'est la démonstration que les VLA (Vision-Language-Action models) peuvent s'étendre à des tâches créatives ouvertes, pas uniquement à des tâches de manipulation industrielle ou domestique. La séparation explicite entre couche sémantique (LLM multimodal) et couche d'exécution (GMP en forward pass unique) est aussi une réponse directe au problème de latence qui pénalise les architectures de diffusion dans les contextes temps réel. Le recours à Qwen-VL open-source comme planificateur, fine-tuné plutôt qu'utilisé tel quel, facilite la reproductibilité de la recherche.
Co-policy s'inscrit dans un mouvement plus large qui cherche à ancrer physiquement les modèles génératifs, au-delà du contenu numérique désincorporé. La diffusion policy, popularisée notamment par les travaux de Chi et al. (2023), reste la référence dominante pour les politiques visuomotrices génériques, et c'est contre cette baseline que Co-policy se mesure. Aucun acteur commercial, ni français ni européen, n'est impliqué dans ce travail académique. Les suites naturelles identifiées par les auteurs incluent l'extension à d'autres instruments et à des configurations multi-robots ; aucun calendrier ni partenariat industriel n'est annoncé à ce stade.
Dans nos dossiers




