
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
Tencent AI Lab vient de publier en open source Covo-Audio, un modèle de langage audio de grande taille doté de 7 milliards de paramètres, conçu pour la conversation vocale en temps réel. Ce modèle de type LALM (Large Audio Language Model) traite directement les entrées audio continues et génère des sorties audio sans passer par une transcription textuelle intermédiaire — une approche dite "end-to-end" qui marque une rupture avec les pipelines vocaux classiques.
L'enjeu est considérable pour le secteur des assistants conversationnels : en unifiant traitement de la parole et intelligence linguistique dans une seule architecture, Covo-Audio réduit la latence et préserve les informations paralinguistiques (ton, accent, émotion) que les systèmes en cascade perdent inévitablement. La publication en open source élargit l'accès à cette technologie au-delà des grands acteurs disposant de ressources massives.
L'architecture repose sur quatre composants clés : un encodeur audio Whisper-large-v3 cadencé à 50 Hz, un adaptateur ramenant ce flux à 6,25 Hz, un backbone LLM basé sur Qwen2.5-7B-Base, et un décodeur utilisant WavLM-large avec une codebook de 16 384 entrées pour reconstruire des formes d'onde haute fidélité à 24 kHz. Le modèle a été entraîné sur un total de 2 000 milliards de tokens via un pipeline en deux phases. Une innovation centrale, le "Hierarchical Tri-modal Speech-Text Interleaving", aligne simultanément caractéristiques acoustiques continues, tokens discrets et texte naturel à deux niveaux de granularité (phrase et phrase entière).
La variante Covo-Audio-Chat-FD pousse le concept plus loin avec une interaction full-duplex — émission et réception simultanées — grâce à un traitement par chunks de 0,16 seconde et des tokens de contrôle dédiés (THINK, SHIFT, BREAK) gérant les interruptions en temps réel. Le modèle intègre également une stratégie de découplage intelligence/voix permettant de personnaliser la voix du modèle avec un minimum de données TTS, sans retrainer l'ensemble du système.
La mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.


