
30 voix, des émotions, des soupirs… Google Vids vient de rendre l’IA plus humaine que jamais
Google a déployé le 15 avril 2026 une mise à jour majeure de Google Vids, son outil de création vidéo intégré à Workspace, en introduisant une trentaine de nouvelles voix IA expressives. Ces voix sont propulsées par Gemini 3.1 Flash TTS, un moteur de synthèse vocale de nouvelle génération capable d'intégrer des émotions, des pauses et des effets sonores directement dans la narration. Concrètement, les utilisateurs peuvent désormais insérer des instructions dans leur script, un mot lu avec enthousiasme, une pause marquée via une notation simple, voire un rire naturel, pour guider la performance vocale sans retouche audio manuelle. La mise à jour étend également la couverture linguistique de 8 à 24 langues, ajoutant notamment l'arabe, le bengali, l'hindi, le polonais, le thaï et le vietnamien. Le déploiement est progressif pour les comptes Google Workspace, Workspace Individual et les comptes personnels.
Cette évolution répond à une limite longtemps reprochée aux outils de narration automatique : le ton uniforme et mécanique qui trahit immédiatement l'origine synthétique du contenu. Avec un panel de trente voix aux registres distincts, certaines dynamiques, d'autres pédagogiques ou posées, Google Vids permet d'adapter le style vocal au type de contenu sans effort supplémentaire. Une vidéo de formation peut désormais sonner différemment d'une présentation commerciale, ce qui réduit la fatigue auditive et renforce la crédibilité des productions. Pour les équipes qui utilisent Google Vids à grande échelle pour créer des tutoriels, des onboardings ou des communications internes, l'impact pratique est immédiat : moins de post-production, une meilleure rétention de l'audience, et une flexibilité narrative que les voix TTS classiques ne permettaient tout simplement pas.
Google Vids, lancé en 2024 comme outil de création vidéo assistée par IA au sein de la suite Workspace, cherche à se positionner face à des concurrents comme HeyGen, Synthesia ou ElevenLabs qui ont fait de l'expressivité vocale leur argument central. L'intégration de Gemini 3.1 Flash TTS marque un tournant : Google dispose désormais d'un modèle capable de rivaliser sur ce terrain, en s'appuyant sur son écosystème d'entreprise déjà massivement déployé. L'ouverture à 24 langues signale aussi une ambition internationale claire, notamment vers les marchés asiatiques et du Moyen-Orient où la demande en contenu vidéo professionnel localisé est forte. La prochaine étape logique serait le clonage vocal personnalisé ou la synchronisation labiale, des fonctionnalités que plusieurs concurrents proposent déjà et que Google n'a pas encore annoncées pour Vids.
Les équipes françaises utilisant Google Workspace bénéficient immédiatement de voix expressives en français et d'une réduction du temps de post-production pour leurs contenus vidéo internes.

