Pensez-vous que vous puissiez faire la différence entre la voix humaine et celle d’une machine ? Si vous connaissez la voix des IA de synthèse vocale d’ancienne génération (comme Sam, Mike et Mary de Microsoft), ou même celle de Siri et d’Alexa, vous allez fortement répondre un oui affirmé. Mais si vous avez déjà entendu la dernière IA de synthèse vocale de Google, Tacotron 2, vous pourriez ne pas être si confiant. Google a lancé le programme fin décembre ainsi que son propre rapport comparant la voix de Tacotron à celle d’un être humain réel. Selon un article écrit par les chercheurs de Google à l’Université de Berkeley, il est presque impossible de faire la distinction entre les deux. Pour le découvrir par vous-même, n’oubliez pas de consulter les échantillons sonores du Tacotron ici avant de continuer à lire.
TACOTRON 2 : LA DERNIÈRE IA DE SYNTHÈSE VOCALE
Maintenant que vous avez entendu les échantillons du Tacotron 2 de Google, vous êtes probablement étonné par leur aspect réaliste. Ce système, développé par en interne par les développeurs de Google, est composé de deux réseaux neuronaux profonds qui l’aident à transformer le texte en voix. Le premier réseau fonctionne en transformant le texte en spectrogramme, ce qui donne au système une représentation visuelle de la façon dont le texte devrait sonner. Ce spectrogramme est ensuite envoyé à WaveNet, qui lit alors le spectrogramme et produit les sons concernés.
LES DÉVELOPPEMENTS DANS LA SYNTHÈSE VOCALE
Alors que la reconnaissance vocale a bien avancé au cours des années récentes (il suffit de regarder Google Voice Search ou le programme Siri d’Apple par exemple), la technologie de synthèse vocale est restée en arrière. Pendant des années, la technologie de synthèse vocale s’est appuyée sur les systèmes dits par concaténation. Ces systèmes sont essentiellement composés d’une librairie de petits fragments de parole enregistrés auprès d’un véritable locuteur humain, qui sont ensuite combinés pour former des phrases.
Même si ces systèmes fonctionnaient, ils rendaient très difficile la réplication des complexités de la parole humaine, comme l’emphase ou l’émotion. Afin de capturer ces détails, il aurait fallu enregistrer toute la librairie sonore à partir de zéro. Pendant très longtemps, la seule alternative aux systèmes de synthèse vocale par concaténation a été les systèmes de synthèse vocale paramétrique. Alors que ces systèmes renfermaient une capacité à contrôler les contenus et les caractéristiques de la voix en utilisant des données spécifiques, ils avaient tendance à sonner bien moins naturellement. Mais WaveNet, le système derrière le Tacotron 2 de Google, révolutionne complètement la façon dont les machines synthétisent la voix.
WAVENET : UNE RÉVOLUTION DE L’IA DE SYNTHÈSE VOCALE
WaveNet a été développé par DeepMind, une entreprise d’IA basée au Royaume-Uni. Les aspects scientifiques derrière le système sont très complexes. Selon DeepMind, les WaveNets sont d’abord entraînés en utilisant des ondes sonores enregistrées auprès de véritables locuteurs humains. Une fois le système entraîné avec ces échantillons, il est capable de les échantillonner pour créer de nouvelles productions synthétiques. Il utilise alors de complexes algorithmes pour prédire les étapes suivantes dans un texte, ce qui produit au final une voix riche qui sonne naturellement.
En utilisant les ensembles de données de synthèse vocale existants de Google, les chercheurs de DeepMind ont testé la performance de WaveNet face aux meilleurs systèmes de synthèse vocale existants de Google (paramétriques et par concaténation). Les résultats ont été exprimés en utilisant une échelle de 1 à 5 de Mean Opinion Score (MOS), une mesure standard utilisée dans les tests audio. Pour la synthèse de l’anglais américain, WaveNet a produit un MOS de 4,21. Les systèmes par concaténation et paramétriques de Google ont produit des scores respectifs de 3,86 et 2,6, alors que la véritable parole humaine a obtenue un score de 4,55. Les chercheurs de DeepMind ont mené les mêmes tests en chinois mandarin, en produisant les résultats suivants :
- Voix humaine : 4,21
- WaveNet : 4,08
- Paramétrique : 3,79
- Concaténation : 3,47
WaveNet diffère des autres systèmes de synthèse vocale de nombreuses façons. Afin de savoir ce qu’il faut dire, il faut présenter à WaveNet un texte qui a été transformé en une séquence d’indications linguistiques et phonétiques sur les syllabes, les mots ou autres sons qu’il est censé répliquer. Sans cette information, le système fonctionne toujours, mais il doit déterminer ce qu’il doit dire. Quand il le fait, il produit généralement un ensemble de sons aléatoires, avec un mot jeté au milieu à l’occasion.
Comme ce système s’appuie sur un son brut, WaveNet est aussi capable de produire des sons naturels, comme la respiration ou le son des mouvements de la bouche. De manière intéressante, on peut apprendre à WaveNet à répliquer toutes sortes de sons, pas uniquement la parole. Par exemple, les chercheurs de DeepMind ont entraîné le système sur un piano classique, plutôt qu’un locuteur humain. Le résultat ? Des échantillons fascinants d’improvisations au piano par une IA. Vous pouvez en savoir plus sur WaveNet sur le site internet de DeepMind.
FAITES LE TEST : POUVEZ-VOUS RECONNAÎTRE LE ROBOT ?
Maintenant que vous savez comment fonctionne le Tacotron 2 de Google, il est temps de faire le test : Pensez-vous pouvoir distinguer le Tacotron d’un véritable locuteur humain ? Pour faire le test, suivez ce lien et déroulez jusqu’aux derniers échantillons audio, intitulés « Tacotron 2 ou Humain ? ». Vous trouverez un total de 8 échantillons ; 4 par un locuteur humain et 4 par Tacotron 2. Pouvez-vous repérer le robot ? Une fois que vous avez écouté, continuez vers le bas pour trouver la réponse des échantillons produits par Tacotron 2.
LES RÉPONSES
Alors, quels sont les échantillons qui viennent d’un humain ? Eh bien, Google n’a rien dit. Mais ils ont laissé un gros indice : Si vous avez téléchargé les fichiers, vous remarquerez que certains des noms de fichiers contiennent le terme « gen » alors que d’autres contiennent le terme « gt ». Même si nous ne pouvons pas être certain, l’article de Google suggère que les fichiers étiquetés « gen » ont été générés par Tacotron 2, alors que ceux étiquetés « gt » viennent d’un humain. En supposant que c’est correct, voici les réponses au test précédent :
« That girl did a video about Star Wars lipstick. »
- Échantillon 1 : Véritable humain
- Échantillon 2 : Tacotron 2
« She earned a doctorate in sociology at Columbia University. »
- Échantillon 1: Tacotron 2
- Échantillon 2 : Véritable humain
« George Washington was the first President of the United States. »
- Échantillon 1 : Tacotron 2
- Échantillon 2 : Véritable humain
« I’m too busy for romance. »
- Échantillon 1 : Véritable humain
- Échantillon 2 : Tacotron 2