Technologie: impossible de différencier cette voix artificielle d'une voix humaine
Google vient de soumettre à la communauté scientifique un article faisant état de ses avancées en matière de synthèse vocale. Grâce à son système Tacotron 2, il aurait réussi à générer un flux audio au résultat si naturel qu’il ne pourrait être distingué de celui produit par une voix humaine.
Tacotron 2 repose sur deux réseaux neuronaux. Le premier divise le texte en séquences, et transforme chacune d’elle en spectrogramme. C’est-à-dire un diagramme représentant visuellement l’intensité des fréquences audio. Le second, nommé WaveNet, génère automatiquement les fichiers audio. Sa particularité est d’avoir été développée à l’origine par DeepMind, la fameuse société d’intelligence artificielle appartenant à Alphabet. WaveNet fait déjà fonctionner les voix anglaise et japonaise de Google Assistant en s’appuyant sur une méthode d’apprentissage non supervisée : il ne repose pas sur une grosse base de données alimentée par des enregistrements de comédiens. C’est une version à l’architecture légèrement modifiée qui a ici été utilisée. WaveNet agit comme un vocodeur pour synthétiser les formes d’ondes temporelles des spectogrammes.
Un petit regret tout de
même, Tacotron 2 ne s'exprime pour le moment qu'avec une voix féminine et en
anglais. Pour parler avec une autre voix féminine ou un voix masculine, il
faudrait que l'intelligence artificielle soit entraînée à nouveau. Il lui reste
donc encore un peu de chemin à faire avant de bénéficier à des applications
comme Google Assistant.
Aucun commentaire