Portál TUL - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nepřihlášenému uživateli se zobrazují pouze již odevzdané práce.

Osobní čísla studentů se zobrazují pouze přihlášenému uživateli.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
Kynych	František	Počítačová syntéza řeči pomocí umělých neuronových sítí			Červa Petr	Kolorenč Jan	diplomová	30.06.2020	Počítačová syntéza řeči pomocí umělých neuronových sítí
František Kynych	diplomová	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Počítačová syntéza řeči pomocí umělých neuronových sítí

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	Kynych František
Akad. rok	2019/2020
Zadávající pracoviště	ITE
Datum obhajoby	30. 6. 2020
Typ práce	diplomová
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Všechny požadované údaje o této VŠKP jsou vyplněny.
Hlavní téma	Počítačová syntéza řeči pomocí umělých neuronových sítí
Hlavní téma v angličtině	Computer speech synthesis using artificial neural networks
Název dle studenta	Počítačová syntéza řeči pomocí umělých neuronových sítí
Název dle studenta v angličtině	Computer speech synthesis using artificial neural networks
Souběžný název	-
Podnázev	-
Vedoucí	Červa Petr, doc. Ing. Ph.D.
Oponent	Kolorenč Jan, Ing. Ph.D.
Anotace	Tato diplomová práce se zabývá syntézou řeči pomocí neuronových sítí. Cílem bylo prozkoumání a ověření současných přístupů využívajících neuronové sítě a pomocí nejlepší architektury natrénování mužského a ženského hlasu. Dále porovnání s komerčními systémy a vytvoření demonstrační webové aplikace. Pro experimenty byly vybrány DeepVoice 3, Tacotron 2 a WaveGlow architektury. Nejsrozumitelnější řeči dosahoval mužský hlas Tacotron 2 a WaveGlow architektury, proto byl vybrán pro porovnání s komerčními systémy. Porovnávání probíhalo prostřednictvím poslechových testů, pro které bylo vytvořeno prostředí v demonstrační webové aplikaci. Hodnocení se zúčastnilo 56 lidí a celkem bylo ohodnoceno 1060 nahrávek od každého systému. Výsledek této diplomové práce byl srovnatelný s komerčně používanými systémy a překonal standardní systém Googlu, který nevyužívá neuronové sítě. Nad rámec zadání byla řešena fonetická transkripce pro dosažení lepší kvality syntetizované řeči a dále byl Tacotron 2 model rozšířen o vektory mluvčího (tzv. X-Vektory), díky kterým se podařilo měnit hlas dle pohlaví osoby přivedeného vektoru.
Anotace v angličtině	This diploma thesis is focused on speech synthesis using neural networks. The goal was to explore current approaches using neural networks and to train male and female voices using the best architecture. Then compare it with commercial systems and create a web demo application. DeepVoice 3, Tacotron 2 and WaveGlow architectures were selected for the experiments. The most intelligible speech was achieved by the male voice of the Tacotron 2 and WaveGlow architecture, so it was chosen for comparison with commercial systems. The comparison was performed through listening tests, for which an environment was created in a demonstration web application. The evaluation was attended by 56 people and a total of 1,060 recordings from each system were evaluated. The result of this diploma thesis was comparable to commercially used systems and surpassed the standard Google system, which does not use neural networks. In addition to the assignment, phonetic transcription was solved to achieve better quality of synthesized speech, and the Tacotron 2 model was extended by speaker vectors (so-called X-Vectors), thanks to which it was possible to change the voice according to the gender of the person of the input vector.
Klíčová slova	syntéza řeči, neuronové sítě, syntéza řeči pro více mluvčí, Tacotron 2, WaveGlow
Klíčová slova v angličtině	speech synthesis, neural networks, speaker independent speech synthesis, Tacotron 2, WaveGlow
Rozsah průvodní práce	65 s.
Jazyk	CZ
Tato diplomová práce se zabývá syntézou řeči pomocí neuronových sítí. Cílem bylo prozkoumání a ověření současných přístupů využívajících neuronové sítě a pomocí nejlepší architektury natrénování mužského a ženského hlasu. Dále porovnání s komerčními systémy a vytvoření demonstrační webové aplikace. Pro experimenty byly vybrány DeepVoice 3, Tacotron 2 a WaveGlow architektury. Nejsrozumitelnější řeči dosahoval mužský hlas Tacotron 2 a WaveGlow architektury, proto byl vybrán pro porovnání s komerčními systémy. Porovnávání probíhalo prostřednictvím poslechových testů, pro které bylo vytvořeno prostředí v demonstrační webové aplikaci. Hodnocení se zúčastnilo 56 lidí a celkem bylo ohodnoceno 1060 nahrávek od každého systému. Výsledek této diplomové práce byl srovnatelný s komerčně používanými systémy a překonal standardní systém Googlu, který nevyužívá neuronové sítě. Nad rámec zadání byla řešena fonetická transkripce pro dosažení lepší kvality syntetizované řeči a dále byl Tacotron 2 model rozšířen o vektory mluvčího (tzv. X-Vektory), díky kterým se podařilo měnit hlas dle pohlaví osoby přivedeného vektoru.
Anotace v angličtině
This diploma thesis is focused on speech synthesis using neural networks. The goal was to explore current approaches using neural networks and to train male and female voices using the best architecture. Then compare it with commercial systems and create a web demo application. DeepVoice 3, Tacotron 2 and WaveGlow architectures were selected for the experiments. The most intelligible speech was achieved by the male voice of the Tacotron 2 and WaveGlow architecture, so it was chosen for comparison with commercial systems. The comparison was performed through listening tests, for which an environment was created in a demonstration web application. The evaluation was attended by 56 people and a total of 1,060 recordings from each system were evaluated. The result of this diploma thesis was comparable to commercially used systems and surpassed the standard Google system, which does not use neural networks. In addition to the assignment, phonetic transcription was solved to achieve better quality of synthesized speech, and the Tacotron 2 model was extended by speaker vectors (so-called X-Vectors), thanks to which it was possible to change the voice according to the gender of the person of the input vector.
Klíčová slova
syntéza řeči, neuronové sítě, syntéza řeči pro více mluvčí, Tacotron 2, WaveGlow
Klíčová slova v angličtině
speech synthesis, neural networks, speaker independent speech synthesis, Tacotron 2, WaveGlow
Zásady pro vypracování	Seznamte se s problematikou počítačové syntézy řeči, zejména s metodami využívajícími hluboké neuronové sítě. Natrénujte na připravené databázi pomocí neuronových sítí model syntetické češtiny pro mužský a ženský hlas. Hyperparametry zvolené architektury neuronové sítě přitom optimalizujte s ohledem na co nejvyšší kvalitu syntetické řeči a rychlost trénování. Porovnejte kvalitu vytvořeného syntezátoru s dostupnými systémy pro daný jazyk a s vybranými referenčními systémy pro další jazyky (např. pro angličtinu). Vytvořte demonstrační webovou aplikaci, která umožní generovat řečový signál ze zadaného textu.
Zásady pro vypracování
Seznamte se s problematikou počítačové syntézy řeči, zejména s metodami využívajícími hluboké neuronové sítě. Natrénujte na připravené databázi pomocí neuronových sítí model syntetické češtiny pro mužský a ženský hlas. Hyperparametry zvolené architektury neuronové sítě přitom optimalizujte s ohledem na co nejvyšší kvalitu syntetické řeči a rychlost trénování. Porovnejte kvalitu vytvořeného syntezátoru s dostupnými systémy pro daný jazyk a s vybranými referenčními systémy pro další jazyky (např. pro angličtinu). Vytvořte demonstrační webovou aplikaci, která umožní generovat řečový signál ze zadaného textu.
Seznam doporučené literatury	\renewcommand{\labelenumi}{[\arabic{enumi}]} NOUZA, Jan, ed., KOLDOVSKÝ, Zbyněk, ed. a VÍCH, Robert, ed. Řeč a počítač: principy hlasové komunikace, úlohy, metody a aplikace: sborník článků. Vyd. 1. Liberec: Technická univerzita v Liberci, 2009. 235 s. ISBN 978-80-7372-548-8. Shen, Jonathan et al. ?Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018, pp. 4779-4783. https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]} NOUZA, Jan, ed., KOLDOVSKÝ, Zbyněk, ed. a VÍCH, Robert, ed. Řeč a počítač: principy hlasové komunikace, úlohy, metody a aplikace: sborník článků. Vyd. 1. Liberec: Technická univerzita v Liberci, 2009. 235 s. ISBN 978-80-7372-548-8. Shen, Jonathan et al. ?Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018, pp. 4779-4783. https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd
Přílohy volně vložené	1 CD
Přílohy vázané v práci	-
Převzato z knihovny	Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.
Soubor s průběhem obhajoby

Prohlížení - Portál TUL

Navigace první úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Počítačová syntéza řeči pomocí umělých neuronových sítí