Práce se zabývá tvorbou neuronové sítě, která je schopná, i přes výskyt různorodého šumu, odhadnout, kde se v řečové nahrávce vyskytuje řeč. Jako vstupní data pro trénování neuronové sítě slouží databáze aditivní směsi šumu a čistých řečových nahrávek. Data zpracovaná neuronovou sítí jsou následně předána algoritmu, který vypočítá odhad odstupu řeči od šumu. Správnost výstupu navrženého algoritmu je hodnocena dle porovnání s konkurenční metodou WADA. Výsledné hodnoty naznačují, že využití neuronových sítí pro detekci přítomnosti řeči a následného odhadu SNR úrovně jsou reálnou alternativou existujícím metodám.
Anotace v angličtině
This documentation describes a creation of a neural network that is capable of locating the location of speech in audio sample. Database containing additive mixture of noise and speech signals is used as an input for training of the neural network. Output from this network is then processed by an algorithm, which computes an estimation of signal to noise ratio. Performance of this algorithm is then compared against performance of WADA, a conventionally used software. Results suggest that using neural networks for detecting presence of speech in a signal and estimating speech to noise ratio from it, is an effective alternative to the existing methods.
Klíčová slova
neuronové sítě, VAD, Voice Activity Detector, SNR, Signal To Noise Ratio, odstup řeči od šumu
Klíčová slova v angličtině
neural networks, VAD, Voice Activity Detector, SNR, Signal To Noise Ratio
Rozsah průvodní práce
54 s. (70 000 znaků)
Jazyk
CZ
Anotace
Práce se zabývá tvorbou neuronové sítě, která je schopná, i přes výskyt různorodého šumu, odhadnout, kde se v řečové nahrávce vyskytuje řeč. Jako vstupní data pro trénování neuronové sítě slouží databáze aditivní směsi šumu a čistých řečových nahrávek. Data zpracovaná neuronovou sítí jsou následně předána algoritmu, který vypočítá odhad odstupu řeči od šumu. Správnost výstupu navrženého algoritmu je hodnocena dle porovnání s konkurenční metodou WADA. Výsledné hodnoty naznačují, že využití neuronových sítí pro detekci přítomnosti řeči a následného odhadu SNR úrovně jsou reálnou alternativou existujícím metodám.
Anotace v angličtině
This documentation describes a creation of a neural network that is capable of locating the location of speech in audio sample. Database containing additive mixture of noise and speech signals is used as an input for training of the neural network. Output from this network is then processed by an algorithm, which computes an estimation of signal to noise ratio. Performance of this algorithm is then compared against performance of WADA, a conventionally used software. Results suggest that using neural networks for detecting presence of speech in a signal and estimating speech to noise ratio from it, is an effective alternative to the existing methods.
Klíčová slova
neuronové sítě, VAD, Voice Activity Detector, SNR, Signal To Noise Ratio, odstup řeči od šumu
Klíčová slova v angličtině
neural networks, VAD, Voice Activity Detector, SNR, Signal To Noise Ratio
Zásady pro vypracování
Seznamte se s metodikou odhadu odstupu řeči od šumu (Speech to Noise Ratio - SNR) z řečových záznamů pořízených v reálném prostředí.
Důležitou součástí mnoha metod pro odhad SNR je detektor řečové aktivity (Voice Activity Detector - VAD). Seznamte se s detektory postavenými na modelu neuronové sítě.
Natrénujte robustní VAD, umožňující rozpoznat řečové úseky v zarušené nahrávce. Uvažujte několik druhů reálných ruchů (např. ruch ulice, šum větráku, ruch v kavárně).
Vytvořte aplikaci (volitelně na mobilním zařízení), která bude umožňovat odhad SNR (volitelně v reálném čase) a bude používat Vámi natrénovaný VAD. Vyhodnoťte přesnost odhadu pomocí objektivních kritérií.
Zásady pro vypracování
Seznamte se s metodikou odhadu odstupu řeči od šumu (Speech to Noise Ratio - SNR) z řečových záznamů pořízených v reálném prostředí.
Důležitou součástí mnoha metod pro odhad SNR je detektor řečové aktivity (Voice Activity Detector - VAD). Seznamte se s detektory postavenými na modelu neuronové sítě.
Natrénujte robustní VAD, umožňující rozpoznat řečové úseky v zarušené nahrávce. Uvažujte několik druhů reálných ruchů (např. ruch ulice, šum větráku, ruch v kavárně).
Vytvořte aplikaci (volitelně na mobilním zařízení), která bude umožňovat odhad SNR (volitelně v reálném čase) a bude používat Vámi natrénovaný VAD. Vyhodnoťte přesnost odhadu pomocí objektivních kritérií.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
M. Vondrášek, P. Pollák, "Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency", Radioengineering, vol. 1, 2005.
Zhang, Xiao-Lei, and Ji Wu. "Deep belief networks based voice activity detection." Audio, Speech, and Language Processing, IEEE Transactions on 21.4 (2013): 697-710.
Torch, Scientific computing for LuaJIT, [online 21.9.2015], http://torch.ch/.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
M. Vondrášek, P. Pollák, "Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency", Radioengineering, vol. 1, 2005.
Zhang, Xiao-Lei, and Ji Wu. "Deep belief networks based voice activity detection." Audio, Speech, and Language Processing, IEEE Transactions on 21.4 (2013): 697-710.
Torch, Scientific computing for LuaJIT, [online 21.9.2015], http://torch.ch/.
Přílohy volně vložené
CD ROM
Přílohy vázané v práci
ilustrace, grafy, tabulky
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.