Tato bakalářská práce se zabývá problematikou rozpoznávání řeči,
konkrétně izolovaných slov. V práci je popsáno několik metod využívaných
pro implementaci rozpoznávacíh systémů. Nejprve jsou
vysvětleny vzdálenostní metody lineární časové transformace LTW
a metoda dynamického borcení času DTW. Dále práce zkoumá metodu
skrytých markovských modelů HMM, pracujících se statistickými
modely. Poslední popsanou metodou jsou umělé neuronové
sítě a jejich využití v dané problematice.
Praktickou částí práce je vyhotovení ukázkové aplikace pro jednoduché
ovládání operačního systému Microsoft Windows na základě
nejúspěšnější z metod. Tomu předchází kromě implementace metod
také vytvoření slovníku povelů pro ovládání, nasbírání dostatečného
množství nahrávek pro každý z povelů a jejich následná
parametrizace.
Anotace v angličtině
This bachelor thesis deals with the issue of speech recognition, specifically
isolated words. The work describes several methods used
for the implementation of recognition systems. First, the distance
methods linear time transformation LTW and the method of Dynamic
Time Warping DTW are explained. Furthermore, the work
examines the method of Hidden Markov Models HMM, working with
statistical models. The last described method are artificial neural
networks and their use in the issue.
The practical part of the work is the creation of a sample application
for simple control of the Microsoft Windows operating system
based on the most successful of the methods. This is preceded not
only by the implementation of methods, but also by the creation
of a dictionary of commands for OS control, the collection of a sufficient
number of recordings for each of the commands and their
parameterization.
Audi signal, LTW, DTW, ANN, time transformation,
hidden markov models, artificial neural network, convolution
network.
Rozsah průvodní práce
53
Jazyk
CZ
Anotace
Tato bakalářská práce se zabývá problematikou rozpoznávání řeči,
konkrétně izolovaných slov. V práci je popsáno několik metod využívaných
pro implementaci rozpoznávacíh systémů. Nejprve jsou
vysvětleny vzdálenostní metody lineární časové transformace LTW
a metoda dynamického borcení času DTW. Dále práce zkoumá metodu
skrytých markovských modelů HMM, pracujících se statistickými
modely. Poslední popsanou metodou jsou umělé neuronové
sítě a jejich využití v dané problematice.
Praktickou částí práce je vyhotovení ukázkové aplikace pro jednoduché
ovládání operačního systému Microsoft Windows na základě
nejúspěšnější z metod. Tomu předchází kromě implementace metod
také vytvoření slovníku povelů pro ovládání, nasbírání dostatečného
množství nahrávek pro každý z povelů a jejich následná
parametrizace.
Anotace v angličtině
This bachelor thesis deals with the issue of speech recognition, specifically
isolated words. The work describes several methods used
for the implementation of recognition systems. First, the distance
methods linear time transformation LTW and the method of Dynamic
Time Warping DTW are explained. Furthermore, the work
examines the method of Hidden Markov Models HMM, working with
statistical models. The last described method are artificial neural
networks and their use in the issue.
The practical part of the work is the creation of a sample application
for simple control of the Microsoft Windows operating system
based on the most successful of the methods. This is preceded not
only by the implementation of methods, but also by the creation
of a dictionary of commands for OS control, the collection of a sufficient
number of recordings for each of the commands and their
parameterization.
Audi signal, LTW, DTW, ANN, time transformation,
hidden markov models, artificial neural network, convolution
network.
Zásady pro vypracování
Cílem práce je vytvořit jednoduchý systém pro ovládání počítače pomocí cca 150 - 200 hlasových povelů.
Seznamte se se základy automatického rozpoznávání řeči a s různými přístupy k hlasovému ovládání počítače.
Sestavte vhodný seznam povelů, jimiž bude možné ovládat základní uživatelské akce prováděné jinak pomocí klávesnice a myši. Vytvořte dostatečně reprezentativní soubor nahrávek obsahujících tyto povely namluvené cca 30 ? 40 osobami. Nahrávky rozdělte na trénovací sadu a testovací sadu (data od 10 osob).
Implementujte (nejlépe v prostředí MATLAB) různé metody (od nejjednodušších až po aplikace neuronových sítí) pro rozpoznávání těchto povelů a vyhodnoťte je na testovací sadě z hlediska úspěšnosti a doby rozpoznávání.
S využitím nejlepší metody vytvořte jednoduchý ukázkový program pro skutečné hlasové ovládání PC se systémem MS Windows.
Zásady pro vypracování
Cílem práce je vytvořit jednoduchý systém pro ovládání počítače pomocí cca 150 - 200 hlasových povelů.
Seznamte se se základy automatického rozpoznávání řeči a s různými přístupy k hlasovému ovládání počítače.
Sestavte vhodný seznam povelů, jimiž bude možné ovládat základní uživatelské akce prováděné jinak pomocí klávesnice a myši. Vytvořte dostatečně reprezentativní soubor nahrávek obsahujících tyto povely namluvené cca 30 ? 40 osobami. Nahrávky rozdělte na trénovací sadu a testovací sadu (data od 10 osob).
Implementujte (nejlépe v prostředí MATLAB) různé metody (od nejjednodušších až po aplikace neuronových sítí) pro rozpoznávání těchto povelů a vyhodnoťte je na testovací sadě z hlediska úspěšnosti a doby rozpoznávání.
S využitím nejlepší metody vytvořte jednoduchý ukázkový program pro skutečné hlasové ovládání PC se systémem MS Windows.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
Nouza, J., Koldovský Z., Vích. R.: Řeč a počítač - sborník článků. TUL, 2011.
Nouza J., Červa P.: Hlasové systémy MyVoice a MyDictate pro handicapované uživatele počítačů. Sborník konference Handicap 2007. TUL, 2007.
Nouza J., Červa P.: Design and Development of Voice Controlled Aids for Motor-Handicapped Persons, In: Conference of the International Speech Communication Association (Interspeech 2007), pp. 2521 - 2524, Antwerp, August 2007
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
Nouza, J., Koldovský Z., Vích. R.: Řeč a počítač - sborník článků. TUL, 2011.
Nouza J., Červa P.: Hlasové systémy MyVoice a MyDictate pro handicapované uživatele počítačů. Sborník konference Handicap 2007. TUL, 2007.
Nouza J., Červa P.: Design and Development of Voice Controlled Aids for Motor-Handicapped Persons, In: Conference of the International Speech Communication Association (Interspeech 2007), pp. 2521 - 2524, Antwerp, August 2007
Přílohy volně vložené
Ukázkové video chodu programu
Přílohy vázané v práci
ilustrace, schémata, tabulky
Převzato z knihovny
Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.