Portál TUL - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nepřihlášenému uživateli se zobrazují pouze již odevzdané práce.

Osobní čísla studentů se zobrazují pouze přihlášenému uživateli.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
Halada	Martin	Vektorová reprezentace slov a její aplikace			Nouza Jan	Rott Michal	bakalářská	15.06.2021	Vektorová reprezentace slov a její aplikace
Martin Halada	bakalářská	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Vektorová reprezentace slov a její aplikace

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	Halada Martin
Akad. rok	2020/2021
Zadávající pracoviště	ITE
Datum obhajoby	15. 6. 2021
Typ práce	bakalářská
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Všechny požadované údaje o této VŠKP jsou vyplněny.
Hlavní téma	Vektorová reprezentace slov a její aplikace
Hlavní téma v angličtině	Vector representation of words and its applications
Název dle studenta	Vektorová reprezentace slov a její aplikace
Název dle studenta v angličtině	Vector representation of words and its applications
Souběžný název	-
Podnázev	-
Vedoucí	Nouza Jan, prof. Ing. CSc.
Oponent	Rott Michal, Ing. Ph.D.
Anotace	Bakalářská práce se zabývá vektorovou reprezentací slov založenou na metodě Word2Vec. V první kapitole představuje problematiku reprezentace slov pomocí vektorů, zmiňuje různé způsoby a varianty jejího učení a nastiňuje možnosti jejího praktického využití. Druhá kapitola se zabývá vlastní implementací zmíněné metody, uvádí postup přípravy dat, vytvoření pracovního lexikonu a trénování neuronové sítě. Třetí kapitola se věnuje pěti možným aplikacím, jako jsou hledání podobných resp. opačných slov, tvorba slovních analogií, analýza sentimentu a zařazování článků do vybraných kategorií. První tři aplikace pracují přímo s natrénovanými vektory, neboť využívají informace o pozicích slov ve vektorovém prostoru. Další dvě aplikace používají vektory jako vstup do neuronové sítě natrénované jako klasifikátor do vybraných tříd. U všech úloh byl experimentálně vyhodnocován vliv několika základních parametrů (velikost slovníku, dimenze vektorového prostoru a délka kontextového okna) na úspěšnost. Nejdůležitějším parametrem byla velikost pracovního lexikonu, menší roli mělo nastavení počtu slov v kontextovém okně.
Anotace v angličtině	The bachelor thesis deals with vector representation of words based on Word2Vec method. The first chapter presents the issue of representation words using vectors, mentions different ways and variants of its learning and outlines the possibilities of its practical use. The second chapter deals with the actual implementation of the mentioned method, describes the procedure of data preparation, creation of a lexicon and training neural network. The third chapter deals with five possible applications, such as searching for similar and opposite words, creation of verbal analogies, sentiment analysis and classification of articles into selected categories. First three applications work directly with trained vectors, because they use information from word positions in vector space. The other two applications use vectors as input into a neural network trained as classifier into selected classes. On all tasks were tested the influence of several basic parameters (dictionary size, dimension of vector space and length of context window) on success. The most important parameter was the size of the dictionary, the setting of the number of words in the context window had a smaller role.
Klíčová slova	Vektorová reprezentace slov, Word2Vec, CBOW, skip-gram, negative sampling, neuronové sítě, aplikace, analýza sentimentu, analogie, kategorizace textů
Klíčová slova v angličtině	Vector representation of words, Word2Vec, CBOW, skip-gram, negative sampling, neural networks, applications, sentiment analysis, analogy, text categorisation
Rozsah průvodní práce	58 s.
Jazyk	CZ
Bakalářská práce se zabývá vektorovou reprezentací slov založenou na metodě Word2Vec. V první kapitole představuje problematiku reprezentace slov pomocí vektorů, zmiňuje různé způsoby a varianty jejího učení a nastiňuje možnosti jejího praktického využití. Druhá kapitola se zabývá vlastní implementací zmíněné metody, uvádí postup přípravy dat, vytvoření pracovního lexikonu a trénování neuronové sítě. Třetí kapitola se věnuje pěti možným aplikacím, jako jsou hledání podobných resp. opačných slov, tvorba slovních analogií, analýza sentimentu a zařazování článků do vybraných kategorií. První tři aplikace pracují přímo s natrénovanými vektory, neboť využívají informace o pozicích slov ve vektorovém prostoru. Další dvě aplikace používají vektory jako vstup do neuronové sítě natrénované jako klasifikátor do vybraných tříd. U všech úloh byl experimentálně vyhodnocován vliv několika základních parametrů (velikost slovníku, dimenze vektorového prostoru a délka kontextového okna) na úspěšnost. Nejdůležitějším parametrem byla velikost pracovního lexikonu, menší roli mělo nastavení počtu slov v kontextovém okně.
Anotace v angličtině
The bachelor thesis deals with vector representation of words based on Word2Vec method. The first chapter presents the issue of representation words using vectors, mentions different ways and variants of its learning and outlines the possibilities of its practical use. The second chapter deals with the actual implementation of the mentioned method, describes the procedure of data preparation, creation of a lexicon and training neural network. The third chapter deals with five possible applications, such as searching for similar and opposite words, creation of verbal analogies, sentiment analysis and classification of articles into selected categories. First three applications work directly with trained vectors, because they use information from word positions in vector space. The other two applications use vectors as input into a neural network trained as classifier into selected classes. On all tasks were tested the influence of several basic parameters (dictionary size, dimension of vector space and length of context window) on success. The most important parameter was the size of the dictionary, the setting of the number of words in the context window had a smaller role.
Klíčová slova
Vektorová reprezentace slov, Word2Vec, CBOW, skip-gram, negative sampling, neuronové sítě, aplikace, analýza sentimentu, analogie, kategorizace textů
Klíčová slova v angličtině
Vector representation of words, Word2Vec, CBOW, skip-gram, negative sampling, neural networks, applications, sentiment analysis, analogy, text categorisation
Zásady pro vypracování	Cílem práce je prakticky se seznámit s vektorovou reprezentací slov založenou na metodě Word2Vec a její variantě FastText. Prostřednictvím literatury se podrobně seznamte s uvedenými metodami a proveďte jejich vlastní (vhodně zdokumentovanou a komentovanou) implementaci, nejlépe v jazyce Python nebo C++. Stáhněte si z internetu co největší objem českých textů (alespoň 1 GB, nejlépe z hlavních zpravodajských serverů), sestavte seznam nejčastějších slov nalézajících se v těchto textech, vytvořte z nich pracovní lexikon obsahující cca 200.000 nejčastějších slov a pro něj vypočítejte vektorovou reprezentaci. S využitím vektorové reprezentace naimplementujte několik ukázkových úloh typu tvorba slovních analogií, vyhledávání podobných/protichůdných slov, analýza sentimentu (kladné/záporné/neutrální vyznění) textu, či zařazení článku do některé z vybraných tematických kategorií. U každé úlohy vždy vyhodnoťte úspěšnost použité metody na vámi připraveném testovacím setu.
Zásady pro vypracování
Cílem práce je prakticky se seznámit s vektorovou reprezentací slov založenou na metodě Word2Vec a její variantě FastText. Prostřednictvím literatury se podrobně seznamte s uvedenými metodami a proveďte jejich vlastní (vhodně zdokumentovanou a komentovanou) implementaci, nejlépe v jazyce Python nebo C++. Stáhněte si z internetu co největší objem českých textů (alespoň 1 GB, nejlépe z hlavních zpravodajských serverů), sestavte seznam nejčastějších slov nalézajících se v těchto textech, vytvořte z nich pracovní lexikon obsahující cca 200.000 nejčastějších slov a pro něj vypočítejte vektorovou reprezentaci. S využitím vektorové reprezentace naimplementujte několik ukázkových úloh typu tvorba slovních analogií, vyhledávání podobných/protichůdných slov, analýza sentimentu (kladné/záporné/neutrální vyznění) textu, či zařazení článku do některé z vybraných tematických kategorií. U každé úlohy vždy vyhodnoťte úspěšnost použité metody na vámi připraveném testovacím setu.
Seznam doporučené literatury	[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S.Corrado, and Jeffrey Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. pp 3111\textendash3119. [2] Yoav Goldberg and Omer Levy 2014. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. CoRR Vol. abs/1402.3722 (2014). [3] Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Herve Jegou, and Tomas Mikolov. 2016. Fasttext.zip: Compressing text classificationmodels. arXiv preprint arXiv:1612.03651. [4] Joulin, A., Grave, E., Bojanowski, P., and Mikolov, T. Bagof tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016
Seznam doporučené literatury
[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S.Corrado, and Jeffrey Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. pp 3111\textendash3119. [2] Yoav Goldberg and Omer Levy 2014. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. CoRR Vol. abs/1402.3722 (2014). [3] Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Herve Jegou, and Tomas Mikolov. 2016. Fasttext.zip: Compressing text classificationmodels. arXiv preprint arXiv:1612.03651. [4] Joulin, A., Grave, E., Bojanowski, P., and Mikolov, T. Bagof tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016
Přílohy volně vložené	nejsou
Přílohy vázané v práci	-
Převzato z knihovny	Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.
Soubor s průběhem obhajoby

Prohlížení - Portál TUL

Navigace první úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Vektorová reprezentace slov a její aplikace