Bakalářská práce se zabývá vektorovou reprezentací slov založenou na metodě Word2Vec. V první kapitole představuje problematiku reprezentace slov pomocí vektorů, zmiňuje různé způsoby a varianty jejího učení a nastiňuje možnosti jejího praktického využití. Druhá kapitola se zabývá vlastní implementací zmíněné metody, uvádí postup přípravy dat, vytvoření pracovního lexikonu a trénování neuronové sítě. Třetí kapitola se věnuje pěti možným aplikacím, jako jsou hledání podobných resp. opačných slov, tvorba slovních analogií, analýza sentimentu a zařazování článků do vybraných kategorií. První tři aplikace pracují přímo s natrénovanými vektory, neboť využívají informace o pozicích slov ve vektorovém prostoru. Další dvě aplikace používají vektory jako vstup do neuronové sítě natrénované jako klasifikátor do vybraných tříd. U všech úloh byl experimentálně vyhodnocován vliv několika základních parametrů (velikost slovníku, dimenze vektorového prostoru a délka kontextového okna) na úspěšnost. Nejdůležitějším parametrem byla velikost pracovního lexikonu, menší roli mělo nastavení počtu slov v kontextovém okně.
Anotace v angličtině
The bachelor thesis deals with vector representation of words based on Word2Vec method. The first chapter presents the issue of representation words using vectors, mentions different ways and variants of its learning and outlines the possibilities of its practical use. The second chapter deals with the actual implementation of the mentioned method, describes the procedure of data preparation, creation of a lexicon and training neural network. The third chapter deals with five possible applications, such as searching for similar and opposite words, creation of verbal analogies, sentiment analysis and classification of articles into selected categories. First three applications work directly with trained vectors, because they use information from word positions in vector space. The other two applications use vectors as input into a neural network trained as classifier into selected classes. On all tasks were tested the influence of several basic parameters (dictionary size, dimension of vector space and length of context window) on success. The most important parameter was the size of the dictionary, the setting of the number of words in the context window had a smaller role.
Vector representation of words, Word2Vec, CBOW, skip-gram, negative sampling, neural networks, applications, sentiment analysis, analogy, text categorisation
Rozsah průvodní práce
58 s.
Jazyk
CZ
Anotace
Bakalářská práce se zabývá vektorovou reprezentací slov založenou na metodě Word2Vec. V první kapitole představuje problematiku reprezentace slov pomocí vektorů, zmiňuje různé způsoby a varianty jejího učení a nastiňuje možnosti jejího praktického využití. Druhá kapitola se zabývá vlastní implementací zmíněné metody, uvádí postup přípravy dat, vytvoření pracovního lexikonu a trénování neuronové sítě. Třetí kapitola se věnuje pěti možným aplikacím, jako jsou hledání podobných resp. opačných slov, tvorba slovních analogií, analýza sentimentu a zařazování článků do vybraných kategorií. První tři aplikace pracují přímo s natrénovanými vektory, neboť využívají informace o pozicích slov ve vektorovém prostoru. Další dvě aplikace používají vektory jako vstup do neuronové sítě natrénované jako klasifikátor do vybraných tříd. U všech úloh byl experimentálně vyhodnocován vliv několika základních parametrů (velikost slovníku, dimenze vektorového prostoru a délka kontextového okna) na úspěšnost. Nejdůležitějším parametrem byla velikost pracovního lexikonu, menší roli mělo nastavení počtu slov v kontextovém okně.
Anotace v angličtině
The bachelor thesis deals with vector representation of words based on Word2Vec method. The first chapter presents the issue of representation words using vectors, mentions different ways and variants of its learning and outlines the possibilities of its practical use. The second chapter deals with the actual implementation of the mentioned method, describes the procedure of data preparation, creation of a lexicon and training neural network. The third chapter deals with five possible applications, such as searching for similar and opposite words, creation of verbal analogies, sentiment analysis and classification of articles into selected categories. First three applications work directly with trained vectors, because they use information from word positions in vector space. The other two applications use vectors as input into a neural network trained as classifier into selected classes. On all tasks were tested the influence of several basic parameters (dictionary size, dimension of vector space and length of context window) on success. The most important parameter was the size of the dictionary, the setting of the number of words in the context window had a smaller role.
Vector representation of words, Word2Vec, CBOW, skip-gram, negative sampling, neural networks, applications, sentiment analysis, analogy, text categorisation
Zásady pro vypracování
Cílem práce je prakticky se seznámit s vektorovou reprezentací slov založenou na metodě Word2Vec a její variantě FastText.
Prostřednictvím literatury se podrobně seznamte s uvedenými metodami a proveďte jejich vlastní (vhodně zdokumentovanou a komentovanou) implementaci, nejlépe v jazyce Python nebo C++.
Stáhněte si z internetu co největší objem českých textů (alespoň 1 GB, nejlépe z hlavních zpravodajských serverů), sestavte seznam nejčastějších slov nalézajících se v těchto textech, vytvořte z nich pracovní lexikon obsahující cca 200.000 nejčastějších slov a pro něj vypočítejte vektorovou reprezentaci.
S využitím vektorové reprezentace naimplementujte několik ukázkových úloh typu tvorba slovních analogií, vyhledávání podobných/protichůdných slov, analýza sentimentu (kladné/záporné/neutrální vyznění) textu, či zařazení článku do některé z vybraných tematických kategorií. U každé úlohy vždy vyhodnoťte úspěšnost použité metody na vámi připraveném testovacím setu.
Zásady pro vypracování
Cílem práce je prakticky se seznámit s vektorovou reprezentací slov založenou na metodě Word2Vec a její variantě FastText.
Prostřednictvím literatury se podrobně seznamte s uvedenými metodami a proveďte jejich vlastní (vhodně zdokumentovanou a komentovanou) implementaci, nejlépe v jazyce Python nebo C++.
Stáhněte si z internetu co největší objem českých textů (alespoň 1 GB, nejlépe z hlavních zpravodajských serverů), sestavte seznam nejčastějších slov nalézajících se v těchto textech, vytvořte z nich pracovní lexikon obsahující cca 200.000 nejčastějších slov a pro něj vypočítejte vektorovou reprezentaci.
S využitím vektorové reprezentace naimplementujte několik ukázkových úloh typu tvorba slovních analogií, vyhledávání podobných/protichůdných slov, analýza sentimentu (kladné/záporné/neutrální vyznění) textu, či zařazení článku do některé z vybraných tematických kategorií. U každé úlohy vždy vyhodnoťte úspěšnost použité metody na vámi připraveném testovacím setu.
Seznam doporučené literatury
[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S.Corrado, and Jeffrey Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. pp 3111\textendash3119.
[2] Yoav Goldberg and Omer Levy 2014. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. CoRR Vol. abs/1402.3722 (2014).
[3] Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Herve Jegou, and Tomas Mikolov. 2016. Fasttext.zip: Compressing text classificationmodels. arXiv preprint arXiv:1612.03651.
[4] Joulin, A., Grave, E., Bojanowski, P., and Mikolov, T. Bagof tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016
Seznam doporučené literatury
[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S.Corrado, and Jeffrey Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. pp 3111\textendash3119.
[2] Yoav Goldberg and Omer Levy 2014. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. CoRR Vol. abs/1402.3722 (2014).
[3] Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Herve Jegou, and Tomas Mikolov. 2016. Fasttext.zip: Compressing text classificationmodels. arXiv preprint arXiv:1612.03651.
[4] Joulin, A., Grave, E., Bojanowski, P., and Mikolov, T. Bagof tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016
Přílohy volně vložené
nejsou
Přílohy vázané v práci
-
Převzato z knihovny
Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.