Data mining je v poslední době hojně využívaným nástrojem k získávání nových znalostí z již existujích dat, která donedávna nebylo možné zpracovávat, zejména kvůli nedostatečnému výkonu počítačových systémů.
Práce shrnuje data miningový proces, popisuje jednotlivé metodologie a podrobněji je věnována přípravě dat pro data miningový proces. V rámci přípravy dat je velká pozornost věnována kategorizaci a imputaci chybějících hodnot spolu se statistikami, které jsou v řešení těchto problematik využívány.
Výsledkem bakalářské práce je aplikace implementující nesupervizovanou a kombinovanou kategorizaci, prostou imputaci dat a vícerozměrnou regresní imputaci.
Anotace v angličtině
Data mining is widely used tool for getting new knowledge from existing data, which we were not able to process, because of their high quantity and low computing performance of computing systems, at that time.
The Bachelor thesis summarizes the data mining process, describes used methodologies and also describes, in more detail, the preparation of data for the process, such as categorization of numerical data, imputation of the missing data and some of statistics used for these issues resolution.
Thesis results in to the application implementing some of described issue resolutions, such as unsupervised, supervised and combined categorization, or simple one-dimensional and multidimensional regressive imputation.
Klíčová slova
Data mining, CRISP-DM, příprava dat, kategorizace dat, imputace chybějících hodnot
Klíčová slova v angličtině
Data mining, CRISP-DM, Data Preparation, Data Categorization, Imputation of Missing Values
Rozsah průvodní práce
47 s.
Jazyk
CZ
Anotace
Data mining je v poslední době hojně využívaným nástrojem k získávání nových znalostí z již existujích dat, která donedávna nebylo možné zpracovávat, zejména kvůli nedostatečnému výkonu počítačových systémů.
Práce shrnuje data miningový proces, popisuje jednotlivé metodologie a podrobněji je věnována přípravě dat pro data miningový proces. V rámci přípravy dat je velká pozornost věnována kategorizaci a imputaci chybějících hodnot spolu se statistikami, které jsou v řešení těchto problematik využívány.
Výsledkem bakalářské práce je aplikace implementující nesupervizovanou a kombinovanou kategorizaci, prostou imputaci dat a vícerozměrnou regresní imputaci.
Anotace v angličtině
Data mining is widely used tool for getting new knowledge from existing data, which we were not able to process, because of their high quantity and low computing performance of computing systems, at that time.
The Bachelor thesis summarizes the data mining process, describes used methodologies and also describes, in more detail, the preparation of data for the process, such as categorization of numerical data, imputation of the missing data and some of statistics used for these issues resolution.
Thesis results in to the application implementing some of described issue resolutions, such as unsupervised, supervised and combined categorization, or simple one-dimensional and multidimensional regressive imputation.
Klíčová slova
Data mining, CRISP-DM, příprava dat, kategorizace dat, imputace chybějících hodnot
Klíčová slova v angličtině
Data mining, CRISP-DM, Data Preparation, Data Categorization, Imputation of Missing Values
Zásady pro vypracování
Prostudujte metodologii CRISP DM, velkou pozornost věnujte etapě přípravy dat pro DM úlohy.
Zabývejte se speciálně problémem a také důvody pro kategorizaci dat, metodami optimální kategorizace, řešením chybějících hodnot a mnohonásobnou imputací.
Vybrané problémy a návrh vlastních algoritmů naprogramujte v libovolném programovacím jazyku jako výkladovou aplikaci, kterou bude zároveň možné použít pro základní analýzu libovolné datové matice.
Kvalitu aplikace z pohledu podpory porozumění uvedeným problémům testujte se studenty předmětu Data Mining.
Zásady pro vypracování
Prostudujte metodologii CRISP DM, velkou pozornost věnujte etapě přípravy dat pro DM úlohy.
Zabývejte se speciálně problémem a také důvody pro kategorizaci dat, metodami optimální kategorizace, řešením chybějících hodnot a mnohonásobnou imputací.
Vybrané problémy a návrh vlastních algoritmů naprogramujte v libovolném programovacím jazyku jako výkladovou aplikaci, kterou bude zároveň možné použít pro základní analýzu libovolné datové matice.
Kvalitu aplikace z pohledu podpory porozumění uvedeným problémům testujte se studenty předmětu Data Mining.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
BERKA, Petr. Dobývání znalostí z databází. Praha: Academia, 2003. ISBN 80-200-1062-9.
HENDL, Jan. Přehled statistických metod: analýza a metaanalýza dat. Páté, rozšířené vydání. Praha: Portál, 2015. ISBN 978-80-262-0981-2.
NABARESEH, Stephen. Predictive analytics: a data mining technique in customer churn management for decision making Zlín: Tomas Bata University in Zlín, 2017. ISBN 978-80-745
PEKÁR, Stanislav a Marek BRABEC. Moderní analýza biologických dat. Brno: Masarykova univerzita, 2012. ISBN 978-80-210-5812-5.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
BERKA, Petr. Dobývání znalostí z databází. Praha: Academia, 2003. ISBN 80-200-1062-9.
HENDL, Jan. Přehled statistických metod: analýza a metaanalýza dat. Páté, rozšířené vydání. Praha: Portál, 2015. ISBN 978-80-262-0981-2.
NABARESEH, Stephen. Predictive analytics: a data mining technique in customer churn management for decision making Zlín: Tomas Bata University in Zlín, 2017. ISBN 978-80-745
PEKÁR, Stanislav a Marek BRABEC. Moderní analýza biologických dat. Brno: Masarykova univerzita, 2012. ISBN 978-80-210-5812-5.
Přílohy volně vložené
1 CD
Přílohy vázané v práci
-
Převzato z knihovny
Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.