Tato práce se zabývá tématikou z oblasti klasifikačních úloh v data miningu. Řeší výukovou implementaci algoritmu CHAID v modifikaci Exhaustive. Jedná se o algoritmus vytvářející rozhodovací stromy. Před samotným popisem implementace je čtenář seznámen se základními pojmy data miningu, statistickými postupy použitými v algoritmu CHAID a následně je samotný algoritmus detailně popsán.
Zadání bylo řešeno formou modulárního systému, který odděluje implementaci algoritmu od prezentační vrstvy. Prezentační vrstva byla realizována formou WPF aplikace za dodržení návrhového vzoru MVVM. V této práci je popsán proces optimalizace algoritmu a jeho paralelizace. Výsledkem optimalizace a paralelizace je téměř trojnásobné zlepšení oproti prvotní implementaci. Dále jsou v diplomové práci popsány způsoby, jakými bylo dosaženo zmiňované výukovosti.
Přínos výsledku této diplomové práce je v navržení možného způsobu, jak vytvářet
podobné výukové implementace algoritmů z oblasti data miningu.
Anotace v angličtině
This thesis focuses on the area of classification tasks in Data mining. It solves the implementation of the EXHAUSTIVE CHAID algorithm in an educational form. It is an algorithm that creates decision trees. Prior the description of the implementation, the thesis introduces reader to the fundamental terms of Data mining, statistical approaches used in the algorithm and provides
detailed description of the algorithm itself.
Solution of the task is a modular system, where the implementation of the algorithm and the presentation layer is separated. The presentation layer is implemented as WPF application.
MVVM design pattern is used. In the thesis the optimization and parallelization process is described. The result of this process is that the algorithm has been improved almost three times in the terms of computing time from the initial implementation. The thesis also discuss the approaches chosen to meet the educational goal.
Acquisition of the thesis is the prototype of modular system that can be used on similar tasks that target on the education of students.
Klíčová slova
CHIAD, Chi square automatic interaction detector, EXHAUSTIVE CHAID, rozhodovací
stromy, data mining, Big Data
Klíčová slova v angličtině
CHIAD, Chi square automatic interaction detector, EXHAUSTIVE CHAID, decision trees, data mining, Big Data
Rozsah průvodní práce
49 s.
Jazyk
CZ
Anotace
Tato práce se zabývá tématikou z oblasti klasifikačních úloh v data miningu. Řeší výukovou implementaci algoritmu CHAID v modifikaci Exhaustive. Jedná se o algoritmus vytvářející rozhodovací stromy. Před samotným popisem implementace je čtenář seznámen se základními pojmy data miningu, statistickými postupy použitými v algoritmu CHAID a následně je samotný algoritmus detailně popsán.
Zadání bylo řešeno formou modulárního systému, který odděluje implementaci algoritmu od prezentační vrstvy. Prezentační vrstva byla realizována formou WPF aplikace za dodržení návrhového vzoru MVVM. V této práci je popsán proces optimalizace algoritmu a jeho paralelizace. Výsledkem optimalizace a paralelizace je téměř trojnásobné zlepšení oproti prvotní implementaci. Dále jsou v diplomové práci popsány způsoby, jakými bylo dosaženo zmiňované výukovosti.
Přínos výsledku této diplomové práce je v navržení možného způsobu, jak vytvářet
podobné výukové implementace algoritmů z oblasti data miningu.
Anotace v angličtině
This thesis focuses on the area of classification tasks in Data mining. It solves the implementation of the EXHAUSTIVE CHAID algorithm in an educational form. It is an algorithm that creates decision trees. Prior the description of the implementation, the thesis introduces reader to the fundamental terms of Data mining, statistical approaches used in the algorithm and provides
detailed description of the algorithm itself.
Solution of the task is a modular system, where the implementation of the algorithm and the presentation layer is separated. The presentation layer is implemented as WPF application.
MVVM design pattern is used. In the thesis the optimization and parallelization process is described. The result of this process is that the algorithm has been improved almost three times in the terms of computing time from the initial implementation. The thesis also discuss the approaches chosen to meet the educational goal.
Acquisition of the thesis is the prototype of modular system that can be used on similar tasks that target on the education of students.
Klíčová slova
CHIAD, Chi square automatic interaction detector, EXHAUSTIVE CHAID, rozhodovací
stromy, data mining, Big Data
Klíčová slova v angličtině
CHIAD, Chi square automatic interaction detector, EXHAUSTIVE CHAID, decision trees, data mining, Big Data
Zásady pro vypracování
Prostudujte jeden ze způsobů automatického budování stromů pro potřeby klasifikace.
Prostudujte redukci kategorií u kategoriálních dat, naprogramujte ji tak, aby na vzorových datech bylo vysvětlené její použití.
Navrhněte výkladový způsob vizualizace vybraného algoritmu pro výuku DM a naprogramujte jej jako počítačový experiment s parametrickými vstupy a přiměřeným stupněm obecnosti.
Téma zpracujte pro e-learningový kurz na portále ALS.
Zásady pro vypracování
Prostudujte jeden ze způsobů automatického budování stromů pro potřeby klasifikace.
Prostudujte redukci kategorií u kategoriálních dat, naprogramujte ji tak, aby na vzorových datech bylo vysvětlené její použití.
Navrhněte výkladový způsob vizualizace vybraného algoritmu pro výuku DM a naprogramujte jej jako počítačový experiment s parametrickými vstupy a přiměřeným stupněm obecnosti.
Téma zpracujte pro e-learningový kurz na portále ALS.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
Yong Yin, Ikou Kaku, Jiafu Tang: Data Mining, Springer London Ltd, 2011.
Steve McConnell: Dokonalý kód, Computer Press, 2006.
Kotler Philip: Marketing management, Grada, 2010.
Hendl J.: Přehled statistických metod zpracování dat, Portál, 2006.