Práce je příspěvkem ke kolekci vzdělávacích e-learningových materiálů pro předměty, které se věnují data miningovým postupům. Teoretická část shrnuje vybrané problémy shlukové analýzy, která je zásadní pro část data miningových úloh. V práci jsou shrnuté problémy spojené s předzpracováním vstupních kvalitativních i kvantitativních dat pro shlukové algoritmy. Dále jsou analyzované vybrané postupy shlukování a posouzení kvality shlukovacího procesu.
Výsledkem práce je výukový program MyCluster pro popsané algoritmy, který studentům umožňuje experimentovat s daty, které si sami interaktivně vytvoří. Použít lze i datové množiny dříve vytvořené. K dispozici jsou metody nejbližšího souseda, nejvzdálenějšího souseda, centroidní metoda a metoda K-means a několik volitelných metrik. Student může sledovat důsledky volby jednotlivých parametrů a lépe pochopit principy sledováním animace shlukovacího procesu. Kvalitu shlukovacího procesu pak ilustruje funkcionál kvality, který lze sledovat v souvislostech několika pokusů v historii pokusů. Aplikace byla v průběhu vývoje testována studenty Technické univerzity v Liberci a na základě jejich doporučení byla upravena do finální podoby. Aplikace MyCluster byla naprogramována pomocí programovacího jazyka C# a je k dispozici účastníkům kurzu Datamining a kurzu Programovací techniky a data mining na e learningovém portálu ALS na TUL.
Anotace v angličtině
This thesis is a contribution to a collection of educational e-learning materials for subjects which deals with data mining procedures. The theoretical part summarizes selected problems of the cluster analysis which is essential for part of data mining tasks. This thesis summarizes problems connected with preprocessing of input qualitative and quantitative data for clustering algorithms. Further analyzed are selected clustering techniques and evaluation of the quality of the clustering process.
The result of this thesis is a learning program MyCluster for described algorithms which allows the students to experiment with the data that they themselves created. Students can also use sets of data that had been created earlier. In program are available methods like nearest neighbor, farthest neighbor, centroid linkage and K-means method and several chosen metrics. Students can monitor the impact of chosen parameters and better understand the principal of clustering process by monitoring the process with animation. The quality of the clustering process then ilustrates the functional of quality which can be monitored in coherence of several trials in the past trials. During the development of this program the students was allowed to test it and based on their recommendations was made into its final appearance. Application MyCluster was programmed using C# and it is available to all participants of Datamining course and Programming technique and data mining course on e-learning portal of ALS on TUL.
Klíčová slova
data mining, shluková analýza, předzpracování dat, míry podobnosti, optimální počet shluků, funkcionál kvality
Klíčová slova v angličtině
data mining, cluster analysis, data preprocessing, similarity measures, optimal number of clusters, cluster evaluation
Rozsah průvodní práce
68 s. (76 500 znaků)
Jazyk
CZ
Anotace
Práce je příspěvkem ke kolekci vzdělávacích e-learningových materiálů pro předměty, které se věnují data miningovým postupům. Teoretická část shrnuje vybrané problémy shlukové analýzy, která je zásadní pro část data miningových úloh. V práci jsou shrnuté problémy spojené s předzpracováním vstupních kvalitativních i kvantitativních dat pro shlukové algoritmy. Dále jsou analyzované vybrané postupy shlukování a posouzení kvality shlukovacího procesu.
Výsledkem práce je výukový program MyCluster pro popsané algoritmy, který studentům umožňuje experimentovat s daty, které si sami interaktivně vytvoří. Použít lze i datové množiny dříve vytvořené. K dispozici jsou metody nejbližšího souseda, nejvzdálenějšího souseda, centroidní metoda a metoda K-means a několik volitelných metrik. Student může sledovat důsledky volby jednotlivých parametrů a lépe pochopit principy sledováním animace shlukovacího procesu. Kvalitu shlukovacího procesu pak ilustruje funkcionál kvality, který lze sledovat v souvislostech několika pokusů v historii pokusů. Aplikace byla v průběhu vývoje testována studenty Technické univerzity v Liberci a na základě jejich doporučení byla upravena do finální podoby. Aplikace MyCluster byla naprogramována pomocí programovacího jazyka C# a je k dispozici účastníkům kurzu Datamining a kurzu Programovací techniky a data mining na e learningovém portálu ALS na TUL.
Anotace v angličtině
This thesis is a contribution to a collection of educational e-learning materials for subjects which deals with data mining procedures. The theoretical part summarizes selected problems of the cluster analysis which is essential for part of data mining tasks. This thesis summarizes problems connected with preprocessing of input qualitative and quantitative data for clustering algorithms. Further analyzed are selected clustering techniques and evaluation of the quality of the clustering process.
The result of this thesis is a learning program MyCluster for described algorithms which allows the students to experiment with the data that they themselves created. Students can also use sets of data that had been created earlier. In program are available methods like nearest neighbor, farthest neighbor, centroid linkage and K-means method and several chosen metrics. Students can monitor the impact of chosen parameters and better understand the principal of clustering process by monitoring the process with animation. The quality of the clustering process then ilustrates the functional of quality which can be monitored in coherence of several trials in the past trials. During the development of this program the students was allowed to test it and based on their recommendations was made into its final appearance. Application MyCluster was programmed using C# and it is available to all participants of Datamining course and Programming technique and data mining course on e-learning portal of ALS on TUL.
Klíčová slova
data mining, shluková analýza, předzpracování dat, míry podobnosti, optimální počet shluků, funkcionál kvality
Klíčová slova v angličtině
data mining, cluster analysis, data preprocessing, similarity measures, optimal number of clusters, cluster evaluation
Zásady pro vypracování
Prostudujte základní metody shlukové analýzy a problémy spojené se vstupními daty pro shlukovou analýzu v DM.
Analyzujte data miningové úlohy, pro které je shluková analýza vhodným řešením.
Vytvořte aplikaci pro výklad vybraných algoritmů shlukové analýzy a jejich testování.
Aplikaci testujte na studentech oboru Informační technologie v navazujícím studiu.
Zásady pro vypracování
Prostudujte základní metody shlukové analýzy a problémy spojené se vstupními daty pro shlukovou analýzu v DM.
Analyzujte data miningové úlohy, pro které je shluková analýza vhodným řešením.
Vytvořte aplikaci pro výklad vybraných algoritmů shlukové analýzy a jejich testování.
Aplikaci testujte na studentech oboru Informační technologie v navazujícím studiu.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
Řezanková H., Húsek D., Snášel V.: Shluková analýza dat, Professional publishing, 2009
Lukasová A., Šarmanová J.: Metody shlukové analýzy. SNTL, Praha 1985.
Yong Yin, Ikou Kaku, Jiafu Tang: Data Mining, Springer London Ltd, 2011
Olivia Parr Rud: Data mining, Computer Press, a.s., 2006
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\arabic{enumi}]}
Řezanková H., Húsek D., Snášel V.: Shluková analýza dat, Professional publishing, 2009
Lukasová A., Šarmanová J.: Metody shlukové analýzy. SNTL, Praha 1985.
Yong Yin, Ikou Kaku, Jiafu Tang: Data Mining, Springer London Ltd, 2011
Olivia Parr Rud: Data mining, Computer Press, a.s., 2006
Přílohy volně vložené
CD ROM
Přílohy vázané v práci
-
Převzato z knihovny
Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.