Celem laboratorium jest przedstawienie podstawowych pojęć wykorzystywanych w zadaniach klasyfikacji, takich jak: zbiór uczący, zbiór testujący, walidacja krzyżowa, czy macierz pomyłek. W trakcie laboratorium sprawdzamy, jak wykonać najbardziej podstawowe algorytmy klasyfikacji w środowiskach Orange Data Mining i RapidMiner.
File
załaduj zbiór titanic.tab. Prześlij zbiór do operatora Data Table
i zapoznaj się z jego charakterystyką. Wykorzystaj znane Ci narzędzia do wizualizacji aby lepiej poznać rozkłady poszczególnych zmiennych.Train and Score
. Constant
i prześlij jego wynik do operatora Train and Score
. Obejrzyj zawartość operatora Train and Score
. Czy potrafisz powiedzieć, dlaczego dokładność klasyfikacji (CA) wynosi 67.7%?Confusion Matrix
i prześlij do niego wynik operatora Train and Score
. Spróbuj samodzielnie zinterpretować uzyskaną macierz pomyłek.Train
i k-NN
i prześlij je do operatora Train and Score
. Porównaj główne metryki trzech modeli wewnątrz operatora Train and Score
. ROC Analysis
i porównaj ze sobą trzy analizowane modele klasyfikacji.Calibration Plt
i sprawdź, w jakich zakresach modele są nadmiernie pesymistyczne/optymistyczne.Predictions
i zaobserwuj, w jaki sposób poszczególne modele dokonują predykcji dla instancji. Generate Data
. Wskaż jako liczbę generowanych obiektów 1000, a jako funkcję zmiennej celu podaj two gaussians classification. Liczbę atrybutów ustaw na 2, ich zakres możesz zostawić z wartościami domyślnymi. Uruchom swój przepływ i obejrzyj wygenerowany zbiór danych. Zmień funkcję zmiennej celu na gaussian mixture clusters i jeszcze raz obejrzyj wynik.Split Validation
i ustaw proporcje 60%-40%. Zauważ, że jest to operator dominujący, który wymaga sprecyzowania operatorów wewnętrznych.Split Validation
. W sekcji Training
umieść operator Rule Induction
i prześlij na wejście operatora zbiór trenujący, zaś wyjście operatora oznaczone mod
(model) przekaż dalej.Testing
umieść sekwencję operatorów Apply Model
i Performance (Classification)
, przesyłając do operatora Apply Model
przepływy mod
i tes
(testing set). Etykietowane dane z operatora Apply Model
(port lab
(labeled data)) przekaż do operatora Performance (Classification)
. Port wyjściowy per
(performance vector) przekaż jako wynik działania całego operatora złożonego.
Split Validation
na X-Validation
ustawiając 10-krotną walidację krzyżową. Zamień zbiór danych na Iris
, a algorytm do klasyfikacji kolejno na Tree to Rules
(to także operator dominujący, do środka możesz wstawić Decision Tree
lub Random Tree
) i k-NN
. Za każdym razem sprawdź uzyskiwane wyniki.
Pobierz zbiór danych winequality-white.csv i zapoznaj się z jego opisem. Stwórz w narzędziu RapidMiner przepływ importujący ten zbiór danych. Wykorzystaj operator Read CSV
do wczytania danych, a następnie dokonaj dyskretyzacji atrybutu quality
przy użyciu operatora Discretize by User Specification
, przyjmując cztery klasy jakości: słabe (0,4), średnie (5,6), dobre (7,8), bardzo dobre (9,10). Wykorzystaj operator Set Role
do wskazania, który atrybut jest zmienną zależną). Używając dowolnego z omówionych w trakcie laboratorium algorytmów klasyfikacji postaraj się uzyskać najwyższą ogólną dokładność klasyfikacji, przy czym możesz manipulować algorytmami klasyfikującymi i ich parametrami, a także metodą konstrukcji zbioru uczącego i testującego. Nie wolno Ci jednak testować klasyfikatora na zbiorze uczącym!
Odpowiedź w postaci pliku pdf imie-nazwisko.pdf
załaduj do współdzielonego folderu Google Drive. W pliku umieść zrzuty ekranu z przepływu oraz (koniecznie) zrzut ekranu macierzy pomyłek. Termin wysłania zadania upływa w niedzielę, 3 maja 2020, godz. 21:00.