Wprowadzenie do klasyfikacji

Celem laboratorium jest przedstawienie podstawowych pojęć wykorzystywanych w zadaniach klasyfikacji, takich jak: zbiór uczący, zbiór testujący, walidacja krzyżowa, czy macierz pomyłek. W trakcie laboratorium sprawdzamy, jak wykonać najbardziej podstawowe algorytmy klasyfikacji w środowiskach Orange Data Mining i RapidMiner.

Orange Data Mining

RapidMiner


zadanie samodzielne (10 XP)

Pobierz zbiór danych winequality-white.csv i zapoznaj się z jego opisem. Stwórz w narzędziu RapidMiner przepływ importujący ten zbiór danych. Wykorzystaj operator Read CSV do wczytania danych, a następnie dokonaj dyskretyzacji atrybutu quality przy użyciu operatora Discretize by User Specification, przyjmując cztery klasy jakości: słabe (0,4), średnie (5,6), dobre (7,8), bardzo dobre (9,10). Wykorzystaj operator Set Role do wskazania, który atrybut jest zmienną zależną). Używając dowolnego z omówionych w trakcie laboratorium algorytmów klasyfikacji postaraj się uzyskać najwyższą ogólną dokładność klasyfikacji, przy czym możesz manipulować algorytmami klasyfikującymi i ich parametrami, a także metodą konstrukcji zbioru uczącego i testującego. Nie wolno Ci jednak testować klasyfikatora na zbiorze uczącym!

Odpowiedź w postaci pliku pdf imie-nazwisko.pdf załaduj do współdzielonego folderu Google Drive. W pliku umieść zrzuty ekranu z przepływu oraz (koniecznie) zrzut ekranu macierzy pomyłek. Termin wysłania zadania upływa w niedzielę, 3 maja 2020, godz. 21:00.