Ekstrakcja cech

Rapid Miner
Python

zadanie samodzielne

Celem zadanie jest przetworzenie zbioru danych cukrzyca.csv. Zbiór posiada następujące atrybuty:

Postaraj się zastąpić zbiór oryginalnych atrybutów przez mniejszy zbiór cech. Sprawdź, do jakiego stopnia zmniejszenie liczby atrybutów wpływa na dokładność klasyfikacji. Wykonaj ćwiczenie wg poniższego wzorca:

  1. zbuduj klasyfikator (np. drzewo decyzyjne) wykorzystujący oryginalny zbiór danych, zanotuj dokładność klasyfikatora
  2. dokonaj ekstrakcji dwóch cech ze zbioru (możesz wykorzystać PCA, SVD, NNMF)
  3. zastosuj model ekstrakcji cech zbudowany w punkcie (2) do danych, aby przetransformować dane do nowej przestrzeni zdefiniowanej przez odkryte cechy
  4. zbuduj klasyfikator (wykorzystaj ten sam algorytm co w punkcie (1)) działający na danych z punktu (3), porównaj uzyskaną dokładność klasyfikatora.

UWAGA

Rozwiązania proszę wysłać na adres Mikolaj.Morzy@put.poznan.pl w postaci pliku *.pdf zawierającego:

  1. zrzut ekranu z procesem
  2. macierz pomyłek dla oryginalnych danych
  3. macierz pomyłek dla danych w przestrzeni 2D
  4. informację o dokładności klasyfikacji w oryginalnej przestrzeni i w przestrzeni zredukowanej do 2D

Rozwiązania przyjmuję do piątku, 19 czerwca 2020 r., do godziny 21:00.