Zadanie zaliczeniowe : ekstrakcja cech

Celem zadanie jest przetworzenie zbioru danych cukrzyca.csv. Zbiór posiada następujące atrybuty:

  • PREGNACIES: liczba wcześniejszych ciąż
  • GLUCOSE: koncentracja glukozy w 2 godziny po doustnym podaniu próbki testowej
  • BLOOD_PRESSURE: ciśnienie krwi (mm Hg)
  • SKIN_THICKNESS: grubość fałdu skóry na tricepsie (mm)
  • INSULIN: poziom serum insuliny (mu U/ml)
  • BMI: body mass index (waga w kg podzielona przez (wysokość w m2)
  • DIABETES_PEDIGREE: funkcja występowania cukrzycy w rodzinie
  • AGE: wiek
  • CLASS: atrybut decyzyjny wskazujący na obecność/brak cukrzycy

Postaraj się zastąpić zbiór oryginalnych atrybutów przez mniejszy zbiór cech. Sprawdź, do jakiego stopnia zmniejszenie liczby atrybutów wpływa na dokładność klasyfikacji. Wykonaj ćwiczenie wg poniższego wzorca:

  1. zbuduj klasyfikator (np. drzewo decyzyjne) wykorzystujący oryginalną tabelę DIABETES, zanotuj dokładność klasyfikatora
  2. dokonaj ekstrakcji cech z tabeli DIABETES (możesz wykorzystać PCA, SVD, NNMF)
  3. zastosuj model ekstrakcji cech zbudowany w punkcie (2) do tabeli DIABETES, aby przetransformować dane do nowej przestrzeni zdefiniowanej przez odkryte cechy
  4. zbuduj klasyfikator (wykorzystaj ten sam algorytm co w punkcie (1)) działający na danych z punktu (3), porównaj uzyskaną dokładność klasyfikatora.

UWAGA

  • w pliku *.csv nie ma zdefiniowanych atrybutów, musisz dodać je samodzielnie przed przystąpieniem do analizy
  • dane są numeryczne, rozważ normalizację atrybutów i odkrywanych cech
  • budując model ekstrakcji cech pamiętaj o tym, aby koniecznie wyłączyć z budowy atrybut CLASS
  • liczbę cech modelu dobierz eksperymentalnie
 
sum-zadanie-zaliczeniowe-2.txt · Last modified: 2015/01/09 19:40 by Mikołaj Morzy
 
Except where otherwise noted, content on this wiki is licensed under the following license:Public Domain
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Debian Driven by DokuWiki