Analiza skupień

Celem laboratorium jest zapoznanie studentów z podstawowymi pojęciami związanymi z analizą skupień: pojęciem miary odległości, dostępnymi miarami odległości, oraz algorytmami k-średnich, algorytmami opartymi na gęstości, oraz algorytmami opartymi na zasadzie EM (ang. expectation maximization).

Rapid Miner
  • Uruchom narzędzie Rapid Miner 5
  • Utwórz przepływ polegający na wczytaniu zbioru danych Iris i zbudowaniu modelu analizy skupień za pomocą bliźniaczych algorytmów k-Means i k-Medoids. Przed uruchomieniem algorytmów analizy skupień zredukuj liczbę wymiarów oryginalnego zbioru danych do 2 wymiarów (możesz się posłużyć np. operatorem Singular Value Decomposition). Obejrzyj uzyskane wyniki. Postaraj się znaleźć różnice między modelami produkowanymi przez oba algorytmy. Sprawdź, jaki wpływ na czytelność modelu ma manipulowanie wartością parametru k (liczba skupień).
  • Utwórz przepływ ilustrujący algorytm analizy skupień bazujący na lokalnej gęstości sąsiedztwa, wykorzystując do tego celu algorytm DBScan. Wykorzystaj operator Generate Data do zbudowania trzech koncentrycznych pierścieni punktów. Prześlij zbiór danych do operatora Normalize wykorzystując normalizację przez odchylenia standardowe. Tak przygotowane dane prześlij do operatora DBScan, podając jako promień sąsiedztwa epsilon=0.5 i min points=5. Obejrzyj uzyskany wynik. Zobacz, co się stanie, jeśli zmienisz epsilon na 0.2. Na koniec zamień operator DBScan na K-Means i obejrzyj wynik. Czy potrafisz go wytłumaczyć?
  • Utwórz przepływ wykorzystujący generator danych syntetycznych (operator Generate Data, funkcja random) i wygeneruj zbiór 1000 przykładów w przestrzeni 2-wymiarowej. Zastosuj do zbioru danych operator Expectation Maximization Clustering z parametrem k=3. Sprawdź, jaki efekt na wynik końcowy ma zmiana wartości parametru initial distribution z k-średnich na losowy przydział przypadków.
Orange Data Mining
  • Uruchom narzędzie Orange Data Miner i załaduj zbiór Zoo. Możesz wykorzystać operator Data Table do obejrzenia danych.
  • Prześlij dane do operatora Distances który wyznaczy macierz odległości między poszczególnymi obiektami. Wyświetl macierz i sprawdź, które zwierzęta są do siebie najbardziej podobne. Do wyświetlenia macierzy posłuż się operatorem Distance Map.
  • Macierz odległości prześlij do operatora Hierarchical Clustering i sprawdź, jaki wpływ na kształt skupień ma wybrana metoda łączenia skupień (single linkage, complete linkage, average linkage)
  • Wyślij dane bezpośrednio do operatora k-Means Clustering i wskaż liczbę skupień równą liczbie gromad w zbiorze danych. Prześlij wynik do operatora Data Table i porównaj przypisanie obiektów do skupień z rzeczywistą przynależnością do gromad
  • Prześlij dane do operatora SOM, a wynikową mapę prześlij do operatora SOM Visualizer. Obejrzyj lokalizację poszczególnych atrybutów w przestrzeni znalezionych skupień danych.
  • Twój ostateczny przepływ powinien wyglądać tak:

 
pisbi-k.srednich.txt · Last modified: 2015/05/23 00:46 by Mikołaj Morzy
 
Except where otherwise noted, content on this wiki is licensed under the following license:Public Domain
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Debian Driven by DokuWiki