W pierwszym tygodniu zapoznamy się z dwoma narzędziami przydatnymi w pracy każdego górnika danych, będą to Orange Data Mining i RapidMiner. W drugiej części laboratorium zobaczymy, jak podstawowe operacje na danych można przeprowadzić w języku Python.
File
i otwórz w nim plik heart disease
dostarczony z programem (wyjaśnienie znaczenia atrybutów)File
do operatora Data Table
i zapoznaj się z charakterystyką zbioru danychBox Plot
i wyślij tam dane. Porównaj sposób wyświetlania zmiennych numerycznych i kategorycznych, bez i z włączonym podziałem na podgrupy wg atrybutu płećDistributions
do porównania rozkładu wieku kobiet i mężczyznScatter Plot
aby wyświetlić związek między wiekiem i tętnem spoczynkowym dla kobiet i mężczyzn. Postaraj się także nanieść na wykres informacje o poziomie cholesterolu.Discretize
i jego wynik prześlij do operatorów Data Table
i Distributions
. Porównaj różne sposoby dyskretyzacji atrybutu wiekContinuize
aby obejrzeć wynik normalizacji atrybutu, zastanów się, które atrybuty powinny być normalizowane do przedziału [0-1], a które powinny podlegać standaryzacjiRead CSV
do prawej krawędzi przepływu i uruchom przepływ. Zapoznaj się z charakterystyką zbioru danych. Dokonaj wizualizacji danych.Normalize
i upuść go na przepływ danych z operatora Read CSV
do rezultatu. Alternatywnie, możesz upuścić operator Normalize
gdziekolwiek w panelu edycji procesu, a następnie przeciągnąć przepływ danych z portu wyjściowego (out) operatora Read CSV
do portu wejściowego (exa) operatora Normalize
. W tym drugim przypadku pamiętaj, aby port wyjściowy exa operatora Normalize
połączyć z portem wynikowym res. Normalize
. Wskaż, że chcesz normalizować jedynie atrybuty numeryczne (attribute filter type = value_type, value type = numeric). Jako metodę normalizacji pozostaw Z-transformation
. Uruchom proces i zaobserwuj wynik. Czy potrafisz zgadnąć, co się stało?Enable operator
lub korzystając ze skrótu klawiszowego Ctrl+E
.Discretize…
. Najpierw użyj operatora Discretize by Binning
aby podzielić wiek kobiet na trzy przedziały. Następnie dodaj operator Map
i za pomocą pola value mappings
dokonaj przetłumaczenia nazw zakresów wieku na wartości opisowe (np. młode, średnie, starsze)Discretize by Binning
i w jego miejsce wstaw operator Discretize by Frequency
, również wskazując trzy przedziały dyskretyzacji dla atrybutu age
. Alternatywnie, możesz kliknąć prawym klawiszem myszy na operatorze Discretize by Binning
i z menu kontekstowego wybrać opcję Replace Operator
, nawigując kolejno do Data Transformation/Type Conversion/Discretization/Discretize by Frequency.Detect Outliers (Distance)
i dodaj go do procesu. Wskaż, że detekcja wartości odstających odbywa się przez policzenie odległości do trzech najbliższych sąsiadów, oraz że w zbiorze danych występują trzy wartości osobliwe. Uruchom proces i zaobserwuj wynik. Przejdź do widoku wykresu i wybierz jako typ wykresu Scatter 3D Color. Postaraj się znaleźć taką kombinację atrybutów, które przekonująco wskazują, że znalezione lobiety faktycznie odstają od reszty.Nominal to Binominal
i wskaż atrybut standard jako atrybut do transformacji.