W pierwszym tygodniu zapoznamy się z dwoma narzędziami przydatnymi w pracy każdego górnika danych, będą to Orange Data Mining i RapidMiner. W drugiej części laboratorium zobaczymy, jak podstawowe operacje na danych można przeprowadzić w języku Python.
File i otwórz w nim plik heart disease dostarczony z programem (wyjaśnienie znaczenia atrybutów)File do operatora Data Table i zapoznaj się z charakterystyką zbioru danychBox Plot i wyślij tam dane. Porównaj sposób wyświetlania zmiennych numerycznych i kategorycznych, bez i z włączonym podziałem na podgrupy wg atrybutu płećDistributions do porównania rozkładu wieku kobiet i mężczyznScatter Plot aby wyświetlić związek między wiekiem i tętnem spoczynkowym dla kobiet i mężczyzn. Postaraj się także nanieść na wykres informacje o poziomie cholesterolu.Discretize i jego wynik prześlij do operatorów Data Table i Distributions. Porównaj różne sposoby dyskretyzacji atrybutu wiekContinuize aby obejrzeć wynik normalizacji atrybutu, zastanów się, które atrybuty powinny być normalizowane do przedziału [0-1], a które powinny podlegać standaryzacjiRead CSV do prawej krawędzi przepływu i uruchom przepływ. Zapoznaj się z charakterystyką zbioru danych. Dokonaj wizualizacji danych.Normalize i upuść go na przepływ danych z operatora Read CSV do rezultatu. Alternatywnie, możesz upuścić operator Normalize gdziekolwiek w panelu edycji procesu, a następnie przeciągnąć przepływ danych z portu wyjściowego (out) operatora Read CSV do portu wejściowego (exa) operatora Normalize. W tym drugim przypadku pamiętaj, aby port wyjściowy exa operatora Normalize połączyć z portem wynikowym res. Normalize. Wskaż, że chcesz normalizować jedynie atrybuty numeryczne (attribute filter type = value_type, value type = numeric). Jako metodę normalizacji pozostaw Z-transformation. Uruchom proces i zaobserwuj wynik. Czy potrafisz zgadnąć, co się stało?Enable operator lub korzystając ze skrótu klawiszowego Ctrl+E.Discretize…. Najpierw użyj operatora Discretize by Binning aby podzielić wiek kobiet na trzy przedziały. Następnie dodaj operator Map i za pomocą pola value mappings dokonaj przetłumaczenia nazw zakresów wieku na wartości opisowe (np. młode, średnie, starsze)Discretize by Binning i w jego miejsce wstaw operator Discretize by Frequency, również wskazując trzy przedziały dyskretyzacji dla atrybutu age. Alternatywnie, możesz kliknąć prawym klawiszem myszy na operatorze Discretize by Binning i z menu kontekstowego wybrać opcję Replace Operator, nawigując kolejno do Data Transformation/Type Conversion/Discretization/Discretize by Frequency.Detect Outliers (Distance) i dodaj go do procesu. Wskaż, że detekcja wartości odstających odbywa się przez policzenie odległości do trzech najbliższych sąsiadów, oraz że w zbiorze danych występują trzy wartości osobliwe. Uruchom proces i zaobserwuj wynik. Przejdź do widoku wykresu i wybierz jako typ wykresu Scatter 3D Color. Postaraj się znaleźć taką kombinację atrybutów, które przekonująco wskazują, że znalezione lobiety faktycznie odstają od reszty.Nominal to Binominal i wskaż atrybut standard jako atrybut do transformacji.