W tym ćwiczeniu zapoznajemy się z metodami odkrywania reguł asocjacyjnych. Analizujemy własności algorytów Apriori i FP-Growth i sprawdzamy, jak parametry minimalnego wsparcia (minsup) i minimalnej ufności (minconf) wpływają na uzyskiwane wyniki.
Read CSV
aby załadować plik marketbasket.csv. Jako separator między kolumnami wskaż przecinek. Zaznacz także, że pierwszy wiersz w pliku zawiera nazwy atrybutów. Po załadowaniu pliku uruchom przepływ i obejrzyj metadane.Numerical to Nominal
aby zamienić każdy atrybut na atrybut binarny. Następnie umieść na przepływie operator FP-Growth
i ustal liczbę poszukiwanych zbiorów częstych na 100 (parametr find min number of itemsets). Uruchom przepływ i obejrzyj wyniki. Porównaj wyniki z sytuacją w której wyłączysz parametr find min number of itemsets i ustalisz próg minimalnego wsparcia na min support=0.01.Create Association Rules
, wskazując jako kryterium selekcji reguł miarę ufności (ang.confidence) z wartością progową 0.8. Uruchom przepływ. Obejrzyj znalezione reguły asocjacyjne, uruchom wizualizację reguł (zakładka Graph View), porównaj kilka sposobów wyświetlania reguł. Znajdź reguły tłumaczące, dlaczego ludzie kupują jajka i biały chleb.Item Sets do Data
w celu przetransformowania znalezionego zbioru zbiorów częstych do postaci danychGenerate Sales Data
do wygenerowania 10 000 syntetycznych transakcji. Obejrzyj uzyskane zbiory dane.Date to Numerical
zamień sposób przedstawiania czasu na numer dnia w ramach epoki.Generalized Sequential Patterns
znajdź wzorce pokazujące długoterminowe wzorce zakupowe. Przyjmij, że interesują Cię transakcje zawarte w przeciągu pół roku, wszystkie zakupy dokonane w ramach tygodnia potraktuj jako pojedynczą transakcję, przyjmij też że między poszczególnymi transakcjami danego klienta musiały upłynąć co najmniej dwa tygodniePobierz dane o filmach i ich ocenach. Zbiór zawiera 100000 ocen około 9000 filmów. Dane pochodzą z projektu MovieLens
Przyjmij, że ocena 4 lub więcej jest pozytywna, a ocena 2 lub mniej jest negatywna. Zbuduj dwa modele rekomendacyjne do generowania pozytywnych i negatywnych rekomendacji. Postaraj się odpowiedzieć na następujące pytania:
hint: po wczytaniu danych potrzebny będzie operator Join
do ich połączenia, a także operator Pivot
do zmiany struktury bazy danych z pionowej na poziomą. Pamiętaj także, że operator FP-Growth
potrzebuje danych typu logicznego
Wyślij na adres Mikolaj.Morzy@put.poznan.pl zrzut ekranu calego przepływu oraz listy filmów rekomendowanych i odradzanych. Termin nadsyłania rozwiązań mija w niedzielę, 28 kwietnia 2019.