Odkrywanie reguł asocjacyjnych

W tej rundzie pochylamy się nad problemem wzorców zakupowych występujących w koszykach zakupów. Analizujemy własności algorytmów FP-Growth i GSP i sprawdzamy, jak parametry minimalnego wsparcia (minsup) i minimalnej ufności (minconf) wpływają na uzyskiwane wyniki.

Rapid Miner

Orange Data Mining

from Orange.data import Domain, DiscreteVariable, Table
 
lst = []
 
for row in in_data:
    lst.append(['1' if attr > 0 else None for attr in row])
 
domain = Domain([DiscreteVariable.make(name=attr.name, values=['0','1']) for attr in in_data.domain.attributes])
out_data = Table(domain, lst)
 
print(out_data)

zadanie samodzielne (10 XP)

Pobierz dane o filmach i ich ocenach. Zbiór zawiera 100000 ocen około 9000 filmów. Dane pochodzą z projektu MovieLens

Przyjmij, że ocena 4 lub więcej jest pozytywna, a ocena 2 lub mniej jest negatywna. Zbuduj dwa modele rekomendacyjne do generowania pozytywnych i negatywnych rekomendacji. Postaraj się odpowiedzieć na następujące pytania:

hint: po wczytaniu danych potrzebny będzie operator Join do ich połączenia, a także operator Pivot do zmiany struktury bazy danych z pionowej na poziomą. Pamiętaj także, że operator FP-Growth potrzebuje danych typu logicznego

Odpowiedź w postaci pliku imie-nazwisko.pdf (1 strona, zrzut ekranu oraz odpowiedź na oba postawione wyżej pytania) wgraj do folderu na Google Drive do niedzieli, 19 kwietnia, godz. 21:00.