Procesy i systemy business intelligence

business.intelligence.jpg

Prowadzący

dr hab. inż. Mikołaj Morzy

email: Mikolaj.Morzy@put.poznan.pl

Instytut Informatyki Politechniki Poznańskiej, ul. Piotrowo 2, 60-965 Poznań

Cele

Celem przedmiotu jest zapoznanie słuchaczy z dwoma istotnymi narzędziami współczesnej analityki biznesowej: eksploracją danych (ang. data mining) oraz analizą sieci społecznościowych (ang. social network analysis). W trakcie wykładów słuchacze poznają najbardziej fundamentalne metody eksploracji danych: odkrywanie asocjacji, klasyfikację i analizę skupień, a w trakcie laboratoriów uzupełniają wiedzę wyniesioną z wykładu przez ćwiczenia w różnych środowiskach do eksploracji danych. Główny nacisk położony jest na ćwiczenia praktyczne, słuchacze poznają istniejące narzędzia służące do eksploracji danych (Orange Data Mining, Weka, Rapid Miner. W obszarze analizy sieci społecznościowych słuchacze poznają podstawowe techniki analizy, miary oceny sieci, oraz badają modele ewolucji sieci. Przyglądamy się też bardzo szczegółowo prawom potęgowym, które stanowią szkielet większości współczesnych sieci społecznościowych. W trakcie laboratorium słuchacze ćwiczą analizę sieci przy użyciu kilku różnych narzędzi: Gephi, Pajeka, VisOne.

Plan laboratoriów

Program zajęć laboratoryjnych obejmuje następujące zagadnienia:

  • wstępne przetwarzanie danych
  • określanie ważności atrybutów
  • reguły asocjacyjne
  • podstawy metod klasyfikacji
  • naiwny klasyfikator Bayesa
  • drzewa decyzyjne
  • wizualizacja sieci społecznościowych w Gephi
  • analiza sieci społecznościowych w Pajeku
  • analiza sieci społecznościowych w VisOne

Metody oceny

aktualne zestawienie punktów

Poniżej można się zapoznać z aktualnym zestawieniem punktów. Zestawienie nie obejmuje jeszcze ocen za zadania praktyczne (laboratorium) oraz odpowiedzi w quizach.

https://goo.gl/vhIbql

Wykład i laboratorium są zaliczane na podstawie punktów. Punkty zdobywacie przez przygotowywanie notek na blogu, obecności, udział w quizach i realizację zadań laboratoryjnych. W zależności od uzyskanej liczby punktów otrzymujecie następujące oceny:

punkty ocena
powyżej bardzo dobry
75-79 dobry plus
65-74 dobry
60-64 dostateczny plus
50-59 dostateczny
poniżej niedostateczny

Punkty można uzyskać za:

laboratorium
  • 7 pkt za obecność na laboratorium
  • 15 pkt za zrealizowanie zadania stanowiącego podsumowanie laboratorium (w trakcie semestru zostaną sformułowane cztery zadania, dwa dotyczące eksploracj danych i dwa dotyczące sieci społecznościowych)
wykład
  • 4 pkt za obecność na wykładzie
  • do 5 pkt za odpowiedzi w quizie
  • 10 pkt za notkę blogową o długości do 1000 słów
  • 20 pkt za notkę blogową o długości do 2000 słów
  • 50 pkt za egzamin końcowy

w trakcie semestru można przygotować tylko jedną notkę blogową. Notki należy przygotować w serwisie tsiss.wordpress.com/, dane do logowania można uzyskać pisząc bezpośrednio do Mikolaj.Morzy@put.poznan.pl

wpisy na blogu

Jednym ze sposobów zdobycia punktów jest przygotowanie wpisu na TSiSS@PUT: blogu związanym z przedmiotem. Wpis może dotyczyć dowolnego zagadnienia (technologia, program, artykuł naukowy, algorytm, itp.) związanego z przedmiotem (można wzorować się na ubiegłorocznych wpisach, ale oczywiście nie można ich powtarzać). Wpis może dotyczyć też dwóch artykułów naukowych związanych z przedmiotem, przy czym jeden artykuł otrzymacie Państwo ode mnie, a drugi (związany tematycznie z pierwszym), musicie Państwo odnaleźć samodzielnie. W notce blogowej należy zamieścić pełny odnośnik bibliograficzny do recenzowanych artykułów, opis zawartości artykułu oraz koniecznie swoje własne przemyślenia na temat przeczytanej pracy. Lista artykułów które mogą stać się inspiracją do notki znajduje się na stronie www.citeulike.org/user/mmorzy/tag/tsiss Dodatkowe artykuły można z łatwością znaleźć korzystając z serwisów Google Scholar lub CiteseerX.

Bibliografia

książki

UWAGA : absolutnie fantastyczna kolekcja 27 darmowych książek z obszaru eksploracji danych, uczenia maszynowego i predictive analytics : http://www.dataonfocus.com/21-free-data-mining-books/

  1. Eksploracja danych. Metody i algorytmy, T.Morzy, Wydawnictwo Naukowe PWN 2013
  2. Data Mining: Concepts and Techniques, J.Han, M.Kamber, J.Pei, Morgan Kaufmann, 2005
  3. Handbook of Data Mining and Knowledge Discovery, W.Kloesgen, J.Zytkow, (eds) Oxford University Press, 2002
  4. Introduction to Data Mining , P.Tan, M.Steinbach, V.Kumar, Addison Wesley, 2005
  5. Data Mining: Practical Machine Learning Tools and Techniques, I.Witten, E.Frank, Morgan Kaufmann; 2 edition (June 10, 2005)
  6. Introduction to Data Science, J.Stanton, Syracuse University’s School of Information Studies (darmowy e-book), kod R do przykładów w książce
  7. The LION way: Machine Learning plus Intelligent Optimization, darmowa książka Roberto Battitiego i Mauro Brunato
  1. The Wealth of Networks : How Social Production Transforms Markets and Freedom, Yochai Benkler, Yale University Press, 2006 (książka za darmo)
  2. Networks, crowds, and markets: Reasoning about a highly connected world Easley, David, and Jon Kleinberg. Cambridge University Press, 2010 (książka za darmo)
  3. Introduction to social network methods, Robert Hanneman, Mark Riddle, 2005 (książka za darmo)
  4. Social Network Analysis Methods and Applications, Stanley Wasserman, Katherine Faust, Cambridge University Press, 1994

tutoriale

kursy MOOC

  • Data Mining : kurs prowadzony przez Jiaweia Hana i Johna C. Harta, niekwestionowane autorytety w dziedzinie eksploracji danych. Kurs koncentruje się na wyszukiwaniu wzorców i technikach eksploracji tekstu. W ramach wykładów można zapoznać się z algorytmami odkrywania reguł asocjacyjnych, sekwencji czy wzorców w grafach, oraz podstawowymi pojęciami z dziedziny information retrieval i text mining. Osobny moduł poświęcony jest algorytmom analizy skupień (cluster analysis).
  • Data Science : głównymi osobami stojącymi za tym kursem są Jeff Leek i Roger Peng. Tytuł specjalizacji jest dość ogólny, poszczególne kursy w ramach specjalności dotyczą różnych aspektów analizy danych, od wizualizacji, poprzez analizę statystyczną, na prezentacji skończywszy. Wszystkie ćwiczenia i zadania w ramach specjalizacji są realizowane w języku R, i jest to także dobra okazja do opanowania tego języka. Gdybym miał sugerować poszczególne kursy, to w kolejności od najbardziej wartościowego byłyby to:
  • Mining Massive Datasets : autorami kursu są najlepsi specjaliści ze Stanfordu: Jeff Ullman, Jure Leskovec i Anand Rajaraman. Kurs jest niejako uzupełnieniem tego, o czym rozmawiamy w trakcie laboratoriów z eksploracji danych, ponieważ koncentruje się bardziej na technikach dla big data, takich jak haszowanie czy MapReduce, ale zawiera też wykłady ściśle związane z naszym kursem: drzewa decyzyjne, redukcję wymiarowości, k-NN, SVM. To jest niezwykle przydatny kurs o dużej wartości.
  • Machine Learning : jeszcze jeden kurs ze Stanfordu, tym razem przygotowany przez Andrew Ng, jednego z najbardziej znanych naukowców w obszarze uczenia maszynowego. Kurs jest bardzo przystępny, niezwykle starannie przygotowany i bardzo ciekawy. Jego jedyną wadą jest użycie w zadaniach języka Octave (zamiast R).
  • Statistical Learninig : kurs przygotowany przez Trevora Hastie i Roba Tibshirani, bazujący na ich fantastycznej książce An Introduction to Statistical Learning with Applications in R. W ciemno mogę polecić ten kurs jako jeden z najlepszych dostępnych na rynku.
  • Statistics: Making Sense of Data : bardzo przyjazny kurs prowadzony przez dwójkę młodych naukowców z University of Toronto. W prosty i przystępny sposób przedstawiają podstawowe pojęcia związane ze statystyką, testy statystyczne, próbkowanie, przedziały ufności, itp.
  • Learning from Data : kurs z Caltechu, niestety, nie zdążyłem jeszcze obejrzeć wykładów i nie potrafię wypowiedzieć się na temat jakości tego kursu, natomiast lista tematów jest bardzo zbieżna z programem przedmiotu “Eksploracja danych”.
  • Social Network Analysis : doskonały kurs z University of Michigan prowadzony przez Ladę Adamic

programowanie

Wykłady

UWAGA: termin nadsyłania odpowiedzi w quizach upływa w niedzielę, 5 lipca, o godzinie 23:59.

10.05.2015 Spotkanie 1

23.05.2015 Spotkanie 2

20.06.2015 Spotkanie 3

27.06.2015 Spotkanie 4

Laboratoria

Zadania

Odpowiedzi na zadania prześlij w formie jednego pliku *.pdf na adres Mikolaj.Morzy@put.poznan.pl. W raporcie możesz umieścić krótki opis wykonanych kroków i zrzuty ekranów.

  • Pobierz zbiór danych flags.tab i zapoznaj się z jego opisem. Stwórz w narzędziu Orange Data Mining przepływ, który zbuduje model reguł asocjacyjnych i wyjaśni, na jakim kontynencie znajduje się dany kraj znając cechy flagi tego kraju. W pierwszej kolejności wybierz do analizy następujące atrybuty: Blue, Gold, White, Black, Orange, Circles, Crosses, Text, Crescent, Red, Green, Animate. Jako zmienną celu wskaż atrybut Landmass. W celu wyboru atrybutów wykorzystaj operator Select Attributes. Następnie zbuduj zbiór reguł asocjacyjnych zaznaczając opcję Induce classification rules. W odpowiedzi podaj po jednej regule o najwyższej ufności opisującej każdy kontynent.
  • Pobierz zbiór danych winequality-white.csv i zapoznaj się z jego opisem. Stwórz w narzędziu RapidMiner przepływ importujący ten zbiór danych (wykorzystaj operatory Read CSV do wczytania danych oraz Set Role do wskazania, który atrybut jest zmienną zależną. Wykorzystując dowolny z omówionych w trakcie laboratorium algorytmów klasyfikacji postaraj się uzyskać najwyższą ogólną dokładność klasyfikacji, przy czym możesz manipulować algorytmami klasyfikującymi i ich parametrami, a także metodą konstrukcji zbioru uczącego i testującego. Nie wolno Ci jednak testować klasyfikatora na zbiorze uczącym! Najlepszy wynik w grupie zostanie nagrodzony 25 XP, drugi wynik da 20 XP, reszta jest warta 15 XP.
 
pisbi.txt · Last modified: 2015/06/30 11:19 by Mikołaj Morzy
 
Except where otherwise noted, content on this wiki is licensed under the following license:Public Domain
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Debian Driven by DokuWiki