Eksploracja danych

Prowadzący

telefon: 61 665 2961

email: Mikolaj.Morzy@put.poznan.pl

Instytut Informatyki Politechniki Poznańskiej, ul. Piotrowo 2, 60-965 Poznań

Miejsce przedmiotu w programie studiów

Przedmiot obowiązkowy na II stopniu studiów magisterskich na kierunku Informatyka, specjalność Technologie Przetwarzania Danych

Cele

Celem przedmiotu jest zapoznanie studentów z podstawowymi technikami eksploracji danych i odkrywania wiedzy w bazach danych. Podczas laboratoriów studenci implementują i testują różne algorytmy eksploracji danych (określanie ważności atrybutów, odkrywanie cech, odkrywanie asocjacji, klasyfikacja, analiza skupień, regresja) oraz ćwiczą proces odkrywania wiedzy w bazach danych. Główny nacisk położony jest na ćwiczenia praktyczne, studenci poznają istniejące narzędzia służące do eksploracji danych (Weka, Rapid Miner, Project R, Orange Data Mining, SciKit), jak i implementują własne rozwiązania przy użyciu języków R i Python. Najważniejszym celem przedmiotu jest jednak zmiana sposobu zdobywania wiedzy, zamiast tradycyjnego kursu oferuję kurs w pełni zgrywalizowany (szczegóły poniżej).

Sposób zaliczenia przedmiotu

Anatoli Skurikhin
Stakhanovets Kuzbassa, Egor Borisov
Worker at Kuzbass, 1933

  • każdy górnik posiada punkty trzy życia (3 LP, life points)
  • w trakcie każdego tygodnia górnik musi wykonać pracę, która pozwoli kupić jedzenie na dany tydzień
  • jeśli w trakcie tygodnia górnik nie wykona żadnej pracy, traci punkt życia
  • aby zaliczyć przedmiot, na koniec semestru trzeba mieć co najmniej jedno życie
  • osiągnięcie poziomu -3 LP oznacza śmierć z wycieńczenia i eliminację z gry (a w konsekwencji, brak zaliczenia)
  • w trakcie każdego tygodnia górnik może wykonać jedną z prac prostych:
  • wypełnienie karty pracy dziennej : wypełnić quiz dostarczany po każdych zajęciach (3 XP)
  • artykuł w gazecie zakładowej : przeczytać artykuł i opisać go w krótkiej notce na blogu (5 XP)
  • praca w czynie społecznym : przygotować program rozwiązujący przykładowy problem (10 XP)
  • obecność na zajęciach nie jest wymagana, ale jest nagradzana 2 XP
  • pod koniec semestru wszyscy górnicy otrzymają zadanie indywidualnego fedrowania nowego chodnika, realizacja zadania będzie warta 30 XP.

W zależności od liczby zdobytych punktów doświadczenia górnik osiąga określony poziom (a co za tym idzie, ocenę):

od XP do XP poziom ocena
40 59 gwarek 3.0
60 64 górnik 3.5
65 79 starszy górnik 4.0
80 84 sztygar 4.5
85 ++ nadsztygar 5.0

Aktualny ranking punktowy

Plan laboratoriów

Program zajęć laboratoryjnych obejmuje następujące zagadnienia:

  • wstępne przetwarzanie danych
  • określanie ważności atrybutów
  • reguły asocjacyjne
  • podstawy metod klasyfikacji
  • naiwny klasyfikator Bayesa
  • zaawansowane klasyfikatory: sieci neuronowe, SVM
  • indukcja drzew decyzyjnych
  • meta-metody: boosting, voting, stacking
  • algorytmy analizy skupień
  • odkrywanie cech
  • regresja
  • eksloracja danych w R (caret)
  • eksloracja danych w Pythonie (scikit-learn)

Gazetka ścienna

Górnicy mogą wywieszać swoje ogłoszenia w gazetce zakładowej pt. "Eksploracja@PUT". Jeśli ktoś chce na gazetce powiesić jakieś ogłoszenie, to proszę bardzo:

Bibliografia

książki

UWAGA : absolutnie fantastyczna kolekcja 27 darmowych książek z obszaru eksploracji danych, uczenia maszynowego i predictive analytics : http://www.dataonfocus.com/21-free-data-mining-books/

  1. Eksploracja danych. Metody i algorytmy, T.Morzy, Wydawnictwo Naukowe PWN 2013
  2. Data Mining: Concepts and Techniques, J.Han, M.Kamber, J.Pei, Morgan Kaufmann, 2005
  3. Handbook of Data Mining and Knowledge Discovery, W.Kloesgen, J.Zytkow, (eds) Oxford University Press, 2002
  4. Introduction to Data Mining , P.Tan, M.Steinbach, V.Kumar, Addison Wesley, 2005
  5. Data Mining: Practical Machine Learning Tools and Techniques, I.Witten, E.Frank, Morgan Kaufmann; 2 edition (June 10, 2005)
  6. Introduction to Data Science, J.Stanton, Syracuse University’s School of Information Studies (darmowy e-book), kod R do przykładów w książce
  7. The LION way: Machine Learning plus Intelligent Optimization, darmowa książka Roberto Battitiego i Mauro Brunato

tutoriale

kursy MOOC

  • Data Mining : kurs prowadzony przez Jiaweia Hana i Johna C. Harta, niekwestionowane autorytety w dziedzinie eksploracji danych. Kurs koncentruje się na wyszukiwaniu wzorców i technikach eksploracji tekstu. W ramach wykładów można zapoznać się z algorytmami odkrywania reguł asocjacyjnych, sekwencji czy wzorców w grafach, oraz podstawowymi pojęciami z dziedziny information retrieval i text mining. Osobny moduł poświęcony jest algorytmom analizy skupień (cluster analysis). Ukończenie każdego kursu wchodzącego w skład tej specjalności jest warte 50 XP.
  • Data Science : głównymi osobami stojącymi za tym kursem są Jeff Leek i Roger Peng. Tytuł specjalizacji jest dość ogólny, poszczególne kursy w ramach specjalności dotyczą różnych aspektów analizy danych, od wizualizacji, poprzez analizę statystyczną, na prezentacji skończywszy. Wszystkie ćwiczenia i zadania w ramach specjalizacji są realizowane w języku R, i jest to także dobra okazja do opanowania tego języka. Za ukończenie każdego z poniższych kursów przyznaję 30 XP. Gdybym miał sugerować poszczególne kursy, to w kolejności od najbardziej wartościowego byłyby to:
  • Mining Massive Datasets : autorami kursu są najlepsi specjaliści ze Stanfordu: Jeff Ullman, Jure Leskovec i Anand Rajaraman. Kurs jest niejako uzupełnieniem tego, o czym rozmawiamy w trakcie laboratoriów z eksploracji danych, ponieważ koncentruje się bardziej na technikach dla big data, takich jak haszowanie czy MapReduce, ale zawiera też wykłady ściśle związane z naszym kursem: drzewa decyzyjne, redukcję wymiarowości, k-NN, SVM. To jest niezwykle przydatny kurs o dużej wartości. Za ukończenie kursu przyznam 75 XP
  • Machine Learning : jeszcze jeden kurs ze Stanfordu, tym razem przygotowany przez Andrew Ng, jednego z najbardziej znanych naukowców w obszarze uczenia maszynowego. Kurs jest bardzo przystępny, niezwykle starannie przygotowany i bardzo ciekawy. Jego jedyną wadą jest użycie w zadaniach języka Octave (zamiast R). Ukończenie kursu daje 50 XP
  • Statistical Learninig : kurs przygotowany przez Trevora Hastie i Roba Tibshirani, bazujący na ich fantastycznej książce An Introduction to Statistical Learning with Applications in R. W ciemno mogę polecić ten kurs jako jeden z najlepszych dostępnych na rynku. Jego ukończenie daje 75 XP.
  • Learning from Data : kurs z Caltechu, niestety, nie zdążyłem jeszcze obejrzeć wykładów i nie potrafię wypowiedzieć się na temat jakości tego kursu, natomiast lista tematów jest bardzo zbieżna z programem przedmiotu “Eksploracja danych”. Ze wzlgędu na duże obciążenie studentów ukończenie kursu jest warte 75 XP.

programowanie

Laboratoria

W trakcie laboratoriów będą wykorzystywane następujące programy:


* 9.03.2017 wstępne przetwarzanie danych


* 16.03.2017 ocena ważności atrybutów


* 23.03.2017 odkrywanie asocjacji


* 30.03.2017 wprowadzenie do klasyfikacji


* 06.04.2017 naiwny klasyfikator Bayesa


* 13.04.2017 drzewa decyzyjne


* 4.05.2017 maszyny wektorów wspierających


* 11.05.2017 meta-metody klasyfikacji


* 18.05.2017 analiza skupień


* 1.06.2017 ekstrakcja cech


Przewidywanie zdrad małżeńskich

Specjalny projekt zaliczeniowy jest już udostępniony na platformie Kaggle: http://inclass.kaggle.com/c/przewidywanie-zdrad

Na stronie projektu znajdziecie dokładny opis projektu, przykład pliku z rozwiązaniem oraz dane: zbiór uczący i zbiór testujący. Konkurs jest otwarty do soboty, 24 czerwca, do północy.

Punktacja jest następująca:

  1. I miejsce: 50 XP
  2. II miejsce: 40 XP
  3. III miejsce: 30 XP
  4. każdy, kto pokona mój wynik: 20 XP

Zagadki

Zagadka jest dostępna przez tydzień, do kolejnej środy (godz.21:00). Spośród górników którzy udzielili poprawnej odpowiedzi losuję jednego górnika która zgarnia tygodniową pulę stawek (5 XP).

losowanie

tydzień zamknięcie odpowiedzi zagadka
1 08.03, 21:00 samotny górnik
2 15.03, 21:00 egzekucja górników
3 22.03, 21:00 gra w dwie liczby
4 29.03, 21:00 szalony górnik
5 05.04, 21:00 baniak z wodą
6 12.04, 21:00 synowie Alojzego Gorzołki
7 19.04, 21:00 niewidomy bocian i żaba
8 03.05, 21:00 podział skarbu
9 10.05, 21:00 przemyt monet
10 17.05, 21:00 spacer chodnikiem
11 31.05, 21:00 bony towarowe
 
start.txt · Last modified: 2017/06/09 10:44 by Mikołaj Morzy
 
Except where otherwise noted, content on this wiki is licensed under the following license:Public Domain
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Debian Driven by DokuWiki