Zaawansowana eksploracja danych

Prowadzący

telefon: 61 665 2961

email: Mikolaj.Morzy@put.poznan.pl

Instytut Informatyki Politechniki Poznańskiej, ul. Piotrowo 2, 60-965 Poznań

Wydział Informatyki, ul.Strzelecka 11, 60-965 Poznań

Miejsce przedmiotu w programie studiów

Przedmiot obowiązkowy na II stopniu studiów magisterskich uzupełniających na kierunku Informatyka, specjalność Technologie Przetwarzania Danych

Cele

Przedmiot stanowi kontynuację przedmiotu Eksploracja danych. Celem przedmiotu jest zapoznanie studentów z zaawansowanymi technikami eksploracji danych i odkrywania wiedzy w bazach danych, takimi jak: analiza skupień, selekcja i ekstrakcja cech, metody regresji. Oprócz ogólnych algorytmów studentki i studenci poznają różne środowiska do eksploracji danych: Oracle Data Mining, Orange Data Mining czy Project R. Duży nacisk położony jest na ćwiczenia praktyczne, w trakcie których studentki i studenci implementują własne rozwiązania przy użyciu języków SQL, PL/SQL i Java.

Sposób zaliczenia przedmiotu

Przedmiot jest zaliczany na podstawie projektu zaliczeniowego. Projekt zaliczeniowy polega na wykorzystaniu wybranego narzędzia do eksploracji danych (Rapid Miner, Weka, Orange Data Mining, Oracle Data Miner, R-project) do wykonania analizy na dostarczonym przez prowadzącego zbiorze danych. Projekt dotyczy przeprowadzenia analizy i eksploracji dużego zbioru danych, analiza jest podzielona na poszczególne zadania (klasyfikacja, regresja, analiza skupień) i istnieje możliwość wykonania części zadań.

Termin przesyłania rozwiązań upływa w niedzielę, 27 stycznia 2013 r. o godzinie 23:59.

UWAGA: w przypadku korzystania z plikowej wersji bazy danych w trakcie testowania klasyfikatorów proszę podzielić zbiór danych na zbiór uczący i testujący w taki sposób, aby w zbiorze testowym znalazło się 1860 przypadków.

Wymagane wiadomości

Dobra znajomość języków SQL i PL/SQL, umiejętność programowania w języku Java, znajomość podstawowych pojęć z zakresu statystyki.

Plan laboratoriów

Program zajęć laboratoryjnych obejmuje następujące zagadnienia:

  • analiza skupień
  • selekcja i ekstrakcja cech
  • metody regresji
  • Orange Data Mining
  • Projekt R
  • Java for Data Mining API

Bibliografia

  1. Data Mining: Concepts and Techniques, J.Han, M.Kamber, J.Pei, Morgan Kaufmann, 2005
  2. Principles of Data Mining, D.J.Hand, H.Mannila, P.Smyth, AAAI/MIT Press, 2000
  3. Handbook of Data Mining and Knowledge Discovery, W.Kloesgen, J.Zytkow, (eds) Oxford University Press, 2002
  4. Introduction to Data Mining , P.Tan, M.Steinbach, V.Kumar, Addison Wesley, 2005

Laboratoria

Dostęp do bazy danych odbywa się za pomocą programu iSQLPlus

Konta studenckie to tpdxxxxx, gdzie xxxxx oznacza numer indeksu. Identyfikator połączenia to DCS-MM.

18.11.2012 Laboratorium 1

18.11.2012 Laboratorium 2

18.11.2012 Laboratorium 3

8.12.2012 Laboratorium 4

8.12.2012 Laboratorium 5

8.12.2012 Laboratorium 6

 
zed-sum.txt · Last modified: 2013/01/14 15:55 by Mikołaj Morzy
 
Except where otherwise noted, content on this wiki is licensed under the following license:Public Domain
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Debian Driven by DokuWiki