# Naiwny klasyfikator Bayesa

Celem ćwiczenia jest zapoznanie się z możliwością wykorzystania biblioteki `scikit-learn` do zbudowania prostego przepływu ilustrującego wykorzystanie algorytmu [naiwnego klasyfikatora Bayesa](https://en.wikipedia.org/wiki/Naive_Bayes_classifier).

# Setup

## Potrzebne biblioteki
Do wykonania ćwiczenia skorzystamy z następujących bibliotek:

In [None]:
# Data manipulation
import pandas as pd
import numpy as np

# Options for pandas
pd.options.display.max_columns = 50
pd.options.display.max_rows = 30

# Visualizations
# import plotly
# import plotly.graph_objs as go
# import plotly.offline as ply
# plotly.offline.init_notebook_mode(connected=True)

import matplotlib as plt

# Autoreload extension
if 'autoreload' not in get_ipython().extension_manager.loaded:
    %load_ext autoreload
    
%autoreload 2

# Machine learning
from sklearn import datasets, metrics
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

# Import danych

Do ćwiczenia wykorzystamy [zbiór irysów Fishera](https://en.wikipedia.org/wiki/Iris_flower_data_set). Gdyby dane wejściowe były zamieszczone w pliku tekstowym, wygodniej byłoby posłużyć się bezpośrednio obiektem klasy `DataFrame` z biblioteki `pandas` do wczytania danych i ich podziału na dane treningowe i etykiety.

In [None]:
iris = pd.read_csv('https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/639388c2cbc2120a14dcf466e85730eb8be498bb/iris.csv', header=0)

In [None]:
# funkcja pop() usuwa wskazaną kolumnę z obiektu i zwraca ją jako wynik
y = iris.pop('species')
X = iris

In [None]:
y.value_counts()

In [None]:
# metoda DataFrame.describe() zwraca proste podsumowanie statystyczne kolumn
X.describe()

My jednak wykorzystamy wersję zbioru `Iris` dostarczaną razem z biblioteką `scikit-learn`. Funkcja `load_iris()` zwraca słownik zawierający tablicę danych, osobną listę z etykietami kwiatów, listę nazw atrybutów.

In [None]:
iris = datasets.load_iris()

print(f"Pierwsze pięć kwiatów: \n {iris['data'][:5]}")
print(f"Pierwszych pięć etykiet: \n {iris['target'][:5]}")
print(f"Nazwy atrybutów: \n {iris['feature_names']}")

In [None]:
# opis zbioru danych
print(iris.DESCR)

# Budowanie klasyfikatora

Przed przystąpieniem do uczenia klasyfikatora musimy podzielić zbiór danych na część treningową i testową. Wykorzystamy w tym celu funkcję pomocniczą dostarczaną przez `scikit-learn`.

In [None]:
# podziel zbiór danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7)

print(f"Zbiór uczący: {X_train.shape}, zbiór testujący: {X_test.shape}")

In [None]:
# przygotuj model i dopasuj model do danych
model = GaussianNB()
model.fit(X_train,y_train)

In [None]:
# zobacz, w jaki sposób model oszacował prawd. a priori
 
print(f"Klasy decyzyjne: {model.classes_}")
print(f"Liczba instancji każdej klasy: {model.class_count_}")
print(f"Prawdopod. a priori każdej klasy: {model.class_prior_}")

In [None]:
# dokonaj predykcji i oceń jakość modelu
predicted = model.predict(X_test)
expected = y_test
 
print(f"Dokładność modelu: {metrics.accuracy_score(expected, predicted)}\n")
print(f"Macierz pomyłek: \n {metrics.confusion_matrix(expected, predicted)}")

In [None]:
print(metrics.classification_report(expected, predicted))

In [None]:
# zobacz, jak podanie prawdopodobieństwa a priori zmieni działanie klasyfikatora
model = GaussianNB(priors=[0.5, 0.49, 0.01])
model.fit(X_train,y_train)
 
predicted = model.predict(X_test)
expected = y_test
 
print(f"Dokładność modelu: {metrics.accuracy_score(expected, predicted)}\n")
print(f"Macierz pomyłek: \n {metrics.confusion_matrix(expected, predicted)}")