In [None]:
from sklearn import datasets, preprocessing, feature_selection
from itertools import compress

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Zbiór danych

W ćwiczeniu wykorzystamy biblioteczny zbiór danych o cenach mieszkań w Bostonie. Wyświetl opis zbioru i zapoznaj się z interpretacją poszczególnych atrybutów

In [None]:
boston = datasets.load_boston()

print(boston.DESCR)

print('Data shape: ', boston.data.shape)

# Ocena atrybutów

## Usuwanie atrybutów o małej wariancji

Na początku użyjemy prostego filtra do odrzucenia atrybutów, w których ponad 75% przykładów ma tę samą wartość. Posłużymy się w tym celu klasą [VarianceThreshold](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html#sklearn.feature_selection.VarianceThreshold). Obejrzyj wynik filtrowania i sprawdź, co się stanie, jeśli zaostrzysz kryteria filtrowania.

In [None]:
from sklearn.feature_selection import VarianceThreshold

sel = VarianceThreshold(threshold=(.75 * (1 - .75)))
boston_new = sel.fit_transform(boston.data)

print('Data shape: ', boston_new.data.shape)

feature_names = compress(boston.feature_names, sel.get_support())
pd.DataFrame(boston_new, columns=feature_names)

## Wybór atrybutów przez regresję liniową

Następnie posłużymy się selektorem [SelectKBest](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html) do znalezienia 2 najlepszych atrybutów z punktu widzenia prostej regresji liniowej. 

In [None]:
from sklearn.feature_selection import SelectKBest, f_regression

boston_new = SelectKBest(f_regression, k=2).fit_transform(boston.data, boston.target)

feature1 = boston_new[:, 0]
feature2 = boston_new[:, 1]

plt.plot(feature1, feature2, 'r.')
plt.xlabel("Feature number 1")
plt.ylabel("Feature number 2")
plt.ylim([np.min(feature2), np.max(feature2)])
plt.show()


## Wybór atrybutów przez regresję liniową z regularyzacją

Następny przykład pokazuje znalezienie dwóch najlepszych atrybutów z punktu widzenia prostej regresji liniowej, w której parametry podlegają regularyzacji L1. W tym celu wykorzystamy klasę [SelectFromModel](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html#sklearn.feature_selection.SelectFromModel). Zauważ, że regresja z regularyzacją jest realizowana przez klasę [LassoCV](http://scikit-learn.org/stable/modules/linear_model.html#lasso).

In [None]:
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LassoCV

clf = LassoCV()

sfm = SelectFromModel(clf, threshold=0.25)
sfm.fit(boston.data, boston.target)
n_rows, n_features = sfm.transform(boston.data).shape

while n_features > 2:
 sfm.threshold += 0.1
 boston_new = sfm.transform(boston.data)
 n_rows, n_features = boston_new.shape

feature1 = boston_new[:, 0]
feature2 = boston_new[:, 1]

plt.plot(feature1, feature2, 'r.')
plt.xlabel("Feature number 1")
plt.ylabel("Feature number 2")
plt.ylim([np.min(feature2), np.max(feature2)])
plt.show()

## Rekurencyjny wybór atrybutów

Ostatni przykład to wykorzystanie klasy [Recursive Feature Extraction](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html#sklearn.feature_selection.RFE) do rekurencyjnego wyboru atrybutów. Metoda wykorzystuje klasyfikator/regresor do wyboru, w każdym kroku, najlepszy możliwy atrybut.

In [None]:
from sklearn.feature_selection import RFE
from sklearn.tree import DecisionTreeRegressor

estimator = DecisionTreeRegressor()
selector = RFE(estimator, 2, step=1)

selector = selector.fit(boston.data, boston.target)

boston_new = boston.data[:,selector.support_]

feature1 = boston_new[:, 0]
feature2 = boston_new[:, 1]

plt.plot(feature1, feature2, 'r.')
plt.xlabel("Feature number 1")
plt.ylabel("Feature number 2")
plt.ylim([np.min(feature2), np.max(feature2)])
plt.show()

In [None]:
for (attr, rank, selected) in zip(boston.feature_names, selector.ranking_, selector.support_):
 print(f'{attr:>10}: rank={rank:<2} selected={selected}')

# zadanie samodzielne

Wykorzystaj metodę [sklearn.datasets.make_classification()](http://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html) do zbudowania zbioru danych zawierającego 1000 przypadków opisanych przy użyciu 20 atrybutów, z których 

* 5 atrybutów jest faktycznie informacyjnych
* 5 atrybutów jest nadmiarowych
* 5 atrybutów jest zduplikowanych. 

Wykorzystaj którąś z przedstawionych metod wyboru atrybutów do ograniczenia zbioru atrybutów do 5 najważniejszych atrybutów. Sprawdź, czy uda Ci się odzyskać atrybuty informacyjne. Swoje rozwiązanie w postaci notatnika Jupyter prześlij na adres Mikolaj.Morzy@put.poznan.pl do **piątku, 10 kwietnia, do godziny 12:00**. Pamiętaj, że Twoja analiza ma być w pełni reprodukowalna, zatem nie może zakładać np. obecności plików na lokalnym dysku. Przyjmij, że w środowisku uruchomieniowym będą obecne pakiety: `pandas`,`numpy`,`sklearn`,`matplotlib`,`tqdm`, oraz standardowa biblioteka Pythona 3.7. Wszystkie dodatkowe pakiety muszą być jawnie instalowane (np. przez `!pip install abc`).