Ćwiczenie 3 : Ocena ważności atrybutów

W ćwiczeniu przedstawiamy metody oceny przydatności poszczególnych atrybutów w procesach eksploracji danych. W trakcie laboratorium zapoznajemy się z podstawowymi metodami identyfikacji atrybutów, które są nieprzydatne w zadaniach eksploracji. Będziemy badać zmienność wewnątrz atrybutów, korelację między atrybutami, a także będziemy wybierać zbiory atrybutów charakteryzujące się najbardziej pożądanymi cechami. A na początku zapoznamy się z zasadą minimalizacji długości opisu (ang. minimum description length) oraz przeprowadzimy jeden z najbardziej niesamowitych eksperymentów naukowych w historii.

literatura

Oracle Data Mining

SELECT v.immigration, v.class, COUNT(*)
FROM votes v
WHERE v.immigration IS NOT NULL
GROUP BY v.immigration, v.class;
BEGIN
  DBMS_DATA_MINING.DROP_MODEL('Attribute_Importance');
END;
BEGIN
  DBMS_DATA_MINING.CREATE_MODEL(
    model_name          => 'Attribute_Importance',
    mining_function     => DBMS_DATA_MINING.ATTRIBUTE_IMPORTANCE,
    data_table_name     => 'votes',
    case_id_column_name => 'id',
    target_column_name  => 'class');
END;
SELECT *
FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_AI('Attribute_Importance')) 
ORDER BY RANK;
ALTER TABLE votes
ADD a1 NUMBER;
 
ALTER TABLE votes
ADD a2 NUMBER;
 
UPDATE attribute_importance_test
SET a1 = ROUND(DBMS_RANDOM.RANDOM()),
    a2 = (CASE class WHEN 'democrat' THEN 1 WHEN 'republican' THEN -1 END);
 
COMMIT;
BEGIN
  DBMS_DATA_MINING.DROP_MODEL('Attribute_Importance');
END;
BEGIN
  DBMS_DATA_MINING.CREATE_MODEL(
    model_name          => 'Attribute_Importance',
    mining_function     => DBMS_DATA_MINING.ATTRIBUTE_IMPORTANCE,
    data_table_name     => 'votes',
    case_id_column_name => 'id',
    target_column_name  => 'class');
END;
SELECT *
FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_AI('Attribute_Importance')) 
ORDER BY RANK;

Rapid Miner

Twój ostateczny przepływ powinien wyglądać następująco: