Analiza skupień

Celem laboratorium jest zapoznanie studentów z podstawowymi pojęciami związanymi z analizą skupień: pojęciem miary odległości, dostępnymi miarami odległości, oraz algorytmami k-średnich, algorytmami opartymi na gęstości, oraz algorytmami analizy skupień dla tekstu.

Przed rozpoczęciem zajęć zapoznamy się z ilustracjami dwóch popularnych rodzajów algorytmów analizy skupień:

Rapid Miner
SciKit-Learn

zadanie samodzielne

Pobierz zbiór danych smsspamcollection.csv i powtórz ćwiczenie ze znajdowaniem skupień w tekście, porównując efektywność tradycyjnej metody wykorzystującej wektorową reprezentację tekstu z ważeniem TF-IDF z metodą opartą na embeddingach.