Przykładowe projekty zaliczeniowe 2020

Poniżej prezentuję przykładowe projekty, które mogą być realizowane zamiast udziału w konkursie obliczeniowym na platformie Kaggle. Projekty te są bardziej wymagające, ale pozwalają znacznie głębiej wejść w tematykę uczenia maszynowego i nauczyć się rzeczy zdecydowanie wykraczających poza tematykę kursu.

Opracowanie algorytmu odczytywania danych z opakowań spożywczych

Celem projektu jest opracowanie i wytrenowanie algorytmu umożliwiającego czytanie danych tekstowych zawartych na opakowaniach spożywczych. Algorytm będzie korzystał z wysokiej jakości zdjęć (tzw. pack-shotów) dostarczonych przez partnera komercyjnego. Do detekcji tekstu zostanie wykorzystana biblioteka OCR EAST, natomiast odczytanie tekstu nastąpi przy użyciu Google Tesseract.

Opracowanie algorytmu oceny podobieństwa zdjęć twarzy

Celem projektu jest opracowanie i wytrenowanie algorytmu do porównywania podobieństwa twarzy i oceny stopnia “przeciętności” twarzy. Algorytm będzie bazował na pre-trenowanych modelach dostępnych w ramach biblioteki VGG Face2.

Detekcja dyskryminacji w wektorowej reprezentacji słów

Mimo ogromnej popularności rozproszonej reprezentacji słów (ang. word embeddings) nie są to jednak narzędzia pozbawione wad. Celem projektu jest identyfikacja dyskryminacji na podstawie subiektywnego prestiżu słów ukrytej w wektorowej reprezentacji słów. Identyfikacja odbędzie się na podstawie wyliczania odległości między wektorami wspomaganego pół-automatycznym adnotowaniem danych.

Identyfikacja słów nadwrażliwych i nadstabilnych w analizie sentymentu

Celem projektu jest zidentyfikowanie dwóch rodzajów słów występujących w analizowanym tekście. Słowa nadwrażliwe to słowa, których niewielka zmiana (np. zastąpienie słowa synonimem) powoduje zmianę przypisanej klasy. Słowa nadstabilne to słowa, których zmiana na antonim nie powoduje zmiany przypisanej klasy. W pracy wykorzystaną zostane wektory słów, model predykcji sentymentu oraz inne zasoby leksykalne.