Poniżej prezentuję przykładowe projekty, które mogą być realizowane zamiast udziału w konkursie obliczeniowym na platformie Kaggle. Projekty te są bardziej wymagające, ale pozwalają znacznie głębiej wejść w tematykę uczenia maszynowego i nauczyć się rzeczy zdecydowanie wykraczających poza tematykę kursu.
Celem projektu jest opracowanie i wytrenowanie algorytmu umożliwiającego czytanie danych tekstowych zawartych na opakowaniach spożywczych. Algorytm będzie korzystał z wysokiej jakości zdjęć (tzw. pack-shotów) dostarczonych przez partnera komercyjnego. Do detekcji tekstu zostanie wykorzystana biblioteka OCR EAST, natomiast odczytanie tekstu nastąpi przy użyciu Google Tesseract.
Celem projektu jest opracowanie i wytrenowanie algorytmu do porównywania podobieństwa twarzy i oceny stopnia “przeciętności” twarzy. Algorytm będzie bazował na pre-trenowanych modelach dostępnych w ramach biblioteki VGG Face2.
Mimo ogromnej popularności rozproszonej reprezentacji słów (ang. word embeddings) nie są to jednak narzędzia pozbawione wad. Celem projektu jest identyfikacja dyskryminacji na podstawie subiektywnego prestiżu słów ukrytej w wektorowej reprezentacji słów. Identyfikacja odbędzie się na podstawie wyliczania odległości między wektorami wspomaganego pół-automatycznym adnotowaniem danych.
Celem projektu jest zidentyfikowanie dwóch rodzajów słów występujących w analizowanym tekście. Słowa nadwrażliwe to słowa, których niewielka zmiana (np. zastąpienie słowa synonimem) powoduje zmianę przypisanej klasy. Słowa nadstabilne to słowa, których zmiana na antonim nie powoduje zmiany przypisanej klasy. W pracy wykorzystaną zostane wektory słów, model predykcji sentymentu oraz inne zasoby leksykalne.