Buda Jakab – Szövegklasszifikáció rekurrens neurális háló alapú nyelvi modell segítségével

2020 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Szakdolgozatomban a visszacsatolt neurális háló alapú szövegklasszifikáció lehetőségeivel foglalkozom, ezen belül szövegek szerzőinek nem- és kormeghatározásával nyelvi modellek segítségével. A gyorsan fejlődő technológiai környezet és a folyamatosan változó online tartalmak által teremtett változó igények következtében az elmúlt években ezen a területen sok különböző megoldási lehetőség jelent meg, így ezek áttekintése teszi ki a dolgozat jelentős részét. Először összefoglalom a kapcsolódó természetesnyelv-feldolgozási, szóbeágyazással, szövegklasszifikációval és nyelvi modellekkel foglalkozó fontosabb szakirodalmakat, majd a visszacsatolt neurális hálók elméleti felépítését ás a gépi tanulás legfontosabb módszertani kérdéseit tárgyalom. Végül a 2013-as PAN szövegklasszifikációs verseny adatbázisán különböző méretű és felépítésű modelleket tesztelek. A dolgozat kérdése, hogy egy olyan osztályozó eljárás, amely különböző modelleket épít az egyes osztályokra és az egyes szövegeket az azokra legjobban illeszkedő modell osztályába sorolja lehet-e működőképes alternatívája a standard osztályozó algoritmusoknak. Bár a tesztelt esetekben az így épített modellek nem haladják meg a szokásos osztályozók összesített teljesítményét, úgy tűnik, hogy kiegyensúlyozottabb teljesítményt tudnak nyújtani.