Hering András – Random Forest módszerek alkalmazásai

2019 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Hering András

A gépi tanulásos algoritmusok a statisztikai fősodortól eltérő, predikciós képességet végletekig optimalizáló, de gyakran korlátozottan értelmezhető kimenetű alternatívaként jelentek meg. Leo Breiman az általa algoritmusos modellezésnek nevezett kultúra mellett érvelt, miszerint a legpontosabb modell a preferált egy rosszabbul teljesítő, de jobban interpretálható modellel szemben. Szakdolgozatomban Leo Breiman és társa, Adele Cutler Random Forests nevű modelljét értékelem ki egy logisztikus regresszióval vizsgált, tanulási típusokat elemző kutatásban azzal a céllal, hogy a várhatóan jobb teljesítményű Random Forests milyen ismert vagy új információt tud feltárni az oksági magyarázatot kereső társadalomtudományos környezetben. A Random Forests döntési fákból álló komplex struktúrájának feltárását követően felsorakoztatom a három fő információforrást a modell értelmezésére: out-of-bag, variable importance, és multi-dimension scaling. Az elemzés során létrehozok egy marginálisan jobban teljesítő RF modellt, amely kiértékelése során korábban ismert és nem feltárt összefüggések is megjelennek: a fák szavazati arányaiból származó értékek érdekes összefüggést mutatnak a logisztikus regresszió együtthatóival.