Adattudomány a társadalomkutatásban

Az adatanalitika (vagy divatos de nem pontos és kissé túlhasznált nevén Big Data) szociológiai alkalmazásának egyik legfőbb kihívását az adja, hogy az a szociológián kívül intézményesült, míg a szociológia (korábbi) tudományos tekintélyét éppen saját kutatási módszertani paradigmája adta. A másik lényegi kihívás természetét tekintve episztemológiai, és az adatok érvényességi/megbízhatósági kérdéseihez, a szociológia számára fontos magyarázat/okság problémájához kötődik. Ezek a kihívások adják annak a feszültségnek a hátterét, ami a Big Data-alapú társadalmi megfigyelések és ezen megfigyeléseket övező, a Big Data szociológiai tudás-termelő potenciálját megkérdőjelező szociológiai szkepszis között húzódik.

Ezek a kihívások a szociológiai módszertan alapjainak újradefiniálásával, az adatanalitikai módszerek hagyományos eszközeink közé történő szerves beépítésével válaszolhatók meg. A megoldás a kvantitatív és kvalitatív gondolkodás együttes használatát, az adatvezérelt adatanalitikai módszerek tudásvezérelt megközelítésre váltását is szükségessé teszi.

Eddigi eredmények

E téren történő kutatásaink másik motivációja az adatanalitikát övező folyamatosan növekvő társadalomtudományi érdeklődés. Példaként tekintsük az automatizált szöveganalitika esetét: a Dimensions (https://dimensions.ai) adatai alapján e módszertan népszerűsége folyamatosan növekszik általában is és résztudományok szerint külön is. Minden trendvonal emelkedést mutat az adott tudomány össz-publikációszámával való normalizálás után is, sőt a téma szociológián belüli százalékos elterjedtsége még gyorsabban nő, mint általában, tehát egyre inkább elfogadott megközelítéssé válik.

 

 

Kapcsolódó korábbi tudományszociológiai/episztemológiai publikációk

 

A projektben született kapcsolódó publikációk

Németh, Renáta; Koltai, Júlia (2019): Szociológiai tudás felfedezése autamatizált szöveganalitika segítségével. In: Rudas, Tamás – Péli, Gábor (szerk.) Pathways Between Social Science and Computational Social Science – Therories, Methods and Interpretations. New York, NY, Springer. (előkészületben) 

Tanulmányunkban a Big Data szöveganalitika szociológiai alkalmazásának lehetőségeit és kihívásait tárgyaljuk. A lehetőségek közé azokat az információtechnológiai, adattudományi, mesterséges intelligencia-kutatási és természetes nyelvfeldolgozási (natural language processing, NLP) eredményeket soroljuk, melyek eredetileg üzleti és technológiai területeken jöttek létre, és amelyek közül több jól adaptálható a társadalomkutatásban. Segítségükkel közvetlenül megfigyelhető a társas viselkedés, real-time végezhető az elemzés, és – az NLP fejlődésével párhuzamosan – a szöveges tartalmak megértése is mélyebbé válhat. Munkánkban ezeket a módszereket hozzuk közelebb a klasszikus kvantitatív módszereket ismerő szociológus olvasóhoz. Olyan új szociológiai témákra mutatunk rá, melyeket e megközelítés generálhat, s fordítva: megmutatjuk, hogyan kaphatnak új szempontokat klasszikus szociológiai kérdések. Célunk a szociológusok e területre történő belépésének motiválása, ezért az új módszereket a klasszikus szociológiai eszközök és fogalmak felől ismertetjük, és választ adunk arra a kérdésre is, milyen felkészülést előfeltételez ez a belépés a hagyományosan képzett szociológus részéről.         

 

Koltai, Júlia – Kmetty, Zoltán – Bozsonyi, Károly (2019) From Durkheim to machine learning – finding the relevant sociological content in a social media discourse. In: Rudas, Tamás – Péli, Gábor (eds.) Pathways Between Social Science and Computational Social Science – Therories, Methods and Interpretations. New York, NY, Springer. (forthcoming)

Az öngyilkosság témája Durkheim óta foglalkoztatja a társadalomtudósokat. Az internet és a közösségi média új utakat nyitott meg az emberek számára ahhoz, hogy megosszák ott pozitív érzéseiket, ugyanakkor ezek színterei lehetnek a szuicid késztetés és a depressziós gondolatok megfogalmazásának is. A legtöbb ilyen bejegyzés nem valós öngyilkossági szándék miatt íródik, egyesek mögött azonban valós segélykiáltások vannak. Mindazonáltal, az öngyilkossággal és depresszióval kapcsolatos bejegyzések jellege nagyon eltérő a különböző platformokon, így egyáltalán nem egyértelmű, hogy egy kutató hogyan találja meg az ilyen tartalmakat a közösségi média hatalmas adattömegében. Tanulmányunkban egy olyan szövegkorpuszt dolgozunk fel, amely több mint 4 millió olyan Instagram fotón alapul, melyek kapcsolatban hozhatóak mentális problémákkal. A korpusz bemutatása után két eltérő stratégiát taglalunk arra vonatkozóan, hogy lehet a szociológiai szempontból releváns tartalmakat meghatározni a közösségi média zajos adataiból. Az első módszer kiindulópontja egy topicmodellezés (Latent Dirichlet Allocation – LDA), amelynek  eredménye egy felügyelt gépi tanulással készült osztályozási módszer alapjául szolgál. A másik stratégia egy mesterséges neurális hálón alapuló szóbeágyazási modellre épül.

 

Bartus, Tamás – Kisfalusi, Dorottya – Koltai, Júlia (2019) Logisztikus regressziós együtthatók összehasonlítása In: Statisztikai Szemle 97(3): 221-240.

Az utóbbi években egyre több figyelmet kapott az a probléma, hogy az egymásba ágyazott modellspecifikációkban szereplő, illetve a különböző részmintákra vonatkozó logisztikus (és más nemlineáris) regressziós együtthatók nem hasonlíthatók össze, mivel a különböző modellspecifikációkban és a különböző részmintákban eltér a nem megfigyelhető reziduális szórás. A tanulmányban a szerzők bemutatják a probléma megoldására kidolgozott módszereket és szimuláció segítségével vizsgálják azok hatékonyságát. Az egymásba ágyazott modellek együtthatói összehasonlíthatóvá tehetők az együtthatók y-standardizálásával vagy a többváltozós modell (nem közvetlenül az egyváltozós modellhez, hanem) egy speciális, kváziegyváltozós modellhez való hasonlításával. A különböző részmintákra vonatkozó becslések összehasonlítására kidolgozott módszerek – a csoport-interakciók arányosságának tesztelése, valamint a heterogenitást tartalmazó logisztikus regressziós modellek – azonban nem adnak érdemi megoldást a problémára. A tanulmány ennek a kudarcnak az elemzésével zárul

 

A projektben született kapcsolódó előadások listája

Németh, Renáta: Data science és statisztika (2018). Előadás és vitaindító a Klinikai Biostatisztikai Társaság ülésén 2018 október 19-én.

Az előadás a ”big data” módszertani paradigmájáról, ennek a klasszikus statisztikához való viszonyáról szólt. A beszélgetés a probléma biostatisztikai relevanciáját érintette.

 

Kmetty, Zoltán – Koltai, Júlia: Döntéshozatali mechanizmusok Big Data alapon társadalomtudományi szemmel. Előadás a HUB Design House ‘The Power of Big Data’ előadássorozatán, Budapest, 2019. január 9.

Előadásunkban azt mutatjuk be, hogy milyen lehetőségek rejlenek a nagy adat alapú döntéshozásban, kiemelten fókuszálva ezek veszélyeire, amikor ez a jellegű döntéshozatal nem működik megfelelően. Ez utóbbi téma keretén belül külön foglalkoztunk az interpretáció és az okság kérdéseivel. 

 

Kmetty, Zoltán – Koltai, Júlia: Understanding Cultural Choices with NLP [Kulturális választások megértése a természetesnyelv feldolgozás segítségével] (2019). Előadás a Budapest Data Science Meetupon, Budapest, 2019. május 9.

A digitális szövegek mennyiségi növekedésével párhuzamosan a természetesnyelv feldolgozás módszerei nagyon gyorsan fejlődtek az utóbbi évtizedben. Előadásunkban a mesterséges neurális hálón alapuló szóbeágyazási modellekre fókuszálunk, melyek meglehetősen elterjedté váltak az elmúlt években. Ezen módszereket nagyon különböző területeken alkalmazzák, például nyelvészetben szótárkészítésnél, videóajánlási rendszereknél, termékek online értékelésének feldolgozásánál, stb. Mindazonáltal az emberi viselkedés és kultúrára megértésére eddig korlátozottan alkalmazták annak ellenére, hogy a rendelkezésre álló nagy mennyiségű digitális (szöveg)adat rengeteg információt hordoz preferenciáinkról, választásainkról és arról, ahogy gondolkodunk a világról. Előadásunkban különböző példákat mutatunk a szóbeágyazási modellek ilyen területen történő felhasználásáról. Az előadás emellett részletesen kitér a modellek módszertanára, a még megoldandó problémákra, valamint a szükséges jövőbeli fejlesztési irányokra is.