Buda, Jakab Máté and Németh, Renáta (2024) A felügyelt gépi tanulás alkalmazási lehetőségei szöveges adatokon. A magyar országgyűlésben 1998–2018 között elhangzott beszédek elemzése = The application of supervised machine learning on textual data. An analysis of speeches delivered in the Hungarian Parliament between 1998 and 2018. STATISZTIKAI SZEMLE, 102 (11). pp. 1087-1103. ISSN 00390690
|
Text
2024_11_1087.pdf - Published Version Download (389kB) | Preview |
Abstract
Tanulmányunkban a magyar országgyűlésben 1998–2018 között elhangzott beszédeket elemezve a szöveges adatokon végzett felügyelt gépi tanulás alkalmazási lehetőségeit mutatjuk be a társadalomtudományokban. Megmutatjuk, hogy a politikai polarizáció nyelvi lenyomatának, vagyis bizonyos csoportok nyelvhasználata közötti távolságnak a mérésére használhatjuk a klasszifikációs modellek pontossági metrikáját, ugyanakkor kitérünk arra is, hogy kizárólag a modell teljesítményére való hagyatkozás önmagában kevés, érdemes a modellek működését alaposabban is megvizsgálni. A magyarországi polarizáció időbeli alakulásának tanulmányozásához n-gram-változókra épülő XGBoost klasszifikációs modelleket illesztünk az összes 1998 és 2018 közötti parlamenti ciklusra, külön-külön. A klasszifikációs feladat az volt, hogy megkülönböztessük a vizsgált időszak alatti két domináns párt (Fidesz és MSZP) képviselői által elmondott beszédeket. Bár az egymást követő parlamenti ciklusok során a klasszifikáció teljesítményének javulása nyilvánvaló – ami a nyelvhasználatban tükröződő polarizáció erősödésére utal –, e nyelvi változás sajátosságai további tisztázást igényelnek. A nyelvhasználatban tükröződő növekvő különbség még kézenfekvőbb, ha nemcsak a modellek pontosságát, hanem az általuk megjósolt valószínűségek eloszlását is megvizsgáljuk. Kísérletet teszünk a modellek magyarázatára is, és további lehetséges kutatási irányokat is vázolunk. | In this study, we explore the potential of supervised machine learning for social research by analyzing speeches delivered in the Hungarian Parliament between 1998 and 2018. We show that the accuracy metric of the classification model can be used to measure the linguistic imprint of political polarization, i.e. the distance between certain groups. However, we point out that relying solely on the model's performance is not enough, it is worthwhile to examine the models in more detail. To study the evolution of polarization in Hungary over time, we trained XGBoost classification models with n-gram features for each parliamentary term separately within the study period. The aim was to distinguish speeches made by members of the two dominant parties in the timeframe of the study (Fidesz and MSZP). While model accuracy improves over time, indicating increased polarization, we argue that a comprehensive analysis requires examining not only overall performance but also the distribution of predicted probabilities and feature importance. The growing divergence in language use is even more evident when we look not only at the accuracy of the models but also at the distribution of the probabilities they predict. We also attempt to explain the models and outline further possible research directions.
Item Type: | Article |
---|---|
Uncontrolled Keywords: | természetes nyelvfeldolgozás, polarizáció, megmagyarázható gépi tanulás, natural language processing, polarization, explainable machine learning |
Subjects: | H Social Sciences / társadalomtudományok > HA Statistics / statisztika J Political Science / politológia > JN Political institutions (Europe) / politikai intézmények, államigazgatás, Európa > JN18 Hungary / Magyarország |
Depositing User: | Dorottya Cseresnyés |
Date Deposited: | 07 Jan 2025 10:02 |
Last Modified: | 07 Jan 2025 10:02 |
URI: | https://real.mtak.hu/id/eprint/212953 |
Actions (login required)
![]() |
Edit Item |