REAL

A topikmodellezés lehetőségei és korlátai egy törvénykorpusz példáján = The opportunities and constraints of topic modelling – the case of a corpus of laws

Gelányi, Péter and Sebők, Miklós and Ring, Orsolya (2022) A topikmodellezés lehetőségei és korlátai egy törvénykorpusz példáján = The opportunities and constraints of topic modelling – the case of a corpus of laws. STATISZTIKAI SZEMLE, 100 (8). pp. 783-814. ISSN 0039-0690

[img]
Preview
Text
2022_08_783.pdf

Download (641kB) | Preview

Abstract

A topikmodellezés a felügyelet nélküli tanulás egy fajtája, amelynek segítségével egy korpusz dokumentumait kategorizálhatjuk szemantikailag értelmezhető témakörök alapján kialakított csoportokba. A módszernek számos potenciális felhasználási lehetősége van a társadalomtudományok területén. Jelen tanulmány a topikmodellezés előnyeit és buktatóit tekinti át, illetve mutatja be egy kutatás példáján keresztül, amelynek során az 1990 és 2018 között elfogadott magyar törvényekből álló korpuszokból alakítottunk ki topikmodelleket. Célunk az LDA felhasználási lehetőségeinek felmérése volt. A kutatás során ciklusonként kialakított alkorpuszokon futtattunk topikmodelleket, majd az ugyanezen a korpuszon végzett kézi kódolás eredményeivel összehasonlítva értékeltük ki azokat. Eredményeink alapján az LDA más módszerekhez képest jelentősen kisebb mértékű erőforrás-befektetés mellett is alkalmas szemantikailag értelmezhető és koherens kategóriák kialakítására, amelyek a további vizsgálatok szempontjából relevánsak lehetnek. Ugyanakkor nem tanácsoljuk az algoritmus validáció nélküli használatát. A topikmodellezés elsődleges alkalmazási lehetőségét a vizsgált dokumentumok előzetes feldolgozásában, strukturálásában látjuk. = Topic modelling is a form of unsupervised learning, it is used to categorize the documents of a corpus into groups based on semantically interpretable topics. This method has a number of potential applications in the context of social science research. This study provides an overview of the opportunities and constraints of topic modelling within a social science context, through a concrete research example, that applies topic modelling to a corpus consisting of hungarian laws from 1990 to 2018. Our aim is to provide an evalueation of the potential research usage of LDA. We evaluated our models based on comparisons with hand coding research done on the same corpus. Our results show, the categories generated by our models were semanticly interpretable, and were relevant to potential further study of the corpus, we stress the importance of validation. We see the primary use of topic modelling in the preliminary processing and structuring of data.

Item Type: Article
Subjects: H Social Sciences / társadalomtudományok > HA Statistics / statisztika
K Law / jog > K Law (General) / jogtudomány általában
SWORD Depositor: MTMT SWORD
Depositing User: MTMT SWORD
Date Deposited: 12 Oct 2022 13:05
Last Modified: 12 Oct 2022 13:06
URI: http://real.mtak.hu/id/eprint/151563

Actions (login required)

Edit Item Edit Item