REAL

Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel

Pethő, Gergely and Sass, Bálint and Simon, László and Lipp, Veronika (2023) Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel. In: XIX. Magyar Számítógépes Nyelvészeti Konferencia, MSZNY-2023. SZTE, Szeged, pp. 291-304. ISBN 9789633069127

[img]
Preview
Text
mszny2023_korpusztisztitas.pdf

Download (543kB) | Preview

Abstract

Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt is- mertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon taní- tott nyelvmodellt, amelyre építve jó eredményeket értünk el e módszer alkalmazásával. Továbbá nyilvánosan elérhetővé tesszük az akár karak- ter-, akár szószintű rekurrens neurális nyelvmodellek konfigurálását és (újra)tanítását szolgáló, Pythonban írt alkalmazást, amellyel a nyelvmo- dellünket tanítottuk, és amelynek segítségével akár ez a magyar sajtó- nyelvi modell hozzáigazítható más jellegű tanítókorpuszokhoz, akár új modell tanítható be. A bemutatott kétirányú LSTM-nyelvmodell erőfor- rásigénye aránylag szerény, és a javasolt módszert követve közvetlenül, vagyis az adott részfeladatra történő bármilyen további betanítás nélkül jól használható a korpusztisztítás során felmerülő feladatok széles körére, például idegen nyelvű, túl sok zajt tartalmazó szövegrészek azonosításá- ra, szórványos OCR-hibák és hiányzó ékezetek javítására. A nyelvmodellt a sorvégi elválasztások egyértelműsítése feladatra értékeltük ki: a módszer teljesítménye ezen a feladaton meghaladta a nagyon magas baseline-t.

Item Type: Book Section
Uncontrolled Keywords: karakteralapú nyelvmodell, n-gram-modell, LSTM, kétirányú nyelvmodell, autoregresszió, OCR, hibajavítás, korpuszok előfeldolgozása
Subjects: P Language and Literature / nyelvészet és irodalom > P0 Philology. Linguistics / filológia, nyelvészet
Q Science / természettudomány > QA Mathematics / matematika > QA75 Electronic computers. Computer science / számítástechnika, számítógéptudomány
SWORD Depositor: MTMT SWORD
Depositing User: MTMT SWORD
Date Deposited: 12 Mar 2024 12:31
Last Modified: 12 Mar 2024 12:31
URI: https://real.mtak.hu/id/eprint/190096

Actions (login required)

Edit Item Edit Item