Pethő, Gergely and Sass, Bálint and Simon, László and Lipp, Veronika (2023) Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel. In: XIX. Magyar Számítógépes Nyelvészeti Konferencia, MSZNY-2023. SZTE, Szeged, pp. 291-304. ISBN 9789633069127
|
Text
mszny2023_korpusztisztitas.pdf Download (543kB) | Preview |
Abstract
Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt is- mertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon taní- tott nyelvmodellt, amelyre építve jó eredményeket értünk el e módszer alkalmazásával. Továbbá nyilvánosan elérhetővé tesszük az akár karak- ter-, akár szószintű rekurrens neurális nyelvmodellek konfigurálását és (újra)tanítását szolgáló, Pythonban írt alkalmazást, amellyel a nyelvmo- dellünket tanítottuk, és amelynek segítségével akár ez a magyar sajtó- nyelvi modell hozzáigazítható más jellegű tanítókorpuszokhoz, akár új modell tanítható be. A bemutatott kétirányú LSTM-nyelvmodell erőfor- rásigénye aránylag szerény, és a javasolt módszert követve közvetlenül, vagyis az adott részfeladatra történő bármilyen további betanítás nélkül jól használható a korpusztisztítás során felmerülő feladatok széles körére, például idegen nyelvű, túl sok zajt tartalmazó szövegrészek azonosításá- ra, szórványos OCR-hibák és hiányzó ékezetek javítására. A nyelvmodellt a sorvégi elválasztások egyértelműsítése feladatra értékeltük ki: a módszer teljesítménye ezen a feladaton meghaladta a nagyon magas baseline-t.
Item Type: | Book Section |
---|---|
Uncontrolled Keywords: | karakteralapú nyelvmodell, n-gram-modell, LSTM, kétirányú nyelvmodell, autoregresszió, OCR, hibajavítás, korpuszok előfeldolgozása |
Subjects: | P Language and Literature / nyelvészet és irodalom > P0 Philology. Linguistics / filológia, nyelvészet Q Science / természettudomány > QA Mathematics / matematika > QA75 Electronic computers. Computer science / számítástechnika, számítógéptudomány |
SWORD Depositor: | MTMT SWORD |
Depositing User: | MTMT SWORD |
Date Deposited: | 12 Mar 2024 12:31 |
Last Modified: | 12 Mar 2024 12:31 |
URI: | https://real.mtak.hu/id/eprint/190096 |
Actions (login required)
Edit Item |