REAL

Analógikus általánosítási folyamatok a gyereknyelvben = Analogical generalisation processes in language acquisition

Babarczy, Anna (2009) Analógikus általánosítási folyamatok a gyereknyelvben = Analogical generalisation processes in language acquisition. Project Report. OTKA.

[img]
Preview
PDF
61735_ZJ1.pdf

Download (1MB)

Abstract

A lexikai tudás, vagyis a felnőtt nyelvtan által megengedett predikátum-argumentum struktúrák elsajátítását vizsgáltuk. A kutatás módszere a gyereknyelvi adatok elemzéséből nyert statisztikák összevetése különböző számítógépes tanulási mechanizmusok eredményeivel. A CHILDES adatbázisból elérhető és a projekt keretében készített magyar gyereknyelvi korpuszokat a kutatás céljaira kialakított annotációs rendszerben elemeztük az előforduló predikátum-argumentum szerkezetek helyessége szerint. Az elemzés eredményeként sekély U-görbét kaptunk, ami arra utal, hogy a kezdeti konzervatív tanulási mechanizmust felváltja egy analogikus általánosító mechanizmus, amely átmenetileg hibákhoz vezet. A gyerek nyelvelsajátítási mechanizmusainak szimulálására automatikus vonzatkeret-kinyerő alkalmazást hoztunk létre. Elsőként Brent által kidolgozott statisztikai gépi tanulási módszert adaptáltuk a magyar nyelvre. A tanulás a vonzatok morfológiai jegyei alapján történik annotált korpuszból. Brent módszere szigorú konzervatív tanulási algoritmus, ahol a vonzatkeretek elsajátítása kizárólag megfelelő pozitív input alapján történik, így nem kaptunk a gyereknyelvi adatokhoz hasonlítható U-görbét. Második lépésben a tanulási algoritmust úgy módosítottuk, hogy ne zárjuk ki az általánosítás illetve túláltalánosítás lehetőségét. Ez a modell közelebb áll a gyereknyelvben megfigyelt mintákhoz, de lényegesen több inputra van szükség. A cél-nyelvtan leszűkítésével eredményjavulást értünk el. | We looked into children's acquisition of predicate-argument structures. Our method involved the comparison of the results of the statistical analysis of child language corpora with the output of various machine-learning algorithms. A Hungarian child language corpus was constructed of new data and the data available from the CHILDES databank. The corpus was annotated using a grammar developed for the project, and the argument frames produced by the children were analysed for accuracy. The results showed a shallow U-shaped curve suggesting that an initial conservative learning strategy was followed by an analogical generalization mechanism, which resulted in a dip in performance. The mechanisms of child learning were modelled by a series of computational models of argument frame acquisition. Model 1 used Brent's statistical learning algorithm adapted to the Hungarian language. The learning mechanism relied on morphological cues extracted from a pre-annotated corpus. The model used a strictly conservative learning algorithm, where argument frames were added to the lexicon only if sufficient positive evidence was found. Model 1 failed to produce a U-shaped learning curve. Model 2 used a less conservative learning algorithm allowing for generalization and, thus, overgeneralisation. The output was closer to the patterns observed in child language, but the system required substantially more input. The model's performance was improved by reducing the target grammar.

Item Type: Monograph (Project Report)
Uncontrolled Keywords: Nyelvészet
Subjects: P Language and Literature / nyelvészet és irodalom > P0 Philology. Linguistics / filológia, nyelvészet
Depositing User: Mr. Andras Holl
Date Deposited: 07 Sep 2010 14:30
Last Modified: 30 Nov 2010 11:46
URI: http://real.mtak.hu/id/eprint/2581

Actions (login required)

Edit Item Edit Item