Budapesti beszélt nyelvi vizsgálatok = The study of spoken language in Budapest

Kontra, Miklós and Bartha, Csilla and Borbély, Anna and Hattyár, Helga and Váradi, Tamás (2011) Budapesti beszélt nyelvi vizsgálatok = The study of spoken language in Budapest. Project Report. OTKA.


Download (134kB) | Preview


A kutatás eredményeként létrehoztunk egy Magyarországon egyedülálló, számítógéppel is jól kutatható beszélt nyelvi korpuszt. (1) Létrehoztuk a Budapesti Szociolingvisztikai Interjú 2. változatának (BUSZI-2) végső, kutatható változatát, vagyis 50 BUSZI-2 interjú irányított beszélgetéseinek (268 000 szó) másodszor ellenőrzött változatát, és az interjúk tesztadatainak (33 850 item és 2720 szöveges rekord) másodszor ellenőrzött változatát. (2) Létrehoztuk a beszélgetések átiratainak gépi elemzésre alkalmas XML formátumú változatát, egy olyan beszélt nyelvi adatbázist, amely szótövesítést, egyértelműsített morfológiai elemzést is tartalmaz. A nyelvi elemzéseket felhasználói felület könnyíti meg, amely lehetővé teszi a jelenségek több szempontú menüvezérelt lekérdezését. A korpuszt kezelő rendszer válaszideje általában néhány másodperc: például az 5737 darab ’l’ kiesés teljes összesítő táblázatának elkészítése 20–30 másodpercet vesz igénybe. Elkészítettük a tesztadatok lekérdező felületét is. (3) A két adatbázist felhasználva számos elemzést készítettünk, melyeket hazai és külföldi konferenciákon mutattunk be. 2010. februárjáig hét tanulmányt publikáltunk s további négy tanulmányunkat közlésre elfogadták. A vállaltakon túl megkezdtük a korpusz bővítésére irányuló munkálatokat is: elkészítettük a BUSZI-3 és BUSZI-4 tesztadatainak rögzítésére s ellenőrzésére szolgáló rendszert, s elvégeztük 142 interjú tesztadatainak első kódolását. | As a result of the grant, a unique machine-readable corpus of spoken Hungarian has been created. First, the double-checked version of the transcripts of the guided conversations of Version 2 of the Budapest Sociolinguistic Interview project (BSI-2) has been created (268,000 words in 50 interviews), followed by the creation of the double-checked version of the test data (minimal pairs, reading passages, etc) in the same 50 interviews. Second, a machine-readable XML database has been developed from the transcripts of the guided conversations, in which all forms are lemmatized and provided with disambiguated morphosyntactic annotation. The database is connected to a user interface, which enables easy formulation of complex menu driven queries. The response time of the system is only a few seconds even with large scale queries, for example, preparing a full statistics of the 5737 cases of l-deletion (e.g. volt ~ vót) in the corpus takes only 20 to 30 seconds. An easy-to-use user interface has also been developed for the test data (33,850 items, and 2720 text records). Thirdly, a number of analyses of spoken Hungarian have been presented at conferences in Hungary and abroad. As of February 2010 seven papers have been published and four are forthcoming. Finally, in addition to the grant proposal, we have begun to enlarge the corpus by coding the test data of 142 interviews recorded for BSI-3 and BSI-4.

Item Type: Monograph (Project Report)
Uncontrolled Keywords: Nyelvészet
Subjects: P Language and Literature / nyelvészet és irodalom > P0 Philology. Linguistics / filológia, nyelvészet
P Language and Literature / nyelvészet és irodalom > PH Finno-Ugrian, Basque languages and literatures / finnugor és baszk nyelvek és irodalom > PH04 Hungarian language and literature / magyar nyelv és irodalom
Depositing User: Kotegelt Import
Date Deposited: 01 May 2014 05:53
Last Modified: 18 Aug 2014 05:22

Actions (login required)

Edit Item Edit Item