REAL

Mesterséges intelligenciával támogatott adatgazdagítás a Nemzeti Levéltárban = Data enrichment supported by artificial intelligence in the Hungarian National Archives

Simon, András (2024) Mesterséges intelligenciával támogatott adatgazdagítás a Nemzeti Levéltárban = Data enrichment supported by artificial intelligence in the Hungarian National Archives. In: Az oktatás, a kutatás és a közgyűjtemények digitális transzformációja felsőfokon : NETWORKSHOP 2024 : 33. Országos Informatikai Konferencia : 2024. április 3-5. Eszterházy Károly Katolikus Egyetem, Eger. HUNGARNET Egyesület, Budapest, pp. 22-28. ISBN 9786158224321

[img]
Preview
Text
03_Simon.pdf - Published Version
Available under License Creative Commons Attribution.

Download (895kB) | Preview

Abstract

A Magyar Nemzeti Levéltár földrajzi névtere elsősorban a levéltári segédlet-adatbázisokban lévő földrajzi fogalmak gazdagítása céljából lett az elmúlt évek során létrehozva. A segédlet-adatbázisok levéltári dokumentumok leíró rekordjainak millióit tartalmazzák. A kezdetektől nyilvánvaló volt, hogy ekkora adattömegnél a kézi, intellektuális megfeleltetés lehetőségét mindenképpen ki kell egészíteni az automatikus megfeleltetés lehetőségével. Egyrészt az egyes levéltári dokumentumok leíró rekordjaiban a földrajzi nevek sokféle formában vannak rögzítve, másrészt ugyanaz a szó több hasonló nevű földrajzi fogalmat is jelölhet, így a dokumentumokban és a névtérben lévő névalakok hasonlósága alapján történő automatikus megfeleltetés önmagában nem elegendő. Az egyes névalakok valamilyen szintű hasonlóságán túl, a segédlet-adatbázisokban még sokféle egyéb információ áll rendelkezésre a névalak által jelölt földrajzi fogalom névtérben való azonosításához, melyek mind szerepet játszhatnak az azonosság megállapításakor. A sokféleképpen súlyozható szempontok együttes figyelembevétele mesterségesintelligencia-alkalmazás fejlesztését tette indokolttá. Az alkalmazás az azonosság valószínűségét (konfidenciaszint) százalékban fejezi ki. Több lépéses tesztelés során alakult ki az az algoritmus, mely már megbízható és a levéltár nyilvános felületein is megmutatható kapcsolatot állapít meg a névtérrekord és a levéltári rekord között. | The Geographical Namespace of the National Archives of Hungary has been created primarily to enrich the geographical terms in the finding aids of archival databases. These databases contain millions of descriptive records of archival documents. From the outset, it was clear that with such a large amount of data, intellectual matching had to be complemented by the possibility of automatic matching. On the one hand, geographical names are recorded in different forms in the descriptive records of individual archival documents, and on the other hand, the same string can denote several geographical concepts with similar names. So automatic matching based on the similarity between the names in the documents and the namespace does not seem to be sufficient. In addition to the similarity between the individual words, a wide range of other information is available in the finding aids to identify a geographical concept, and can play a role in matching the geographical terms of the finding aids and the namespace entities. The combination of these multiple weighting factors was considered necessary to develop an artificial intelligence application. The application expresses the probability of identity (confidence level) as a percentage. The algorithm, which has been developed through several steps of testing, is now reliable and the results can be displayed on public interfaces too.

Item Type: Book Section
Uncontrolled Keywords: mesterséges intelligencia, adatgazdagítás, földrajzi tezaurusz, levéltári feldolgozás, levéltári segédlet-adatbázis, artifical intelligence, data enrichment, geographical tesaurus, cataloguing in an archive, finding aids in archives
Subjects: C Auxiliary Sciences of History / történeti segédtudományok > CD Diplomatics. Archives. Seals / oklevéltan, levéltárak, pecséttan > CD921 Archives / levéltár, levéltári gyűjtemény
Z Bibliography. Library Science. Information Resources / könyvtártudomány > Z665 Library Science. Information Science / könyvtártudomány, információtudomány
Z Bibliography. Library Science. Information Resources / könyvtártudomány > ZA Information resources / információforrások > ZA4450 Databases / adatbázisok
SWORD Depositor: MTMT SWORD
Depositing User: Erika Bilicsi
Date Deposited: 11 Jan 2025 11:29
Last Modified: 11 Jan 2025 11:29
URI: https://real.mtak.hu/id/eprint/213375

Actions (login required)

Edit Item Edit Item