Kalcsó, Gyula (2026) A magyar webarchívum új nyilvántartó adatbázisa = The New Registry Database of the Hungarian Web Archive. In: A tudomány, az oktatás és a közgyűjteményi kiszolgálás új informatikai szinergiái : NETWORKSHOP 2026 : 35. Országos Informatikai Konferencia : 2026. március 31-április 2. Debreceni Egyetem, Debrecen. HUNGARNET Egyesület, Budapest, pp. 23-29. ISBN 978-615-6792-29-7 (In Press)
|
Text
nws_2026_inpress_kalcso.pdf - Published Version Available under License Creative Commons Attribution. Download (412kB) | Preview |
Abstract
A tömeges webarchiválás egyik visszatérő problémája, hogy miként lehet rögzíteni a célzott tartalmat és a kapcsolódó URL-ek időbeli változásait. Ez a kérdés összefügg a seedlisták karbantartásával is, mivel ki kell zárni azokat a webhelyeket, amelyek korábban mentésre kerültek, de már nem működnek, vagyis egy adott URL mögött már nincs tartalom, vagy az már nem tartozik az adott webhelyhez. A cikk egy rugalmas koncepciót mutat be, amely felhasználható a különböző struktúrájú URL-ek (http vagy https protokollal vagy anélkül, www-vel vagy anélkül) közötti kapcsolatok, azok időbeli változásai és a webhelyhez mint entitáshoz való kapcsolódásuk kezelésére. A megoldás lényege egy entitásalapú SQL-adatbázis, amely képes az időbeli változásokat redundancia nélkül rögzíteni a 3. normálforma biztosításával. Az adatbázisban tárolt fő entitások, mint például az archiválásra kijelölt webhely és az URL, összekapcsolódnak egymással, önmagukkal és az őket tartalmazó táblákkal kapcsolótáblák segítségével. Ez a megoldás biztosítja a skálázhatóságot, azaz az egyes entitásokról tárolt információk tetszőlegesen bővíthetők, és a kapcsolótáblák „date_ from” és „date_to” mezői felhasználhatók az adott kapcsolatok érvényességi idejének rögzítésére. Az entitástáblák egymáshoz való kapcsolásával például alternatív URL-eket kapcsolhatunk össze időben. Az egyes entitásokról tárolt információk komplex lekérdezéseket tesznek lehetővé. Például az archiválandó tartalom esetében a típus (webhely, weboldal, fájl stb.), vagy az URL-ek esetében a státuszkód külön táblában van tárolva. A kapcsolótáblák biztosítják azt is, hogy az időbeli változások rögzítésre kerüljenek, így például lehetséges lekérdezni, hogy egy adott időszakban melyik URL tartozott egy adott entitáshoz (pl. egy weboldalon található fájlhoz). Mindez nagyban hozzájárul a fenntarthatósághoz, mivel sokkal gazdaságosabb, könnyebben használható és rugalmasabb lekérdezési megoldást kínál, mint a korábbi adattárolási módszerek, például a Google-táblázatok. | One recurring challenge in large-scale web archiving is how to capture changes over time in the target content and its associated URLs. This issue is also related to the maintenance of seed lists, as it is necessary to exclude websites that were previously archived but are no longer operational—that is, where a given URL no longer contains content or no longer belongs to that website. The article introduces a flexible concept that can be used to manage connections among URLs of different structures (with or without the http or https protocol, with or without www), their changes over time, and their association with the website as an entity. The core of the solution is an entity-based SQL database capable of recording temporal changes without redundancy by ensuring third normal form (3NF). The main entities stored in the database, such as the website designated for archiving and the URL, are linked to each other, to themselves, and to the tables containing them via junction tables. This solution ensures scalability, meaning that the information stored about each entity can be expanded as needed, and the “date_from” and “date_to” fields in the junction tables can be used to record the validity period of the given relationships. By linking entity tables to one another, for example, we can correlate alternative URLs over time. The information stored about individual entities enables complex queries. For instance, in the case of content to be archived, the type (website, web page, file, etc.) or, in the case of URLs, the status code is stored in a separate table. The junction tables also ensure that changes over time are recorded, making it possible, for example, to query which URL belonged to a given entity (e.g., a file on a webpage) during a specific period. All of this greatly contributes to sustainability, as it offers a much more cost-effective, user-friendly, and flexible query solution than previous data storage methods, such as Google Sheets.
| Item Type: | Book Section |
|---|---|
| Uncontrolled Keywords: | webarchiválás, adatbázis-építés, born digital archiválás, web archiving, database building, born digital archiving, Networkshop 2026 |
| Subjects: | Z Bibliography. Library Science. Information Resources / könyvtártudomány > Z665 Library Science. Information Science / könyvtártudomány, információtudomány |
| SWORD Depositor: | MTMT SWORD |
| Depositing User: | Erika Bilicsi |
| Date Deposited: | 24 Jun 2026 12:06 |
| Last Modified: | 24 Jun 2026 12:55 |
| URI: | https://real.mtak.hu/id/eprint/240624 |
Actions (login required)
![]() |
Edit Item |




