Kalcsó, Gyula (2024) Képek és metaadataik gyűjteményezése scrapingtechnológiával közösségi képmegosztó oldalról = Collecting images and metadata from a social image sharing site using scraping technology. In: Az oktatás, a kutatás és a közgyűjtemények digitális transzformációja felsőfokon : NETWORKSHOP 2024 : 33. Országos Informatikai Konferencia : 2024. április 3-5. Eszterházy Károly Katolikus Egyetem, Eger. HUNGARNET Egyesület, Budapest, pp. 157-162. ISBN 9786158224321
|
Text
20_Kalcso.pdf - Published Version Available under License Creative Commons Attribution. Download (1MB) | Preview |
Abstract
A cikk egy kísérleti projektet mutat be, amelynek során egy közösségi képmegosztó oldalról közel félmillió digitális fényképet és azok metaadatait mentette el webarchiváló csapatunk, és nagy részét betöltötte a könyvtár Digitális Képarchívumának (DKA) adatbázisába. Azért választottuk a scrapinget, mert az eredeti oldal webarchiválási módszerekkel történő mentése az alkalmazott technológiák miatt túl nagy kihívást jelent, a képeket és metaadataikat pedig a DKA-ban kívántuk archiválni, ahol nincs szükség az oldal megjelenésének és funkcionalitásának megőrzésére. A cikk a megőrzés teljes folyamatára kitér, a jogi kérdések tisztázásától kezdve a megőrzendő metaadatok kiválasztásán át a technikai megvalósítás lépéseiig és a mentett tartalom adatbázisba töltéséig. A cikk bemutatja, hogyan válogattuk és mentettük a releváns metaadatokat a scrapingtechnológia segítségével, és milyen adatkészlet-formátumokat választottunk ezek tárolására. Ezeket a JSON-fájlokat használtuk fel arra, hogy az adatokat betöltsük a DKA adatbázisába. Ehhez a lementett metaadatokat meg kellett feleltetni a köztaurusz tárgyszavainak, és ennek megfelelően konvertálni az adatkészleteket | The paper will present a pilot project in which our web archiving team saved nearly half a million digital photographs and their metadata from a social image sharing site and uploaded most of them to the library’s Digital Image Archive (DIA) database. We chose scraping as saving the original site using web archiving methods was too challenging due to the technologies used, and we wanted to preserve the images and their metadata in the DIA, where there was no need to preserve the site’s appearance and functionality. The paper will cover the entire preservation process, from clarifying legal issues and selecting metadata to be preserved to the technical implementation steps and the process of uploading the preserved content into the database. This paper will describe how we selected and saved relevant metadata using scraping technology and the data set formats in which we chose to store them. These JSON files were used to import the data into the DIA database. To do this, the saved metadata had to be mapped to the thesaurus of NSZL and the data sets had to be converted accordingly
Item Type: | Book Section |
---|---|
Uncontrolled Keywords: | képgyűjteményezés, webarchiválás, scraping, közösségi oldalak mentése, image collecting, web archiving, scraping, capturing social media |
Subjects: | Z Bibliography. Library Science. Information Resources / könyvtártudomány > Z665 Library Science. Information Science / könyvtártudomány, információtudomány |
SWORD Depositor: | MTMT SWORD |
Depositing User: | MTMT SWORD |
Date Deposited: | 02 Jan 2025 13:13 |
Last Modified: | 02 Jan 2025 13:13 |
URI: | https://real.mtak.hu/id/eprint/212385 |
Actions (login required)
![]() |
Edit Item |