Webarchiv
Logo
Charakter stránkyDigitální knihovna
V jazycečeština, angličtina
MajitelNárodní knihovna České republiky
URLWebarchiv.cz
Datum spuštění2000

Webarchiv NK ČR je digitální archiv českých webových zdrojů, které jsou zde shromažďovány za účelem jejich dlouhodobého uchování. Ochranu, uchování a zpřístupnění těchto dokumentů zajišťuje od roku 2000 Národní knihovna České republiky ve spolupráci s dalšími institucemi. Smyslem archivu je zachování webových stránek pro budoucí generace.

Pro archivaci webu jsou využívány softwarové nástroje využívané institucemi v rámci konsorcia IIPC (International Internet Preservation Consortium). Pro účely stahování obsahu webu (neboli sklízení) je ve Webarchivu používán software Heritrix. Stažené stránky jsou poté uloženy do digitálního repozitáře. Pro online zpřístupňování archivovaného obsahu je používán Wayback. Oba nástroje jsou open source software. Pro sklízení dynamického obsahu jsou používány další nástroje (např. Browsertrix).

Archivace webu probíhá na základě kombinace dvou přístupů: výběrového a celoplošného.

Výběrová strategie

editovat

Výběrový přístup je založen na manuální selekci cílového zdroje k archivaci. Vybírány jsou pouze ty stránky, které splňují alespoň jednu z následujících podmínek:

  • místem vydání je Česká republika
  • stránky jsou v českém jazyce
  • autor stránek je české národnosti
  • obsah se týká České republiky nebo českého národa

Vybírány jsou zdroje určené pro dlouhodobou archivaci (výběrové sklizně), zároveň jsou vytvářeny sbírky zdrojů, které propojuje určité téma nebo událost (tematické kolekce).[1]

Výběrová sklizeň

editovat

Pro výběr a oborové třídění webových zdrojů je využívána metoda Konspektu[2]. Obsahuje 26 základních skupin, tzv. Předmětových kategorií od humanitních věd až po technické obory. Stránky se vybírají podle tematického zaměření spadajícího do konkrétní kategorie Konspektu.

Vedle oborového třídění se při výběru zdrojů přihlíží k výsledkům soutěží, anket a dalším ukazatelům, které zvýrazňují významnost obsahu vybraných stránek. Jedná se např. o ocenění v oblasti architektury, umění, sportu a filmu.

Navržené zdroje poté podléhají internímu hodnocení. V případě jejich schválení k zařazení do výběrových sklizní je kontaktován vydavatel stránek s žádostí o udělení souhlasu s archivací a zpřístupněním archivovaných stránek mimo budovu Národní knihovny. Stránky jsou pravidelně archivovány na základě stanovené frekvence sklízení a mají katalogizační záznam, který se stává součástí katalogu Národní knihovny a České národní bibliografie.

Tematické kolekce

editovat

Tematické kolekce jsou sbírky zdrojů vztahující se k určitému tématu nebo události. Mohou být časově ohraničené (např. volby, povodně) nebo kontinuálně budované (klimatická změna ad.).[3][4]

Celoplošná strategie

editovat

Jedná se o povrchovou archivaci všech webových stránek na doméně .cz. Celoplošná sklizeň je prováděna na základě aktualizovaného seznamu registrovaných českých domén, který každoročně poskytuje sdružení CZ.NIC. Sklizeň probíhá minimálně 1x do roka.[5]

Přístup k archivovanému webu

editovat

Všechny sklizně jsou přístupné pouze přes vybrané počítačové terminály v budově Národní knihovny. Volně přístupné jsou pouze stránky, ke kterým udělil vydavatel souhlas prostřednictvím licenční smlouvy,[6] nebo které jsou vystaveny pod licencí Creative Commons.[7] Archivované webové zdroje je možné prohlížet prostřednictvím rozhraní na webových stránkách Webarchivu[8] na základě zadání url adresy. U licencovaných zdrojů je možné využít tematický rozcestník[9], ve kterém jsou záznamy archivovaných stránek seřazeny podle oboru, kterého se týkají. U každého záznamu stránky je uvedena stručná anotace obsahu webové stránky, klíčová slova, původní url adresa a odkaz do archivu webu.

Co lze nalézt ve Webarchivu?

editovat

Stránky významných českých institucí (vysoké školy, orgány státní správy, neziskové organizace, vědecké ústavy), stránky českých měst a obcí, odborné elektronické časopisy, nezávislé zpravodajské portály, stránky oceněných českých umělců a sportovců, blogy a stránky českých politiků, oceněné osobní a tematicky zaměřené blogy, české repozitáře na vývojářské platformě GitHub, net artové projekty, příspěvky na sociálních médiích a mnoho dalšího. Webarchiv také publikuje cyklus 10 webů pro věčnost,[10] kde oslovené osobnosti sestavují osobní kurátorské výběry webových zdrojů k archivaci.[11]

Veřejné navrhování stránek k archivaci

editovat

Na stránkách Webarchivu je k dispozici webový formulář[12], prostřednictvím kterého může kdokoliv podávat návrhy webových stránek na zařazení do českého archivu webu. Návrhy, které nesplňují kritéria výběru[1], nejsou do výběrových sklizní zařazeny.

Reference

editovat
  1. a b WEBARCHIV. Výběr zdrojů | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  2. Konspekt jako nástroj pro popis a hodnocení fondů — Portal Autority. autority.nkp.cz [online]. [cit. 2024-12-10]. Dostupné online. 
  3. WEBARCHIV. Tematické sbírky | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  4. HAŠKOVCOVÁ, Marie; HOLOUBKOVÁ, Monika; KVASNICA, Jaroslav; HRDLIČKOVÁ, Markéta. Akvizice českých webových zdrojů. Acta Musei Nationalis Pragae – Historia. 2017, roč. 71, čís. 3-4, s. 43. Dostupné online [cit. 2024-12-10]. DOI 10.2478/amnh-2017-0017. 
  5. WEBARCHIV. Celoplošné sklizně | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  6. WEBARCHIV. Často kladené dotazy | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  7. WEBARCHIV. Creative Commons | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  8. WEBARCHIV. Památník českého internetu | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  9. WEBARCHIV. Webarchiv podle oborů | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  10. SVOBODA, Luboš. „Surfování po internetu“ vymírá: 10 webů pro věčnost. E-zpravodaj Národní knihovny ČR. Praha: Národní knihovna ČR, 2020, roč. 8, čís. 2, s. 8. Dostupné online [cit. 2024-12-10]. 
  11. WEBARCHIV. 10 webů pro věčnost | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 
  12. WEBARCHIV. Nechte se Webarchivovat! | Webarchiv.cz. Webarchiv [online]. [cit. 2024-12-10]. Dostupné online. 

Literatura

editovat
  • JETMAR, Jakub. Národní knihovna ukládá i nejprchavější médium: web. Veřejně dostupný je ale pouze zlomek archivu. Mediář [online]. 2022-05-24 [cit. 2024-12-10]. Dostupné online. 
  • HAŠKOVCOVÁ, Marie; SVOBODA, Luboš; HRDLIČKOVÁ, Markéta; HOLOUBKOVÁ, Monika; PROKOPOVÁ, Andrea. Webarchiv 2000 – 2020. Jeden z nejstarších světových webových archivů. E-zpravodaj Národní knihovny ČR. 2020, roč. 7, čís. 6, s. 6-9. Dostupné online [cit. 2024-12-10]. 
  • HAŠKOVCOVÁ, Marie; HOLOUBKOVÁ, Monika; KVASNICA, Jaroslav; HRDLIČKOVÁ, Markéta. Akvizice českých webových zdrojů. Acta Musei Nationalis Pragae – Historia. 2017, roč. 71, čís. 3-4, s. 41-46. Dostupné online [cit. 2024-12-10]. DOI 10.2478/amnh-2017-0017. 
  • KVASNICA, Jaroslav. Dlouhodobé uchování webového obsahu. Praha, 2016 [cit. 2024-12-10]. 85 s. Diplomová práce. Ústav informačních studií - studia nových médií FF UK. Vedoucí práce Jan Pokorný. Dostupné online.
  • SVOBODA, Luboš; HAŠKOVCOVÁ, Marie. O mrtvých webových zdrojích. Jak identifikovat a sledovat zaniklý webový obsah?. ITlib. Bratislava: CVTI SR, 2023. Dostupné online [cit. 2024-12-10]. 

Související články

editovat

Externí odkazy

editovat