Main content

TÉMA: Digitální data

MAREK MELICHAR marek.melichar@ruk.cuni.cz

TOMÁŠ GEC tom.gec@gmail.com

Národní koncepce dlouhodobé ochrany digitálních dat v knihovnách

Cílem tohoto článku je stručně vysvětlit smysl koncepce dlouhodobé ochrany digitálních dat pro oblast knihoven a popsat některé její cíle.

V rámci koncepce rozvoje knihoven se vytvářela mezi lety 2012 a 2014 také dílčí koncepce pro oblast dlouhodobého ukládání digitálních dat v knihovnách.1 Po úvodních studiích a průzkumu terénu2 vznikl v roce 2014 první návrh textu, který prošel opakovanou oponenturou v Ústřední knihovnické radě (ÚKR) a byl komentován v dalších profesních organizacích. Text byl doplněn a upraven podle připomínek řady kolegů. Koncepce, která byla nakonec schválena ÚKR začátkem letošního roku, je tedy kolektivním dílem řady lidí v knihovnách.

Některé principy jsme se snažili prosadit i navzdory tomu, že s nimi nesouhlasili všichni recenzenti (potřeba diverzifikace projektů v oblasti dlouhodobé archivace, rozšíření podpory akcí souvisejících s dlouhodobou archivací i mimo velké projekty národního charakteru). Pochopitelně diverzifikace projektů a podpora dlouhodobé archivace ve více institucích neznamená, že očekáváme, že každá malá instituce bude řešit kompletně všechny činnosti spojené s implementací referenčního modelu OAIS (ČSN ISO 14721:2014) ve stejném rozsahu jako Národní knihovna ČR. V oblasti plánování dlouhodobé ochrany (sledování technologií, rozhodnutí o potřebě migrací) nebo v oblasti standardizace a metodického dohledu je a zůstane role Národní knihovny ČR (a v jiné oblasti Národního archivu) centrální. Tyto instituce by měly sloužit jako archivy poslední záchrany a jejich projekty je třeba dále podporovat a rozvíjet. Menší instituce by ale měly mít možnost získat podporu na svoje aktivity spojené s přípravou dat pro dlouhodobé ukládání, s validací nebo kontrolami, s rozvíjením prostředí pro bitovou ochranu.

Dlouhodobá archivace jako samostatné téma v knihovnách

Péče o digitální kulturní dědictví neleží zdaleka jen na knihovnách. Digitální technologie dnes zasahují do života celé společnosti a v každé oblasti je třeba řešit, jak vybrat dokumenty k dlouhodobému ukládání. Někde je potřeba uchovávat digitální dokumenty dlouhodobě vyžadována zákonem (archivy), jinými předpisy (lékařství, některé průmyslové obory), nebo je chceme uchovávat z osobních důvodů (tzv. personal digital archiving).

Dlouhodobá digitální archivace vyžaduje sdílené chápání problému různými aktéry – mají zde slovo správci obsahu, tvůrci dat a uživatelé, ale také vedení knihoven a další globální aktéři. Provoz technologické infrastruktury pro digitální archivaci znamená trvalé udržování technologií úložišť, kontroly, zálohování, replikace dat, pravidelnou obnovu technologií, řízení bezpečnosti. Kromě toho je potřeba používat specializované softwarové nástroje k identifikaci formátů digitálních dat, validaci, kontrole jejich technických vlastností. Vedle knihovníků nebo archivářů je tedy třeba zapojit řadu dalších profesí.

Mnohé knihovny ve vyspělých zemích se v souvislosti se zavedením projektů dlouhodobé digitální archivace zásadně transformovaly. U nás se knihovny v první fázi začaly zajímat o generování digitálních dat, pořídily si digitalizační technologie nebo využily program jako VISK k financování externí digitalizace. Odpovědnost za archivaci dat vznikajících v projektech z programu VISK měla Národní knihovna ČR, uchovávání dalších dat je plně na jednotlivých institucích. Řada knihoven se v posledních letech začala zabývat správou trvalých nebo dočasných úložišť, řízením vlastního digitalizačního procesu, získáváním a zpracováním původně digitálních publikací a dokumentů, vytvářením a validací archivních balíčků. Desítky knihoven dnes provozují systémy pro zpřístupnění digitálních dat, jako je Kramerius, DSpace a další repozitáře. Bohužel, péče o trvalé uchování master kopií digitálních dat je stále v řadě institucí na okraji zájmu. Cílem opatření doporučených koncepcí bylo mimo jiné také podpořit ty, kteří se v nějakém rozsahu správě digitálních dat věnují, a umožnit jim další rozvoj.

Cíle koncepce a co se už řeší

Koncepce vznikala během několika let a některá témata v ní zmíněná se postupně začínala řešit ještě před jejím schválením. Klíčem k úspěšné dlouhodobé archivaci jsou lidé, jejich kvalifikace a schopnosti. Proto koncepce věnuje pozornost potřebě vzdělávání budoucích správců digitálních dat s důrazem na celoživotní vzdělávání. Nelze spoléhat jen na neformální přenos zkušeností v institucích. Do Národní soustavy povolání byly již zavedeny pozice spojené se správou digitálních dat (správce digitální knihovny), které mají umožnit knihovnám takové lidi zaměstnávat a odměňovat formálně na odpovídajících pozicích.3 Celoživotní vzdělávání v knihovnách je podle našeho názoru doposud zaměřeno častěji na základní počítačové dovednosti nebo katalogizaci; správci digitálních dat nebo správci informačních systémů se musí spokojit s nabídkou školení od komerčních subjektů.

Standardizace

Knihovníkům není třeba připomínat význam standardizace. Dvojnásob to platí v oblasti dlouhodobého uchovávání digitálních dat. Standardizace metadat a struktury informačních balíčků, standardizace formátů, obsahové standardy, identifikátory, standardizace procesů zpracování a validace, standardizace dokumentace – to jsou jen některé oblasti, které se týkají dlouhodobé správy digitálních dat. V České republice máme velkou výhodu v tom, že existuje referenční standard Národní digitální knihovny (NDK) pro produkci digitalizovaných dat, který je široce akceptovaný a odpovídá současným de facto standardům produkce pro dlouhodobé ukládání. Standardy NDK pro metadata (METS, DC, MODS, PREMIS, MIX, Alto XML) a data (profil JPEG 2000) je třeba dále udržovat a rozvíjet. Kromě monografií a periodik pracují dnes knihovny s e-born dokumenty, se zvukovými dokumenty, elektronickými knihami, historickými dokumenty, archivovanými webovými stránkami a dalšími dokumenty, stávající standardy NDK je proto žádoucí dále obohatit o jejich nové typy. Kromě toho je třeba zajistit zpětnou kompatibilitu standardů a trvalý rozvoj standardů v souvislosti s tím, jak se mění jednotlivé zapojené metadatové standardy. K tomuto účelu již vznikl Formátový výbor NDK, který je platformou pro kolaborativní správu standardů NDK.

Rozvoj NDK

Bezpochyby nejdůležitější roli v oblasti trvalého uchovávání jádra digitálního kulturního dědictví v knihovnách má a bude mít Národní knihovna ČR a její projekt NDK. Je třeba zajistit trvalý rozvoj tohoto projektu a vzniklé infrastruktury, systémů a týmu i po skončení udržitelnosti projektu a směřovat k certifikaci řešení podle ISO 16363 (ČSN ISO 16363:2014).

Podpora alternativních řešení

Vedle Národní knihovny ČR a Moravské zemské knihovny v Brně, které jsou nositeli projektu NDK, je třeba systematicky podpořit i další instituce. Každá by měla mít možnost v rozsahu svých potřeb získat podporu pro svoje vlastní procesy správy digitálních dat, pro přípravu dat na archivaci nebo vlastní projekty trvalého ukládání, byť třeba jen na úrovni bitové ochrany. Podobně jako české archivy předpokládají, že vedle národního projektu Národního digitálního archivu (NDA) budou existovat i další archivy, které získají akreditaci k ukládání digitálních dat, měly by i knihovny usilovat o diverzifikaci přístupů při zachování určité míry standardizace a kvality. Vedle systémů NDK bude vždy existovat řada knihoven (akademických, speciálních), jejichž data nebudou do systémů NDK ukládána.

I tyto knihovny by měly mít možnost zlepšovat svoje procesy spojené s uchováváním digitálních dat. Měly by také mít možnost získat podporu pro pořízení nebo implementaci plnohodnotného systému pro dlouhodobé uchovávání digitálních dat nebo pro využití služeb, které se dnes v této oblasti nabízejí. Stejně tak má smysl podporovat výzkumné projekty v oblasti dlouhodobé archivace (např. projekt NAKI II Arclib, záměry Cesnetu v oblasti dlouhodobé archivace), které mohou vyprodukovat nástroje a služby užitečné pro další instituce.

Metodické centrum a metodické asistence

Koncepce navrhuje vznik metodického centra pro dlouhodobé uchovávání. Jeho cílem by měla být koordinace projektů dlouhodobého ukládání a zajištění kvality v této oblasti. Mělo by poskytovat vzdělávání a poradenství, spravovat národní standardy a metodiky. Jeho cílem by mělo být také zavedení národního mechanismu externí certifikace důvěryhodného dlouhodobého úložiště pro data v knihovnách. To musí být podpořeno fungujícím systémem a metodikou tzv. sebehodnocení, např. dle DSA (Data Seal of Approval4) nebo Nestor Seal.5 Centrum by mělo vytvořit doporučení, jak mají instituce postupovat, chtějí-li dosáhnout statutu důvěryhodného dlouhodobého úložiště.

Certifikace a audit

Problematika zajištění kvality je přítomna na několika místech textu koncepce. V oblasti dlouhodobé archivace to především znamená použití zmíněných nástrojů pro audit a certifikaci. Několik projektů akademických institucí v ČR již prošlo auditem podle DSA (dva repozitáře na Univerzitě Karlově, datový archiv Sociologického ústavu AV ČR) a další budou následovat. Metodické centrum pro dlouhodobou archivaci navržené v koncepci by mělo pomáhat dalším institucím, mohlo by nastavit národní standardy pro audit a certifikaci tzv. Long-term preservation (LTP) systémů a zajistit provádění auditů, vytvořit metodiku pro audity. To nemusí nutně znamenat vytvoření vlastního nástroje, podle kterého se bude audit provádět. Lze využít existující standardy v této oblasti. Přirozeně, systémy NDK by měly procházet nejpřísnější kontrolou kvality, auditem podle norem jako ISO 16363, včetně ISO 27000, standardů v oblasti řízení rizik a dalších relevantních norem. Kromě toho je třeba věnovat pozornost také zajištění kvality digitalizace a kvality sbírek webarchivu.

Financování a řízení

Správa digitálních dat klade na knihovny extrémní nároky finanční a organizační. Dlouhodobá archivace vyžaduje garance financování po delší dobu. Předpokladem úspěchu dlouhodobé archivace je projektové řízení, standardizace procesů a dokumentace. Implementace standardů, jako je ISO 9001, se vyžaduje jako předpoklad pro použití specifických standardů v oblasti dlouhodobé archivace, které jsme už zmínili výše. Bohužel, v oblasti řízení kvality a efektivity procesů dnes mají knihovny stále velké rezervy.

Závěr

Koncepce se věnuje především tématům standardizace, rozvoje lidského kapitálu, zajišťování kvality, financí a potřebě diverzifikace projektů. Dlouhodobá archivace digitálních dat je z velké části komunitní záležitost. Správci digitálních dat jsou závislí na globální informační infrastruktuře, kde se uchovávají informace o digitálních formátech, používají nástroje vyvíjené komunitou pro identifikaci, validaci formátů a extrakci technických metadat. Komunita spravuje standardy od OAIS až po standardy metadat. Ani v českých knihovnách tomu nemůže být jinak a spolupráci se nevyhneme. Doufejme, že další realizace kroků navržených v koncepci spolupráci institucí podpoří.

 

Literatura

  • HUTAŘ, Jan a Marek MELICHAR. The long decade of digital preservation in heritage institutions in the Czech Republic: 2002–2014. International Journal of Digital Curation. 2015, 10. 1., 173–183.
  • HUTAŘ, Jan a Marek MELICHAR. Principy strategie rozvoje knihoven oblasti dlouhodobé archivace digitálních informací v České republice: stav v roce 2014 a výhled do roku 2019. Duha [online],   2014, roč. 28, č. 1 [cit. 2017-02-24]. Dostupný z: http://duha.mzk.cz/clanky/principy-strategie-rozvoje-knihoven-oblasti-dlouhodobe-archivace-digitalnich-informaci-v-cesk. ISSN 1804-4255.

Normy

  • DIN 31644:2012. Information und Dokumentation – Kriterien für vertrauenswürdige digitale Langzeitarchive.Berlin: DIN, 2012.
  • ČSN ISO 14721:2014. Systémy pro přenos dat a informací z kosmického prostoru – Otevřený archivační informační systém – Referenční model. Praha: ÚNMZ, 2014.
  • ČSN ISO 16363:2014. Systémy pro přenos dat a informací z kosmického prostoru – Audit a certifikace důvěryhodných digitálních úložišť. Praha: ÚNMZ, 2014.
  • ČSN ISO/IEC 27000:2014. Informační technologie – Bezpečnostní techniky – Systémy řízení bezpečnosti informací – Přehled a slovník. Praha: ÚNMZ, 2014.

 

1 Národní koncepce dlouhodobé ochrany digitálních dat v knihovnách, http://ipk.nkp.cz/odborne-cinnosti/knihovni-procesy/digitalizace

2 Shrnutí viz Literatura: Hutař, Jan – Melichar, Marek (2014, 2015).

3 Debatuje se i o možnosti zavést do Národní soustavy povolání i další pozice jako např. „digitálního kurátora“.

4 Data Seal of Approval [online]. [cit. 2016-12-05]. Dostupné z: https://www.datasealofapproval.org/en/ (více informací česky na http://dsa.cuni.cz/).

5 NESTOR CHECKLISTS: Selection of Solutions and Components for Digital Long-Term-Preservation nestor-Checklist by AG Kooperation & Vernetzung [online]. Frankfurt am Main: Deutsche Nationalbibliothek, last update: 30. 3. 2012 [cit. 2016-12-05]. Dostupné z: http://www.dnb.de/Subsites/nestor/EN/Publikationen/Checklisten/checklisten _node.html.