Hlavní obsah stránky

VYUŽITÍ NOVÝCH TECHNOLOGIÍ: Projekt CDArcha: ochrana fondu optických datových disků v knihovnách

ZDENĚK HRUŠKA  Zdenek.Hruska@mzk.cz

V roce 2018 Moravská zemská knihovna (MZK) uskutečnila projekt zaměřený na archivaci dat z datových a optických disků. Projekt byl financovaný z programu VISK 3 a nesl poměrně krkolomný název Vytvoření nástrojů pro kooperativní zpracování a bit-level ochranu obsahu datových optických disků ve fondu knihoven. Vývojový tým ale používal mnohem kratší a výstižnější označení CDArcha, které se nakonec promítlo i do označení výsledného softwaru.

Ve fondu MZK se nacházejí tisíce datových optických disků (mělo by jít cca o 25 000 nosičů), avšak zatím nejsme bohužel schopni přesně určit, které disky jsou zvukové (převážně klasická audio CD) a které datové (CD-ROM, DVD-ROM a další). Katalogizace těchto datových nosičů nebyla v minulosti z našeho pohledu dostatečná (to se změnilo až s nástupem pravidel popisu podle RDA), proto se často ze záznamu v katalogu nedá vyčíst, o jaký disk se jedná.

Vymezení předmětu archivace

Optické disky se dají rozdělit z několika pohledů do různých skupin. Pro náš projekt byl klíčovým datový obsah disku – audio CD. Video CD a DVD stála vzhledem ke svému formátu dat mimo náš záběr. Naopak nás zajímaly „obyčejné“ datové disky, ať už lisované nebo vypalované, tedy především CD-ROM a DVD-ROM.

Z hlediska katalogizačního záznamu se v MZK nacházejí dva druhy disků: samostatné, které mají svůj vlastní záznam a jsou uloženy pod signaturou CDR a CDR2, a pak disky, které jsou přílohou monografie nebo periodika a nemají samostatný záznam. Nosičům ze signatury CDR a CDR2 se u nás věnujeme již několik let. Na discích se nejčastěji nachází šedá literatura – sborníky z konferencí, skripta vysokých škol, výsledky výzkumných projektů apod. Pro větší komfort našich uživatelů se obsah snažíme nahrát do digitální knihovny Kramerius MZK (uživatel nemusí čekat na donesení disku, hledat počítač s CD/DVD mechanikou atd., ale k obsahu se v knihovně dostane během několika kliknutí). Vzhledem k tomu, že Kramerius umí zobrazovat PDF, převádíme formáty uložené na disku právě do tohoto formátu.

To je možné u dokumentů vytvořených v programech MS Office (případně Open Office), jako je MS Word, MS PowerPoint, omezeně i MS Excel (při exportu tabulek se ztrácí propojenost a vzorce uložené v jednotlivých buňkách), a také u obrazových formátů, jako je JPG či TIFF. V případě, že byl celý obsah disku importován do Krameria, samotný nosič se již nepůjčuje uživatelům. Vedle toho jsou veškerá data zálohována na externí pevný disk, aby byla chráněna proti poškození či ztrátě primárního nosiče. Ne vždy jde ale celý disk zpracovat; např. k prezentacím ve formátu PPT může být přiřazen zvukový či audiovizuální záznam, konference má své propagační video nebo jsou součástí dat na nosiči i aplikace, datové sety či jiné soubory, které do Krameria nelze importovat. V tomto případě pak disk zůstává dostupný pro uživatele.

Celý tento proces je ale časově poměrně náročný, proto se takto podařilo za několik let zpracovat pouze cca 2000 disků (tedy méně než 10 % celkového počtu ve fondu knihovny), a tak jsme přišli s myšlenkou na zrychlení a zautomatizování celého procesu. Tomu ovšem předcházel průzkum našeho fondu optických disků, který proběhl v rámci studentské stáže ve spolupráci s Kabinetem informačních studií a knihovnictví FF MU. Pomocí nástroje DROID1, který slouží pro identifikaci datových formátů souborů, byl analyzován obsah ze vzorku 200 disků. Tento přehled nám pomohl lépe pochopit, s jakými daty a formáty budeme pracovat.

Rozvržení předmětu prací

Jako základ pro nové workflow posloužila aplikace pro skenování obálek z projektu Obálky knih2, kterou však bylo nutné přepracovat, aby sloužila našim potřebám. Naším cílem bylo vytvořit co nejjednodušší systém, který v budoucnu umožní zpracovávat a archivovat optické disky na kooperativním základě. Vizí do budoucna je archivovat a na bitové úrovni chránit datový obsah CD a DVD ve fondu českých knihoven. Klientská aplikace může být instalována v různých knihovnách, které pomocí ní budou zpracovávat svůj fond a data se budou ukládat na centrální server. Postupně by tak mělo dojít (samozřejmě při zapojení dostatečného množství institucí) ke zpracování všech datových disků v knihovnách a nově přijaté disky by pak byly rovnou nahrány během akvizičního procesu. Aby se zabránilo duplicitnímu zpracovávání disků, je nastavena dvojitá kontrola – hledá se případná shoda jak v bibliografických metadatech, tak v kontrolním součtu disku.

 Zpracování jednoho nosiče probíhá tak, že pomocí čárového kódu je přes katalog stažen metadatový záznam a aplikace CDArcha-klient vytvoří z optického disku jeho datový obraz (tzv. ISO image, který je založen na standardu ISO 9660)3, poté je naskenovaná vrchní strana disku (protože vizuální podoba disku by měla být také uchována); pokud existují, tak i obal a booklet, a na závěr jsou data spolu s kontrolními součty odeslána na server k dalšímu zpracování. Zde pak ve zpracování pokračuje aplikace CDArcha-server, která doplní do balíčku výstup z nástroje DROID, vytvoří OCR skenů a vše zabalí do balíčku BagIt.4 Datový a metadatový balíček je poté uložen na serveru a díky kontrolním součtům je možné provádět pravidelné automatické kontroly, zda nedošlo k poškození dat.

Takto se řeší tzv. bit-level dlouhodobá ochrana dat, ovšem do budoucna je nutné se zabývat i otázkou logické dlouhodobé ochrany. Je k další diskuzi, zda se knihovny mají vůbec věnovat dlouhodobému uchovávání např. softwaru nebo multimédií a zda by to neměly zajišťovat jiné paměťové instituce (např. galerie či muzea), které mají svým zaměřením blíže k těmto typům dat. Nicméně vzhledem k situaci v oblasti dlouhodobé archivace digitálních dat v kulturních institucích je realita nejspíše taková, že se knihovny tímto tématem zabývat musí, protože to za ně jednoduše nikdo jiný neudělá. Optické datové disky jsou součástí knihovního fondu a jako takové je nutné je chránit. Půjde o běh na dlouhou trať a čeká nás ještě mnoho výzev, ale každá cesta nějak začíná a projekt CDArcha je tím důležitým prvním krokem vpřed.

1 Download DROID: file format identification tool. The National Archives [online] [cit. 2019-03-14]. Dostupné z: https://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/.

2 O projektu Obálkyknih.cz. Obalkyknih.cz [online] [cit. 2019-03-14]. Dostupné z: https://obalkyknih.cz/about.

3 ISO 9660. Fileformats Wiki [online] [cit. 2019-03-14]. Dostupné z: https://fileformats.archiveteam.org/wiki/ISO_9660.

4 BagIt je standard vytvořený Library of Congress pro transfer a uložení dat. Specifikace je dostupná z: https://tools.ietf.org/html/rfc8493.