Hlavní obsah stránky
Digitalizace a ukládání ve Zlínském kraji
JAN KAŇKA kanka@kfbz.cz
Projekt Digitalizace a ukládání ve Zlínském kraji vycházel ze stejných evropských fondů a pravidel jako v jiných krajích, v tomto článku se však kromě jeho specifických rysů pokusíme zamyslet i nad některými obecnými problémy digitalizace.
Počátky projektové přípravy sahají do roku 2007, kdy se začal připravovat typový projekt a vyvíjela se jeho podoba v komunikaci napříč kraji. Práce na realizaci samotného projektu Rozvoj e-Governmentu ve Zlínském kraji a jeho dílčí části Digitalizace a ukládání pak započaly první schůzkou projektového týmu v listopadu 2010. Na začátku roku 2011 byla ustavena pracovní skupina, tzv. Centrum pro digitalizaci (CPD), ze zástupců paměťových institucí zřizovaných Zlínským krajem, které se projektu účastnily. Byly to Krajská knihovna Františka Bartoše ve Zlíně, Krajská galerie výtvarného umění ve Zlíně, Muzeum jihovýchodní Moravy ve Zlíně, Muzeum regionu Valašsko ve Vsetíně, Slovácké muzeum v Uherském Hradišti, Muzeum Kroměřížska a Hvězdárna Valašské Meziříčí. U zúčastněných muzeí a galerie bylo důležité, aby se do práce zapojili jak kurátoři sbírek, tak knihovníci jejich knihoven. V průběhu prvního pololetí CPD pracovala intenzivně zejména na dvou důležitých úkolech, kterými byla jednak příprava zadávací dokumentace pro výběrové řízení na dodavatele digitalizace, jednak výběr dokumentů navržených k digitalizaci. Na počátku druhého pololetí roku 2011 proběhlo výběrové řízení a na konci roku byla podepsána smlouva s dodavatelem (fa EXON). V následujících dvou letech probíhala samotná realizace projektu, který byl ukončen s koncem roku 2013.
Projekt realizovaný ve Zlínském kraji po zralé úvaze zvolil zakázkovou digitalizaci formou služby a k vybudování krajské digitalizační jednotky nepřistoupil. Dalšími cíli projektu bylo vybudování krajské digitální spisovny, krajského digitálního úložiště a krajského digitálního repozitáře.
Co do typologie dokumentů, šlo v našem projektu o monografie, periodika, staré tisky, listiny a jiné dokumenty, kartografické materiály, plány a plakáty, fotografické negativy (na filmu i skle) a filmy. U monografií a periodik byla situace z hlediska zadání poměrně jednoduchá, bylo požadováno zpracování podle metodiky NDK. Z hlediska dodavatele to bylo obtížnější, protože se v té době teprve finalizovaly práce na definici a vydání pravidel pro tento metadatový popis. U muzejních materiálů nebyla volba formátů a kvality tak snadná a citelně zde chyběla nějaká národní, všeobecně uznaná metodika, která by byla spolehlivým doporučujícím materiálem.
Ještě komplikovanější to bylo v otázce metadatového popisu neknihovních materiálů. Zatímco u knihovních dokumentů byl v dohledné době k dispozici národní standard a bibliografické záznamy, u muzejních dokumentů nebylo k dispozici ani jedno z toho. Mezinárodní standardy a koncepce popisu sice existují, ale jejich aplikace do lokálního prostředí je mizivá. Příčinou jsou různé přístupy různých sbírkových institucí, nízká míra uvědomění si potřeby standardizace a komunikovatelnosti napříč sbírkami (tu kromě jiného přináší právě digitalizace) a v neposlední řadě také úroveň a koncepce evidenčních a dokumentačních systémů a praxe jejich používání v muzeích. Tato problematika se poměrně obtížně řešila až za běhu projektu a vyžádala si jednak vznik (alespoň „krajské“) metodiky pro popis sbír-kových dokumentů určených k digitalizaci, jednak aktivní zapojení dodavatele muzejního evidenčního systému, který byl naštěstí pro zúčastněné instituce stejný (fa Bach Systems).
Pokud jde o metadata knihovních dokumentů, ani zde nebyla situace napříč všemi institucemi jednotná a jednoduchá, ale řešení bylo snazší. Jednak existují dodržované standardy, jednak existuje Česká národní bibliografie (ČNB) a Souborný katalog ČR (SKC). Za podklad pro popisná metadata byly v případě krajské knihovny použity vlastní katalogizační záznamy dostatečné úrovně a s možností exportu do formátu MARCXML. V případě knihoven ostatních zúčastněných institucí se popis co do úrovně často lišil a nebylo možné záznamy exportovat do požadovaného tvaru. Vzhledem k nepříliš vysokému množství záznamů se s výhodou využilo toho, že muzejní knihovny do SKC zanesly údaj o záměru digitalizace a bylo pak díky vstřícnému přístupu NK možné je snadno vybrat a exportovat odtamtud. Mnohem složitější je problematika starých tisků, kde většinou převažuje popis muzejní nad knihovnickým a hotové záznamy buď nikde neexistují, nebo je identifikace děl a vydání tak náročná, že je obtížné zvolit ten správný.
Jak již bylo zmíněno, druhým podstatným úkolem CPD byl výběr dokumentů k digitalizaci. Tato část práce by mohla být tématem samotného příspěvku. Většina neknihovních paměťových institucí zatím nemá vnitřní strategii digitalizace a není tedy operativně schopna vybrat sbírky, které mají prioritu. Navíc sbírky uvnitř jedné instituce nemívají jednoho společného správce, takže dochází i k vnitřní konkurenci. Někdy se, bohužel, objevuje i negativní přístup k digitalizaci a podcenění jejího smyslu a důležitosti. Když se všechny tyto faktory zkombinují s výše popsanými problémy souvisejícími s nedostatečnou úrovní evidenčního a identifikačního popisu, může to vést k odsunutí digitalizace některých sbírek na nižší příčku v pořadí. V případě knihoven pak bylo nutné dbát na deduplikaci návrhů, ke které vzhledem k regionálnímu zaměření institucí mohlo dojít a občas docházelo.
Značným problémem při výběru knihovních dokumentů a pro další průběh projektu je nemožnost přesného stanovení objemu – počtů stran jednotlivých dokumentů a jejich formátu. U monografií je situace o něco jednodušší – formát je jen jeden a počet stran se snáze zjistí buď z dokumentu, nebo – po úpravě – ze záznamu (vlastního nebo z jiného nalezeného). Zde se plně projevuje zastaralost a nedostatečnost bibliografického formátu MARC, resp. katalogizačních pravidel – jak pro rozměry, tak pro rozsah dokumentu sice existují pole, ale pravidla zápisu v přirozené nestrukturované podobě včetně interpunkce a různých zkratek znemožňují snadno automatizovat práci s těmito údaji. Řádově složitější je situace u periodik – rozsah, periodicita i formát se často měnil v průběhu vydávání, a tak u nich většinou nezbývá než provést částečný průzkum de visu a z takto získaných informací provést kvalifikovaný odhad, který je více či méně nepřesný. Na náročnou etapu výběru těsně navazuje, resp. prolíná se s ní kompletace chybějících úseků periodik z jiných fondů a případná náhrada defektních exemplářů.
Ze všech zmíněných důvodů byla práce na výběru dokumentů v podstatě průběžná po celou dobu projektu. V přípravné fázi byl vypracován souhrnný přehled pro všechny zúčastněné, se kterým se dále pracovalo a který v této etapě prošel čtrnácti vývojovými verzemi. Aby bylo možné měnit rozsah výběru pružně, rozdělily si jednotlivé instituce své návrhy do pěti stupňů priorit. Vzhledem k upřesňování skutečného rozsahu periodik a objemu některých muzejních sbírek bylo třeba přidávat a ubírat, navíc se zohledněním formátů. Díky tomu bylo opravdový realizovaný rozsah digitalizace možné přesně stanovit až po jejím dokončení a zpětně tuto skutečnost promítnout do záznamů.
S výběrem dokumentů je spojen ještě jeden problém způsobený samotným principem realizace podobných projektů: je znám finanční objem, který je pro projekt k dispozici, a odhad cen zjištěných na trhu. Do zadání musí být uvedeny konkrétní objemy dokumentů jednotlivých typů a formátů (je to návrh smlouvy k uzavření s dodavatelem). Vysoutěžené ceny jsou často podstatně nižší než předpoklad, takže by při zachovaném objemu financí bylo možné zpracovat více, ale zadání zpětně změnit nelze. Ušetří se tak finanční prostředky, ale z administrativních důvodů (pravidla dotačních programů) je často nelze snadno následně použít pro pokračování v práci.
Fáze výběru a přípravy knihovních dokumentů, resp. jejich metadat musí zahrnovat i problematiku zjišťování, získávání a přidělování identifikátorů. V ideálním případě identifikátor (číslo České národní bibliografie, ISBN či ISSN) existuje a je v bibliografickém záznamu v lokálním katalogu. V horším případě existuje, ale není v lokálním záznamu, takže je třeba jej najít (primárně v ČNB či SKC) a do záznamů doplnit. V nejhorším případě žádný identifikátor neexistuje a je třeba jej získat, tedy nechat jej přidělit a zpětně do záznamů doplnit. Přidělování ISSN pokračujícím zdrojům v Českém národním středisku ISSN při Národní technické knihovně sice funguje velmi operativně, ale nemá přímou vazbu na ČNB a SKC. Je doporučeno, aby se v případě titulů se složitější bibliografickou historií konzultovalo přidělování ISSN předem s oddělením periodik NK a žadatel (nikoli agentura samotná) by tam také zpětně měl přidělená čísla nahlásit (a ideálně zažádat také o přidělení čČNB, pokud chybí).
To vše jsou kroky, které by bylo vhodné co nejvíce automatizovat a zmíněné agendy těsně propojit, včetně zajištění zpětného převzetí identifikátoru do katalogizačních záznamů. Počet titulů periodik naštěstí nebývá v digitalizačních projektech tak velký, naproti tomu u monografií (kde se ISBN zpětně nepřidělují) může být množství žádostí o přidělení čČNB řádově větší. I zde chybí větší míra automatizace a propojení, přiděluje se dávkově a v delším časovém horizontu. Ani jedna ze zmíněných agend nemá také přímou vazbu na RD, takže informace z něj se automaticky nepromítají do informace o digitalizačních záměrech v SKC a naopak.
Svébytné postavení má identifikátor URN: NBN. V době projektu byl jeho resolver v NK čerstvě zprovozněn a zapojení získávání těchto identifikátorů do projektového workflow se díky vstřícnosti dodavatele podařilo automatizovat a implementovat přímo do procesu digitalizace.
Po výše popsaných přípravných fázích samozřejmě následuje samotná digitalizace a tvorba metadat u dodavatele a dodání výstupů zadavateli. Zde musí proběhnout kontrola, odsouhlasení a na jejím základě případné reklamace. V tomto bodě byla situace ve zlínském projektu obzvlášť komplikovaná, protože v době začátku jeho realizace neexistoval funkční validátor metadat podle standardů NDK, který by bylo možné využít. Ve vývojové fázi se tehdy nacházel produkt třetí strany, který by po dokončení bylo možné použít formou placené služby, jež však nebyla zahrnuta do nákladů projektu. Nakonec byl použit validátor jednoho z dodavatelů NDK, který byl knihovnám poskytnut zdarma a svůj účel splnil. Členové CPD pak měli za úkol provádět faktickou obsahovou kontrolu výstupů (v případě menších sbírek v úplnosti, v případě větších namátkově).
Jak vyplývá již ze samotného názvu dotačního programu, projekty popisovaného druhu zahrnovaly pouze fázi digitalizace a ukládání, nikoli zpřístupnění výsledků. To je, zejména pro neknihovní typy dokumentů, významný problém. Dokumenty, které jsou popsány podle standardů NDK, lze zpřístupnit v systému Kramerius (v případě krajské knihovny na adrese dlib.kfbz.cz), který je jako software s otevřeným zdrojem k dispozici zdarma, jeho instalace a zprovoznění však není triviální. Tento systém pak neřeší zpřístupnění všech vzniklých dat a řízení přístupu k nim. IT infrastruktura mnoha paměťových institucí nedisponuje softwarovými a hardwarovými prostředky ani potřebnou konektivitou pro zpřístupnění svých dat. Mohlo by se tedy stát (a asi i stává), že dokumenty vzniklé digitalizací zůstávají dostupné jen interně v rámci instituce a i tak ještě komplikovaně.
S ohledem na tyto skutečnosti se Zlínský kraj rozhodl řešit otázku zpřístupnění formou navazujícího projektu, pro který byla vyjednána podpora z prostředků vzniklých úsporami na samotné digitalizaci. Pro tento účel vypracoval také typový projekt pro použití v dalších krajích. Portál pro zpřístupnění digitálního obsahu, jehož inspirací je například projekt Finna.fi, má za úkol ve své back-end části umožnit správcům obsahu export zvolených dokumentů z krajského repozitáře, obohacení a úpravu jejich popisu, doplnění informací o přístupnosti dokumentu a uložení do zpřístupňovací databáze. Front-end portálu má pak umožnit uživatelům vyhledávání v dokumentech, jejich výběr a samotné prohlížení, stažení (pokud je povoleno), sklízení via OAI-PMH apod.
Co se týče obsahu zpřístupňovaného portálem, v případě knihovních dokumentů bude jeho nabídka jednoznačně určena legislativou (autorský zákon) a bude se zaměřovat na autorsky volné dokumenty. U muzejních a dalších sbírek pak bude záležet zejména na posouzení kurátorů. Technologické řešení bude založeno na komponentách s otevřeným zdrojem (VuFind, Fedora, IIIF image server) a jako takové by mělo být finálně volně dostupné všem dalším zájemců z řad paměťových institucí. Nejde o vývoj nějakého „konkurenčního Krameria“, ale systému, který by měl být otevřenější co do spektra dokumentů, možností jejich popisu a přívětivým uživatelským rozhraním. Hotov by měl být v druhé půli roku 2015.