Hlavní obsah stránky
ROZHOVOR s PhDr. Jiřím Polišenským - V oblasti digitalizace je stále co řešit a zlepšovat…
PhDr. Jiří Polišenský (1950) je vedoucím odboru správy a ochrany fondů Národní knihovny ČR. Po ukončení studia na FF UK nastoupil do oddělení služeb čtenářům v tehdejší Státní knihovně ČSR. Od roku 1978 dalších pět let pracoval v oddělení rukopisů a starých tisků. V roce 1983 se stal vedoucím reprografických služeb, které se pokusil transformovat na pracoviště ochranného reformátování. To se mělo podílet na záchraně novin, časopisů a dalších dokumentů vytištěných na kyselém papíru, což se podařilo realizovat až v 90. letech minulého století.
Jako vedoucí odboru správy a ochrany fondů organizoval spolu se svými kolegy stěhování asi 4,5 milionů svazků knih do nově rekonstruovaného Centrálního depozitáře v Praze - Hostivaři. Od roku 1996 se dr. Polišenský podílel na přípravě a realizaci řady projektů zaměřených na mikrofilmování a digitalizaci, výrobu ochranných obalů a na sušení fondů zasažených povodní v roce 2002. Zabývá se také aktivitami programu Kramerius, který je zaměřen na záchranu dokumentů ohrožených degradací papíru pomocí digitalizace a mikrofilmování. Některé zajímavé otázky z těchto oblastí nám zodpověděl v následujícím rozhovoru.
V roce 2007 byly některé knihovny osloveny dotazníkem s cílem zmapovat situaci digitalizace v ČR. Jeho výsledky jsou dostupné na webové stránce http://www.sdruk.cz/it/. Kde se mohou zájemci o toto téma dovědět další informace a jak byste současné trendy v digitalizaci charakterizoval Vy sám?
Vyhodnocení dotazníku přineslo docela zajímavé informace i pro ty, kdo problematiku důvěrně znají. Na první pohled je z nich zřejmé, že tato oblast je podrobně koordinována a že i další knihovny mají možnost digitalizovat vlastní ohrožené dokumenty, aniž k tomu potřebují provozovat vlastní pracoviště nebo mít k dispozici zařízení na uchovávání digitálních dokumentů. Důležitá se ukázala schopnost včas vyvinout funkční programy, které dnes různé instituce používají pro digitalizaci a pro zpřístupňování digitalizovaných dokumentů. Dosažené výsledky nám závidí i v řadě jiných zemí. Významným rysem je vysoká míra standardizace a harmonizace našich postupů s děním ve světě. Dalším je pak podíl soukromých firem na činnostech souvisejících s digitalizací, a to nejen při skenování či zpracování obrazových souborů, ale také při vývoji programových nástrojů nebo řešení projektů výzkumu a vývoje. V posledních letech byla vybudována nová pracoviště zaměřená na přímou digitalizaci. Bohužel některá neřeší otázku dlouhodobého uložení digitálních dokumentů, takže teprve budoucnost ukáže, zda výsledky jejich činnosti budou trvale dostupné. Negativní stránkou je nedostatek finančních prostředků, který brání rychlejšímu uplatňování výsledků vývoje i rychlejší digitalizaci.
Mezi uživateli roste obliba Systému Kramerius, dotovaného z programu MK ČR VISK 7, známé je Manuscriptorium, projekty v rámci tzv. Norských fondů a postupně se také dovídáme více o Národní digitální knihovně. Můžete doplnit, na co jsem zapomněla?
Velkou naději představuje projekt hromadné digitalizace využívající technologii robotického skenování financovaného z prostředků EU v rámci Integrovaného operačního programu a v rámci Smart Administration. Měla by se vybudovat dvě velkokapacitní pracoviště (NK ČR a MZK v Brně) a systém pro trvalou archivaci digitálních dokumentů. Dále bych připomněl vývoj systému Registr digitalizace CZ (RELIEF), který slouží pro evidenci digitalizovaných dokumentů.
K jednotlivým projektům jsou zajisté k dispozici různé tabulky a statistiky, můžete shrnout jejich dosavadní obsah?
Do současné doby podalo vlastní projekty 35 knihoven (z nich mnohé opakovaně) a bylo digitalizováno zcela nebo částečně téměř 280 titulů periodik (více než 3,5 mil. stran) a více než 12 000 svazků monografií (více než 1,6 mil. stran). V rámci programu VISK 7 se hradí nejen vlastní digitalizace, ale i podpora digitalizačních pracovišť, která splňují daná kritéria, příp. aktualizace starších dat. Tento program má největší zásluhu na rozvoji digitalizace u nás.
Projekt Záchrana neperiodických bohemikálních dokumentů 19. století ohrožených degradací papíru (Norské fondy) v prosinci letošního roku dospěje ke svému závěru. Jaký je jeho současný stav, kolik publikací bylo zpracováno?
Původně jsme se domnívali, že bude stačit digitalizovat 6500 svazků, aby se naplnil druhý indikátor, a tím je 2,4 mil. stran dokumentů. V průběhu realizace se ale ukázalo, že bude třeba zpracovat mnohem větší množství knih. V tuto chvíli bylo digitalizováno, nebo je rozpracováno více než 16 000 svazků a ještě nejsme u konce. Celkově předpokládáme, že se digitalizuje okolo 20 000 publikací 19. stol., a to tvoří už velmi zajímavé procento. V současné chvíli je v Systému Kramerius dostupných 1,6 mil. stran, další statisíce jsou rozpracované. Některé dílčí práce sice končí v roce 2009, ale import digitalizovaných dokumentů na datové úložiště potrvá ještě v roce 2010. Doufáme ale, že tato činnost bude pokračovat i po skončení projektu a že se ještě rozšíří i na monografie 1. pol. 20. stol. Digitalizované dokumenty jsou dostupné nejen v obrazové podobě, ale k dispozici je i textový formát pro vyhledávání. Monografie 19. stol. jsou ve své většině přístupné volně, protože už uplynula ochranná lhůta daná autorským zákonem. Stále více lidí využívá Systém Kramerius, což se projevuje na statistice přístupů, která za poslední měsíce výrazně a plynule roste. Krameria využívají nejen čtenáři z České republiky, ale v podstatě z celého světa. Je pravděpodobně velkým přínosem pro pracoviště bohemistiky různých univerzit. Přínos netkví jen ve vlastní digitalizaci, ale mnoho dokumentů získá záznam do elektronického katalogu, a tím se lépe zpřístupní uživatelům. Současně se vybírají exempláře pro budování konzervačního fondu 19. stol., provádí se průzkum fyzického stavu a pro nejvíce poškozené knihy se vyrábí ochranné obaly z lepenky archivních kvalit. Takže pozitivních výstupů projektu je více.
Na webových stránkách Národní digitální knihovny (NDK) si můžeme prohlédnout její strukturu a začlenění do České digitální knihovny, je zde zmíněn také Centrální digitální repozitář. Můžete nám jednotlivé pojmy a vazby mezi nimi více přiblížit?
Národní digitální knihovna by měla obsáhnout nejcennější část písemného národního kulturního dědictví, o jehož záchranu by se mělo postarat především Ministerstvo kultury ČR spolu s Národní knihovnou ČR a Moravskou zemskou knihovnou a příp. i s dalšími institucemi. Česká digitální knihovna je širší pojem zahrnující i další oborové nebo speciální sbírky dostupné prostřednictvím portálů umožňujících zpřístupnit uživatelům i heterogenní zdroje. Centrální digitální repozitář je technické zařízení sloužící k uchovávání digitálních dokumentů. Jádrem jsou dvě rozsáhlá disková pole s identickým obsahem a pásková knihovna. Smyslem vybudování centrálního repozitáře bylo sjednotit uložení dat do té doby uchovávaných na různých technických prostředcích, a tím racionalizovat a zlevnit jejich správu. Dalším výsledkem by měla být vyšší bezpečnost. Jedná se ale o dlouhodobý proces vyžadující další finance a neustálou obnovu. Repozitář je postaven na platformě IBM.
Také se můžeme dočíst, že navzdory několika úspěšným projektům a ceně UNESCO/JIKJI Memory of the World, kterou v roce 2005 obdržela Národní knihovna ČR za svůj přínos k ochraně a zpřístupňování kulturního dědictví, „jedigitalizace a problematika digitální ochrany v ČR v posledních letech významně pozadu za ostatními státy v důsledku nedostatku finančních prostředků a následně pomalému postupu digitalizace. Určité pozitivní změny by mohly nastat v souvislosti s připravovanou Národní strategií digitalizace a zároveň s projektem iFONTES v rámci Integrovaného operačního programu.“ Můžete nám opět blíže vysvětlit, co si konkrétně pod těmito pojmy představit?
Je velká škoda, že se v důsledku nedostatku finančních prostředků nepodařilo využít potenciál, který se vytvořil na konci 90. let. Větší objem digitalizovaných dokumentů mohl sloužit podstatně širšímu okruhu uživatelů. Digitalizace mohla být nejen nástrojem pro záchranu degradovaných dokumentů, ale mohla se využívat pro systematické zpracování celých tematických oblastí nebo regionů a jako nástroj pohodlnějšího zpřístupňování dokumentů. V Evropě se rozbíhají projekty většího rozsahu, a to nejen v tradičních vyspělých západních zemích, ale např. i Slovensko řeší rozsáhlý digitalizační projekt hrazený z několika zdrojů, který by měl v době cca pěti let zajistit digitalizaci všech na Slovensku vydaných publikací a současně řešit problematiku digitalizace muzejních sbírek a sbírek dalších paměťových institucí. Mimo Evropu jsou digitalizační aktivity úspěšné dále např. v Japonsku a Koreji, ale i v takových zemích, jako je Indie a Čína.
Projekt iFONTES má podobně velké ambice. Kromě digitalizace knihovních fondů počítá také s digitalizací muzejních sbírek a architektonického dědictví. Naší výhodou je, že knihovny jsou již poměrně dobře připraveny a mohou začít realizovat rozsáhlý projekt relativně velmi rychle. Je to pro nás velká naděje a velká výzva. Pokud se podaří schválit jeho realizaci v navržené výši, bude znamenat nejen převrat v objemu digitalizovaných dokumentů, ale v celkovém přístupu k této oblasti. Umožní využít nové technologie, jako je robotické skenování, trvalé uchovávání digitálních dokumentů prostřednictvím spolehlivého repozitáře a získat řadu nejnovějších programových nástrojů. V rámci projektu by se mělo digitalizovat ročně téměř 18 mil. stran dokumentů, což představuje cca 85 tis. svazků. Za celou dobu projektu by se mohla digitalizovat např. třetina Národního konzervačního fondu. Na druhé straně realizace přinese velké problémy. Bude třeba urychlit retrokonverzi katalogu NK ČR, protože automatické zpracování digitálních dokumentů je možné pouze v případě, že všechny digitalizované svazky budou mít záznam v elektronickém katalogu a budou opatřeny čárovým kódem. Je třeba řešit problematiku obecného persistentního identifikátoru a potřebnou změnu standardů, zejména pro popisná metadata. Projekt by měl přinést řešení nejen pro knihy a periodika, ale také pro ostatní netradiční nosiče, které jsou také ohroženy ve své existenci - mapy, plakáty, gramofonové desky, magnetofonové kazety, ale i CD a DVD nosiče, které Národní knihovna získává jako povinný výtisk. Příprava celého programu, v rámci kterého má být projekt realizován, je v proudu. V jakém rozsahu bude možné uvedené záměry realizovat, bude záležet na objemu finančních prostředků, které budou k dispozici.
Vzniknout by měl též tzv. registr digitalizace. K čemu přesně má sloužit?
Registr digitalizace CZ již vznikl a slouží pro evidenci digitalizovaných dokumentů a dává přehled v jakém stadiu výroby se nacházejí. Uživatelé zde najdou i informace o dokumentech, které instituce teprve hodlají digitalizovat. V současné době je používán Národní knihovnou ČR a slouží i vybraným dodavatelským firmám. Knihovna AV ČR jej v současné době plní údaji o dříve digitalizovaných dokumentech. Ostatním knihovnám umožní vytvářet identifikátor využívaný během digitalizace a sledovat postup prací. Tato aplikace je přínosem i pro hromadné předávání některých údajů mezi katalogy a digitální knihovnou. Její pomocí je možné hromadně umístit do katalogizačních záznamů odkazy do Systému Kramerius, aby se uživatelé mohli rychle dostat z katalogu k digitalizovaným dokumentům. V současné době zvažujeme spolu s Knihovnou AV přípravu mezinárodního projektu, v rámci kterého by středoevropské země mohly automatizovaným, rychlým způsobem vytvářet společnou bázi digitalizovaných dokumentů právě na základě uvedeného nástroje. Databáze by mohla být propojena s evropskou databází EROMM (European Register of Microforma Master), která již obsahuje i záznamy digitalizovaných dokumentů a s evropskými knihovnami TEL a EUROPEANA.
Popsat jednotlivé fáze digitalizačního procesu - vznik digitálních dat, metadat, zpřístupnění a archivace dokumentů - by asi vydalo na samostatné příspěvky. Mohl byste přesto nastínit nejaktuálnější otázky, které se v daných etapách řeší?
Je stále co řešit a zlepšovat. Pracujeme na kontrole kvality obrazových souborů, která by se měla částečně automatizovat. Byly vytipovány zkušební obrazce, které by měly být snímkovány při každé změně nastavení skenovacího procesu a které by měly usnadnit diagnostikovat nestandardní výsledky digitalizace. Na základě toho bude vytvořen programový nástroj, který poloautomatizovaným způsobem bude schopen vyhodnocovat vybrané kvalitativní parametry obrazových souborů. Ten by se měl zejména uplatnit při importech velkého objemu dokumentů digitalizovaných na různých pracovištích. Vyšší míra automatizace je nutná i v případě tvorby metadat, která by se měla generovat z katalogizačních záznamů. Řeší se také projekt zaměřený na zvýšení kvality výsledků OCR. Základem je vytváření znalostních bází českého jazyka, a to v několika časových vrstvách a podle tematických skupin. Nástroje pro vytváření znalostních bází i vytvořené báze budou volně k dispozici dalším institucím. Dále je třeba těsněji propojit digitální knihovnu a katalogy, aby se informace o digitalizovaných dokumentech dostávaly hromadně a včas do katalogizačních záznamů. Integrace katalogu a digitální knihovny spolu se speciálními vyhledávacími a komunikačními nástroji je aktuální otázkou nejbližších vývojových aktivit.
Ve větší míře jsme se dosud bavili o dokumentech určených k digitalizaci, ale stále více přibývá také těch, které již v digitální podobě vznikly (tzv. born digital dokumenty). Jaké problémy se musejí řešit v případě těchto materiálů?
Tuto otázku by bylo třeba směrovat spíše na tým odborníků řešících problematiku uchovávání obsahu národního webu. Myslím, že k hlavním problémům patří nedostatek paměťového prostoru, aby mohly být častěji prováděny harvesty (sběry) podchycující dynamiku našeho webu. Problémem zůstává možnost zpřístupnit uložené webové dokumenty. Zde je limitujícím faktorem autorský zákon. Částečně se řeší i problematika převodu obsahu digitálních dokumentů na fyzických médiích (CD, DVD), které NK ČR získává v rámci povinného výtisku, na centrální digitální repozitář. I v těchto případech bude nutné řešit v další fázi problematiku jejich zpřístupňování. Řešení se musí časově synchronizovat s vybudováním systému pro dlouhodobou archivaci digitálních dokumentů, který umožní i jejich zpřístupňování. I pro tyto dokumenty je v současné době nedostatečný paměťový prostor. (O projektu WebArchiv viz Čtenář č. 5/2009; pozn. red.)
Probrali jsme více témat, které z nich je největší prioritou právě pro Vás a Vaši práci?
Prioritou je jednoznačně projekt hromadné digitalizace, jenž by měl probíhat v rámci integrovaného operačního programu, který může přinést nové nástroje, možnosti a přístupy. Jeho realizací by se proměnilo prostředí pro badatele a digitalizace by získala novou, zcela jinou dynamiku. Na druhé straně je velkou bariérou pro širší uplatnění digitalizovaných dokumentů současný autorský zákon. V USA i v některých evropských zemích se začíná uplatňovat rozšířená knihovní licence umožňující ve všech veřejných knihovnách zpřístupňovat po síti digitalizované dokumenty bez ohledu na to, zda uchovávají papírový exemplář. Takové řešení by výrazně přispělo k demokratizaci přístupu k informacím zejména ve vzdálených regionech, řešilo by problém ochrany ohrožených papírových i netradičních dokumentů a zjednodušilo by technické řešení. Další cestou by bylo vytvoření mechanismu umožňujícího za poplatek získat přístup k digitalizovaným dokumentům. Jsem ale skeptický vzhledem k nedávným zkušenostem se zpoplatněním systému elektronického dodávání dokumentů, kdy nereálně vysoký poplatek bude pravděpodobně kontraproduktivní a nepřinese prospěch ani knihovnám a jejich uživatelům, ale ani autorům. Bohužel není známo, že by se realizoval průzkum nebo audit, jak se zpoplatnění některých služeb využívajících autorská díla (poplatky z kopírování a za výpůjčky) projevilo v příjmech u konkrétních autorů. Padnou-li vynaložené prostředky na režii systému, nebo nejsou-li adekvátně rozdělovány, pak by bylo třeba realizovat systémové změny před tím, než se budou vytvářet další mechanizmy založené na platbách či úhradě licencí. Toto řešení už ale přesahuje možnosti týmů zabývajících se digitalizací.
Ptala se Lenka Šimková
Foto Eva Hodíková