Main content

Identifikátory digitálních dokumentů se zaměřením na systém URN:NBN v ČR

LADISLAV CUBR ladislav.cubr@nkp.cz

ZDENĚK VAŠEK zdenek.vasek@nkp.cz

Úvod

Identifikátorem se rozumí znakový řetězec, který v rámci určitého kontextu jednoznačně označuje nějaký objekt. Pokud je tento kontext mezinárodní, hovoříme o globálním identifikátoru. V mezinárodním kontextu tištěných publikací je globálním identifikátorem například ISBN. ISBN je rovněž tzv. perzistentní identifikátor, tj. takový, který je trvale užíván k identifikaci právě té publikace, které byl původně přidělen (tj. nesmí být přidělen znovu, a proto musí být trvale udržován v centrální databázi). Globální trvalé identifikátory mají standardizovanou syntax a jsou přidělovány na základě určitých pravidel, mezi která obvykle patří definice toho, čemu může být identifikátor přidělen. Například identifikátor ISBN může být přidělen pouze knize na úrovni vydání, nikoli exempláři,1 tj. ISBN identifikuje dokument z hlediska jeho intelektuálního obsahu (a sekundárně též z hlediska specifických znaků vydání).

V knihovnách se současně s ISBN užívá identifikátor exempláře, tj. signatura. Signatura zpravidla slouží k určení lokace knihy – podle signatury ji většinou nalezneme ve volném výběru nebo v depozitáři. Signatura není globální identifikátor (signatura je jedinečná jen v rámci dané knihovny) ani perzistentní identifikátor (kniha může dostat novou signaturu) ani nepodléhá rozšířené standardizaci (každá knihovna si může zvolit vlastní syntax pro signatury).

Globálnost, perzistence a standardizace (pravidla) identifikátoru zaručují jeho dlouhodobou užitečnost při správě a vyhledávání dokumentů.

V případě vyhledávání tištěného dokumentu zadá čtenář do katalogu ISBN, čímž získá katalogizační záznam. Ten mu jednak poskytne bibliografické údaje o knize, jednak z něj zjistí signaturu, na základě které si knihu vyhledá v příslušném regálu nebo mu ji donese knihovnický personál.

Digitální identifikátory

Ve světě internetu stačí pouhá znalost URL (internetové adresy) k tomu, aby uživatel získal okamžitý přístup k dokumentu. Dokument je na dané internetové adrese dostupný z kteréhokoli počítače na světě, a z tohoto důvodu se také stalo URL nejužívanějším digitálním identifikátorem současnosti. Zjednodušeně lze říci, že URL je jakási „globální signatura“, protože URL je identifikátor lokace. Tato „globální signatura“ je sice na rozdíl od signatur knih vysoce standardizovaná, nicméně není perzistentní – stejně jako knihovní signatura se může změnit i internetová lokace dokumentu (dokument může být přesunut na jinou adresu).

Pro trvalou využitelnost dokumentů v internetové síti je nutná existence systému trvalé identifikace, který je založen na globálním a perzistentním identifikátoru vlastního dokumentu (nikoli jeho lokace). Příkladem jsou identifikátory Handle, DOI a URN:NBN. Tyto identifikátory jsou v rámci svých identifikačních systémů propojeny s informacemi o internetových adresách, na kterých jsou identifikované dokumenty v daný okamžik umístěny a zpřístupňovány uživatelům. Tyto informace však musejí být průběžně aktualizovány, aby bylo zajištěno, že dokument bude možné vyhledat i po změně aktuální internetové adresy. Vyhledávání dokumentů zajišťují tyto systémy prostřednictvím svých resolverů: resolver systému Handle je dostupný na adrese http://hdl.handle.net/; systému DOI na adrese http://dx.doi.org/. Systémy Handle a DOI jsou zpoplatněny a vyžadují instalaci podpůrného softwaru na straně registrátorů. DOI je využíván zejména vydavateli vědeckých publikací pro identifikaci jejich článků. Systém URN:NBN mohou (podle definice standardu) zavádět v jednotlivých zemích pouze národní knihovny. Konkrétní pravidla pro užívání URN:NBN se v daných zemích liší, protože jejich specifikace je přenechána místní národní knihovně. Původně byl identifikátor URN:NBN zamýšlen jen pro digitální dokumenty spadající do národní bibliografie, později se jeho užití rozšířilo i na další dokumenty oblasti digitálního kulturního dědictví.

ČIDLO

Užití identifikátoru URN:NBN v ČR je realizováno systémem ČIDLO (Český systém pro IDentifikaci a LOkalizaci dokumentů digitálního kulturního dědictví). Centrální autoritou tohoto systému je Národní knihovna ČR, která prostřednictvím své centrální aplikace, resolveru (http://resolver.nkp.cz), přiděluje identifikátory institucím (registrátorům) z oblasti českého kulturního dědictví, které mají zájem o přidělení URN:NBN svým nově vznikajícím digitálním dokumentům. Registrátorem mohou být automaticky všechny registrované knihovny v ČR, u dalších institucí záleží na dohodě s kurátorem. Základní podmínkou pro všechny zapojené instituce je, aby byly vlastníky daných dokumentů a dodržovaly všechna pravidla systému ČIDLO.

Každá instituce, která se chce systému ČIDLO zúčastnit (tj. stát se registrátorem), musí nejprve kontaktovat kurátora resolveru (urnnbn@nkp.cz). Ten ji seznámí s pravidly systému a technickými postupy. Kurátor je koordinátorem celého systému, poskytuje registrátorům konzultace a rozhoduje, zda da-ný dokument splňuje parametry kulturního dědictví.

To, jak ČIDLO specifikuje syntax URN:NBN, si ukážeme na příkladě přiděleného identifikátoru „urn:nbn:cz:mzk-0005j2“. Část „urn:nbn:cz“ identifikuje Českou republiku, část „mzk“ je kód registrátora,2 část „0005j2“ je závěrečný šestimístný alfanumerický řetězec, který generuje resolver.3 Tato syntax umožňuje zjistit vlastníka dokumentu.

V současném provozu, který započal na podzim 2012 a nachází se v počáteční fázi, se identifikátory URN:NBN přidělují pouze nově digitalizované knižní a časopisecké produkci. Při procesu přidělování identifikátoru musí registrátor dodat do resolveru výměnou za identifikátor určité informace o identifikovaném dokumentu (zejména bibliografická a technická metadata). Každý identifikovaný dokument má tak v databázi resolveru vytvořen vlastní záznam, který je jistou obdobou katalogizačního záznamu. Identifikovat lze více úrovní v rámci jednoho celku, například lze přidělit identifikátor číslu periodika a následně (jiný) identifikátor článku v něm obsaženém.

Dalším pravidlem je, že přidělování identifikátoru resolverem a dodávání metadat ze strany registrátora se musí uskutečnit ihned po dokončení digitalizace tištěné předlohy. Tento technický proces je realizován automatizovaně (rozhraní REST) a typicky zajišťován digitalizační firmou, která registrátora zastupuje. Pro menší produkce je možné využít manuální vyplňování metadat přes webové rozhraní.

Pro digitalizaci je již standardním postupem, že se každý dokument vytváří ve dvou derivátech (archivní a uživatelský). Archivní derivát je uložen do digitálního depozitáře (pro účely dlouhodobé archivace), uživatelský do digitální knihovny (pro účely zpřístupňování dokumentu uživatelům). Mezi těmito deriváty, které by měly být z obsahového hlediska totožné, zajišťuje propojení právě identifikátor URN:NBN. Proto platí jako další pravidlo, že registrátor (nebo zastupující firma) musí zajistit, aby tentýž přidělený identifikátor byl zapsán do metadat jak archivního, tak uživatelského derivátu dokumentu. Dalším pravidlem je, že žádný z těchto derivátů se v budoucnosti nesmí signifikantně změnit. Pokud k takové změně dojde, je třeba přidělit nové URN:NBN. Za signifikantní změnu se považuje zejména rozdělení dokumentu na dva nebo více dokumentů, nebo naopak sloučení více do jednoho, dále například změna identifikačních údajů (např. název), zatímco překlep v těchto údajích nikoli. Ve všech těchto případech se ale doporučuje konzultace s kurátorem resolveru.

Registrátor (nebo jiná instituce, s níž má dohodu) pak musí zajistit zpřístupnění dokumentu (tj. jeho uživatelského derivátu) ve své digitální knihovně. Záhy po vystavení dokumentu v digitální knihovně musí registrátor ve spolupráci s kurátorem (a technickým správcem resolveru) zajistit dodávání aktuálních internetových adres dokumentů do resolveru. Tento proces se děje výhradně automatizovaně prostřednictvím protokolu OAI-PMH.4 Dodržováním tohoto pravidla lze zajistit, že v resolveru budou uloženy vždy aktuální internetové adresy dokumentů. Proto pak také může resolver zprostředkovávat zpřístupnění dokumentu bez ohledu na změnu internetové adresy. Toto zprostředkování se děje následujícími způsoby.

Uživatel buď může využít přímé přesměrování na dokument. V tomto případě do adresního řádku internetového prohlížeče zapíše URL v následujícím tvaru: URL adresa resolveru (http://resolver.nkp.cz/+ identifikátor URN:NBN, výsledné URL tedy může mít konkrétně například tuto podobu: http://resolver.nkp.cz/urn:nbn:cz:mzk-0005j2. Druhým způsobem je zadat do vyhledávacího pole webového rozhraní resolveru (sekce „Vyhledávání“ na adrese http://resolver.nkp.cz/) samotný identifikátor URN:NBN (např. urn:nbn:cz:mzk-0005j2) a ze zobrazeného záznamu si vybrat jednu z více URL adres (to platí pro případ, že tentýž dokument zpřístupňuje, například na základě replikačních smluv, více digitálních knihoven). Další možností je přímý proklik z katalogu (za předpokladu, že si registrátor do svého katalogu zanesl URL obsahující URN:NBN podle výše uvedeného schématu pro přímé přesměrování). Pokud existuje více URL k jednomu URN:NBN, pak resolver proklik z katalogu registrátora primárně přesměrovává na digitální knihovnu tohoto registrátora.

Kromě funkce jednoznačné identifikace (jedinečnost identifikátorů v mezinárodním měřítku, propojení uživatelských a archivních verzí) a zprostředkování zpřístupnění dokumentu (přímé, přes webové rozhraní nebo přes katalog) nabízí resolver ještě další významnou funkci – podporu vědecké citační praxe.

Výhody jednoznačné identifikace dokumentu pro potřeby citování ve vědeckých publikacích jsou značné. Dosud je totiž převažujícím způsobem citování stále uvádění URL, které se může měnit, což může vést k nevěrohodnosti citace. Citováním identifikátoru URN:NBN se tak uživatel vyhne problému s nefunkčním internetovým odkazem. Specifickou funkci nad rámec běžných systémů nabízí resolver v případě, že dokument zanikl (například přejmenováním nebo smazáním) nebo byl změněn. Jelikož resolver uchovává metadatové údaje o dokumentu získané v okamžiku jeho vytvoření, umožňuje na základě metadat ověřit minulou existenci (nyní již zaniklých) dokumentů nebo fakt, že původně dokument skutečně nesl jiný název apod.

Resolver a výše uvedená koncepce systému ČIDLO je vyvíjena v rámci institucionálního výzkumu Národní knihovny ČR. Autorem koncepce je Ladislav Cubr, autorem softwarové architektury resolveru Martin Řehánek. Resolver byl primárně určen pro nově digitalizované dokumenty v rámci projektu Národní digitální knihovny, ale nyní je již zapojen do některých dalších projektů. Zapojení se do systému ČIDLO není zpoplatněno, pouze je třeba dodržovat dohodnutá pravidla.

Systém ČIDLO zde byl pouze nastíněn v základních obrysech, pro podrobnější informace se zájemci mohou obrátit na emailovou adresu kurátora systému (urnnbn@nkp.cz).

 

ODKAZY:

1) Všechny exempláře téhož vydání mají totéž ISBN.

2) V tomto případě jde o kód Moravské zemské knihovny. S výjimkou knihoven s úplným povinným výtiskem slouží jako kód pro knihovny jejich sigla.

3) Mezi první a druhou částí je dvojtečka, mezi druhou a třetí spojovník.

4) OAI-PMH je v knihovnickém světě dnes již běžně užívaný způsob sklízení metadat z digitálních knihoven.