Hlavní obsah stránky
AUTOMAT KNIHOVNA s MGR. VLASTIMILEM KREJČÍŘEM z Ústavu výpočetní techniky a FF Masarykovy univerzity
„Ukazuje se, že zájemce o digitální knihovnu často netuší, jak velké množství práce čeká přímo jej samotného…“
V seriálu rozhovorů o technologiích v knihovnách jsme se už „otřeli“ i o digitální knihovny (DK), ale téma to zdaleka není vyčerpané. Tvá domovská instituce provozuje hned několik takových a minimálně dvě z nich (Česká digitální matematická knihovna – DML-CZ a Digitální knihovna Filozofické fakulty Masarykovy univerzity – DK FF MU) pocházejí z vaší „dílny“. Mohl bys, Vlastíku, tyto projekty představit?
Jedná se o tematické digitální knihovny – první z nich, DML-CZ (http://dml.cz/) se snaží pokrýt kompletní produkci odborné matematické literatury (časopisy, sborníky, monografie), která kdy vyšla v našich zemích (nejstarší časopis v DML-CZ začal vycházet v roce 1872 za Rakouska-Uherska). Druhá knihovna má za cíl pokrýt veškerou odbornou produkci Filozofické fakulty Masarykovy univerzity (tj. od roku 1920 do současnosti). Obě knihovny jsou živé – průběžně zařazují i aktuálně vydávaná díla. DML-CZ je navíc součástí EuDML – Evropské digitální matematické knihovny (http://eudml.org/).
DML-CZ je naše vlajková loď. Slovo „naše“ je však třeba chápat v širším kontextu – celý projekt DML-CZ vznikl za spolupráce několika institucí, přičemž MU (přesněji Ústav výpočetní techniky a Fakulta informatiky) zajišťovala zejména technicko-programátorskou stránku věci. Hlavním iniciátorem vzniku byl Matematický ústav Akademie věd ČR, který celý projekt zastřešuje a vede (jmenovitě duchovní otec projektu dr. Jiří Rákosník). Na projektu spolupracovala i Univerzita Karlova a Knihovna Akademie věd ČR. Osobně jsem si na začátku projektu nedovedl vůbec představit, jaké ohromné penzum práce nás čeká. Všichni členové týmu byli pro věc zapálení, podařilo se nám dosáhnout kýženého cíle a následně se i zapojit do evropského projektu.
Znalosti načerpané v projektu DML-CZ jsme pak uplatnili při tvorbě DK FF MU (https://digilib.phil.muni.cz/) – ta už je čistě interním projektem na Masarykově univerzitě (spolupráce Ústavu výpočetní techniky a Filozofické fakulty). Opět musím zdůraznit, že – ač poučeni z DML-CZ – jsme byli opět překvapeni, co úsilí to stálo. Jak se totiž v průběhu budování DK FF ukázalo, světy matematiků a filozofů jsou velmi odlišné a mají svá specifika.
Digitální knihovna FF MU inspirovala i jiné fakulty na naší univerzitě a v současnosti chystáme digitální knihovnu pro Právnickou fakultu MU.
Mohl bys trochu podrobněji popsat procesní stránku existence těchto digitálních knihoven – jak vývojovou, tak běžně provozní? Je tam např. i vazba na výběr dokumentů k digitalizaci nebo je to v gesci někoho jiného?
Budování digitální knihovny bych rozdělil na dvě části: programátorsko-technickou a politicko-kurátorsko-administrativní. Ta první se týká softwarových nástrojů pro digitální knihovnu a její budování včetně know-how okolo veškerých technických procesů, které s tím souvisí (například v jakém rozlišení skenovat, jak na OCR atd.) – to je to, co děláme u nás.
Druhá část se vztahuje k obsahu digitální knihovny: jeho výběru, vytváření popisných metadat, řešení právních otázek při zpřístupňování apod. Většinou leží na bedrech toho, kdo chce knihovnu budovat. Obě části se velmi prolínají a vyžadují úzkou spolupráci obou skupin i jistou dobu na sehrání se – obvykle spolu komunikují lidé z různých oborů a hned si nerozumí. Ukazuje se, že zájemce o digitální knihovnu často netuší, jak velké množství práce čeká přímo jej samotného – že programátoři tu knihovnu nevybudují, protože „neznají“ její obsah, neznají daný obor, významná díla…
Zjednodušeně lze ideální scénář budování popsat takto: Zadavatel musí na počátku definovat, čeho chce dosáhnout a programátorský tým seznámit s obsahem knihovny. Na základě těchto informací provede technický tým analýzu, navrhne struktury uložení obsahu a připraví nástroje a postupy pro digitalizaci, popis obsahu i konečnou digitální knihovnu. Zadavatel následně dodává a popisuje obsah knihovny, technický tým vše průběžně analyzuje, upravuje podle aktuálních požadavků zadavatele a tímto procesem se dostává do finálního stavu – hotové digitální knihovny. V praxi je to bohužel komplikovanější, protože zadavatel často neví, co přesně chce, a programátoři přemýšlí příliš „ajťácky“, a tak si požadavky zadavatele vysvětlí po svém. Následně probíhají opakovaně úpravy a opravy a ujasňování si požadavků a takto se iteruje až do zdárného konce. Důležitou součástí celého procesu je osoba zkušeného koordinátora, někoho „nad věcí“, kdo obě skupiny usměrňuje, pomáhá jim s vzájemnou spoluprací a dohlíží, aby se projekt držel v rozumných kolejích. U našich projektů tuto roli úspěšně plní můj šéf dr. Miroslav Bartošek.
Běžně provozní část už klade menší nároky – obvyklé procesy přidávání nového obsahu už byly stanoveny a vyzkoušeny, vše běží (polo)automatizovaně. V této fázi může mít nárazově více práce programátorský tým, zejména při aktualizaci užívaného softwaru nebo při rozšiřování knihovny o nové typy dokumentů.
Z mého pohledu programátora bylo zajímavé srovnávat matematiky a „filozofy“. Zatímco matematický obsah byl přesně a jasně nadefinován, veškeré číslování časopisů, sborníků a monografií perfektně sedělo, u DK FF MU byl patrný posun k chaosu :-).
Co bys obecně poradil někomu, kdo zamýšlí digitální knihovnu vybudovat a provozovat?
V prvotní fázi si musí ujasnit, co bude obsahem digitální knihovny – jaké typy dat chci ukládat (knihy, časopisy, audio, video…) a kde ta data budu brát (zda bude nutná digitalizace, konverze z různých formátů apod.). Poté najít partnera, který pomůže s tou technickou částí. Následně se připravit na to, že bude nutné ta data popsat a roztřídit, což je podle mého názoru zdaleka ta nejpracnější část budování celé knihovny. A na to vše se v průběhu nabaluje celá řada větších či menších problémů (právní otázky aj.).
Nejběžnějším nástrojem pro provozování digitálních knihoven knihovnami (chtěl jsem říci „digitálních knihoven knihoven“, ale to by vypadalo jako překlep) je systém Kramerius. Je to z tvého hlediska dobrá volba a existuje vlastně pro českou instituci, která nemá vlastní vývojáře, programátory a přebytky v rozpočtu, jiná?
Přestože my používáme konkurenční systém, tak budu tvrdit, že je to dobrá volba – stejně jako jiné u nás rozšířené systémy. Čistě technicky: Kramerius 4 je postavený na systému Fedora, který je velice flexibilní a robustní – jádro systému je zdravé. Ale porovnávat systémy pro tvorbu digitálních knihoven je velmi obtížné, protože každý má svá pro a proti a nikdo soudný vám neřekne, že jeden je jednoznačně lepší než druhý. Záleží na typu obsahu, jak si to „zákazník“ představuje, co preferuje tým, který bude tu programátorsko-technickou část řešit… My používáme systém DSpace, ale umím si představit, že by DML-CZ mohla být i v Krameriovi. Asi by byla mírně jiná, ale šlo by to – jen bych jako vývojář při úpravách nadával na jiné nedostatky toho kterého použitého softwaru :-). Pokud už instituce (ale spíš bych doporučil nechat to na programátorském týmu) vybírá software, tak se vyplatí sázet na ten, který je hojně používaný a pokud možno open source. Uživatelská komunita dokáže velmi rychle poradit a pomoci, nové funkce už často někdo udělal a v případě nouze mohu sám upravovat kód.
Instituce bez vývojářů a přebytků v rozpočtu to bude mít těžké. Tu digitální knihovnu musí někdo zaplatit – resp. musí zaplatit pracovníky, kteří ji budou tvořit. Politicko-kurátorsko-administrativní část patrně pokryje vlastními lidmi (kteří už pravděpodobně nějakou práci dělají, takže tohle budou mít jako něco navíc), tu programátorskou musí řešit taktéž. Když vlastní programátory nemá, nezbývá než se obrátit na externí firmy. Ale vždycky to bude stát peníze. Software může být zadarmo, ale sám o sobě nebude v naprosté většině případů stačit. A i kdyby stačil – někdo jej musí nainstalovat a udržovat, což nás vede zpět k otázce peněz.
Posledně řečené mohu z vlastní zkušenosti jen potvrdit. Vrátím se k tomu „popsat a roztřídit“, což je, jak říkáš, nejpracnější (a já doplním, že je-li to realizováno jako služby, tak také nejdražší) fáze budování, resp. plnění digitální knihovny. Pokud jde tedy o metadata, držíte se ve výše zmíněných dvou DK nějakých standardů, a pokud ano, jakých? Jaké metody a nástroje pro tvorbu metadat kurátoři používají?
Začnu těmi nástroji: pro samotný popis, shromažďování a třídění materiálů pro digitální knihovnu jsme vyvinuli nástroj, který se jmenuje Metadatový editor (ME). Ten pokrývá podstatnou část celého procesu přípravy obsahu digitální knihovny: interaktivní skládání naskenovaných stran do vyšších logických celků (články, kapitoly), případně i zavedení hotových (born-digital) dokumentů, metadatový popis aj. S tím se provádí i řada automatických procedur, jako jsou úprava skenů, OCR, generování PDF s předsádkou a další. Výsledkem je dokument, který importujeme do open-source systému DSpace, který používáme jako konečnou digitální knihovnu zpřístupňující obsah uživatelům.
V ME žádný standard pro popis metadat nepoužíváme. Zde možná řada knihovníků významně pozvedne obočí, ale vysvětlení je prosté – ME je pouze interní nástroj, nijak neinteraguje s vnějším světem. Při tvorbě metadatových polí pro popis objektů pro konkrétní knihovnu máme bez standardu naprostou volnost, což nám velmi usnadňuje a urychluje práci. Standardy nastupují až ve výsledné digitální knihovně, tedy v systému DSpace, který interně používá Dublin Core, na který metadata z ME mapujeme. Výhodou Dublin Core je, že máme automaticky metadata pro OAI-PMH. Nevýhodou je Dublin Core samotný, který má málo prvků a je plochý (pole:hodnota) – z toho důvodu jsme byli nuceni Dublin Core v DSpace rozšířit o řadu kvalifikátorů (základních 15 prvků zůstalo zachováno).
V DML-CZ navíc přidáváme pro účely napojení na EuDML mapování na formát JATS (The Journal Publishing Tag Set), což je standard pro popis publikací (časopisů) pocházející z dílny U.S. National Library of Medicine. Pro účely exportu nebo vystavování dat můžeme snadno adaptovat jakýkoli metadatový formát (zde si neodpustím drobnou poznámku, za kterou budu nejspíše knihovnickou komunitou kamenován – slovo jakýkoli dávám do uvozovek, protože bych se velmi bránil formátu MARC, který je noční můrou programátorů).
Za tu MARCovskou poznámku jsem vděčný – je třeba to říkat, neustále opakovat a poukazovat na obsolenci tohoto formátu (a také způsob, jak s ním pracují katalogizační pravidla). Když mluvíš o ME, je to tentýž editor, který používají v Moravské zemské knihovně? Je k dispozici i pro jiné knihovny?
Pokud vím, náš ME v MZK kdysi zkoušeli, ale nakonec vyvinuli vlastní ME, který je úžeji napojen na systém Kramerius. Náš ME je volně k dispozici komukoli (na serveru SourceForge.net), bohužel pro zájemce, bez valné dokumentace a jakékoli speciální podpory z naší strany (nemáme na to kapacity).
Ještě ke standardům – máš pravdu, v mnoha systémech se ze vstupní vysoce strukturované podoby nakonec stane DC, ale kdyby např. došlo na import do nějaké jiné DK (např. do Krameria), šlo by to?
Pokud jde o import do jiné DK, pak by to určitě šlo a to i do Krameria, ale nemusí to být jednoduché. Je to víceméně „jen“ otázka doprogramování příslušných napojení a přemapování struktur a metadat na cílovou DK. V praxi to děláme u přenosu z DML-CZ do EuDML, která nestaví na softwaru DSpace. Celou situaci může usnadnit, pokud softwaru pro vybudování knihovny podporuje standardy pro import a výměnu dat, jako je například SWORD nebo sklízení přes OAI-PMH.
Vlastíku, poslední otázka na odlehčení: půjčuješ si i ty, jako „ajťák“, knížky na čtení v knihovně? Co čteš nebo jsi četl v poslední době?
Ano, půjčuji si knihy v knihovně, především beletrii. Ze zajímavějších věcí, které jsem nedávno četl, bych vyzdvihl Křižáky od polské autorky Zofie Kossakové a Velkou Fermatovu větu od Simona Singha (jejíž vynikající český překlad má na svědomí, mimo jiných, i „šéf“ DML-CZ dr. Rákosník). Aktuálně čtu Hory shora 2 od českého horolezce Radka Jaroše. A průběžně si opakovaně dávkuji Haškova Švejka.
Ptal se JAN KAŇKA kanka@kfbz.cz
Mgr. Vlastimil Krejčíř
je absolventem Fakulty informatiky Masarykovy univerzity a v současné době pracovníkem Ústavu výpočetní techniky Masarykovy univerzity v Brně, kde pracuje jako programátor a systémový administrátor v Knihovnicko-informačním centru. Dlouhodobě se intenzivně věnuje problematice elektronických informačních zdrojů, digitálních knihoven, repozitářů a technologií, které s touto oblastí souvisí. Jeho hlavním zaměřením je open-source systém DSpace, který se snaží v České republice propagovat a který při tvorbě digitálních knihoven dlouhodobě využívá. Jako vývojář se podílel např. na mezinárodně významných projektech České digitální matematické knihovny (DML-CZ) a Evropské digitální matematické knihovny (EuDML). V současnosti pracuje na tvorbě Digitální knihovny Filozofické fakulty Masarykovy univerzity. Vyvíjí také systém pro správu elektronických informačních zdrojů Portál EIZ, který je využíván na MU i v jiných institucích. Na Masarykově univerzitě je správcem systémů pro práci s elektronickými informačními zdroji (discovery service, linker).