Hlavní obsah stránky
Co nabízí projekt Obálkyknih.cz
JIŘÍ NECHVÁTAL nechvatal@cbvk.cz
Projekt obálkyknih.cz asi netřeba dlouze představovat. Jejich služeb využívá většina knihoven v České republice. Tak snad jen krátce… Obálkyknih.cz se „narodily“ v roce 2008 v Moravské zemské knihovně (MZK) a v roce 2013 správu projektu převzala naše knihovna – Jihočeská vědecká knihovna v Českých Budějovicích. Prvním cílem projektu bylo stát se centrálním repozitářem obrázků obálek knih určených pro integraci do katalogů knihoven.
V posledních letech projekt prošel intenzivním vývojem, který umožnil rozšíření služeb – poskytování nejen obálek knih, ale také dalších prvků. V současnosti se jedná o:
- obálky knih a periodik – uložit obálku je však možno i u speciálních dokumentů – map, hudebnin, CD, DVD, ...
- obsahy knih a periodik – naskenované obsahy zpřístupněné v podobě PDF souborů,
- fulltexty obsahů – obsahy převedené na text pomocí technologie OCR a zpřístupněné pro indexaci knihovním systémem,
- komentáře a hodnocení – možnost stažení dostupných komentářů a zároveň i možnost exportu komentářů z jiných systémů na obálkyknih.cz a tím zpřístupnění ostatním knihovnám.
To všechno je dostupné v podobě jedné snadno použitelné služby pro automatizované knihovní systémy.
Několik čísel pro zajímavost:
- databáze aktuálně obsahuje cca 958 000 obálek a 133 000 obsahů českých a zahraničních publikací,
- hlavní servery jsou provozovány v Jihočeské vědecké knihovně v Českých Budějovicích (JVK), záložní server je umístěn v Moravské zemské knihovně v Brně,
- měsíčně hlavní server odbaví průměrně 55 milionů požadavků, cca 2 miliony denně, v průměru 20 dotazů za vteřinu,
- ve špičkách (9–15:00) odbavují servery 40–80 požadavků za vteřinu,
- denně je do databáze nově nahráno nebo je upraveno průměrně 250 dokumentů,
- denní přírůstek dat činí 3 GB, z nich se následně generují náhledy obálek v různých rozlišeních, PDF dokumenty s obsahy a rozpoznává se text pomocí OCR,
- 20 Mbit za vteřinu je datový tok ven ze serveru a na server, což představuje cca 85 % všech dat, která projdou internetovým připojením JVK.
Prvním zdrojem dat pro Obálkyknih.cz bylo stahování obálek od vydavatelů realizované na základě dohody sdružení SKIP s největšími vydavateli v ČR. V současnosti vydavatelé poskytují jen 1 % obálek. Největšími přispěvateli obálek jsou samy knihovny pomocí vlastního projektového programu (tzv. skenovacího klienta http://www.obalkyknih.cz/obalkyknih-scanner/), který byl uvolněn v září 2013. Skenovacího klienta používá v současnosti okolo 20 knihoven a na server poslaly již přes 240 000 obálek a obsahů (viz tab. 1). Zároveň je pro vkládání obálek dostupné webové rozhraní projektu (http://www.obalkyknih.cz/upload), které využívají individuální přispěvatelé.
V roce 2014 jsme na server importovali přes 55 000 obálek získaných z webového projektu antikvariaty.cz, pečlivě překontrolované studenty knihovnictví a pracovníky Ústřední knihovny FF MU. Vědecká knihovna v Olomouci zrušila svůj interní systém obálek a data byla taktéž importována na Obálkyknih.cz (cca 32 000 obálek). Pomocí vlastního rozhraní přispěla i 11 000 obálkami a obsahy Městská knihovna v Praze. Děkujeme všem zapojeným knihovnám za jejich práci a zveme ostatní knihovny ke spolupráci na skenování vlastních fondů.
V JVK skenujeme všechny nově nakoupené dokumenty a postupně na server ukládáme i starší fond. Již třetím rokem například spolupracujeme s místní střední školou a jejich studenti k nám v rámci bezplatné praxe chodí skenovat knihy. Díky jejich práci jsme do projektu přispěli již přibližně 20 000 obálkami a obsahy.
Rádi bychom touto cestou požádali všechny knihovny, aby si zkontrolovaly funkčnost synchronizace čísel ČNB se souborným katalogem ve svém knihovním systému. Obálkyknih.cz v současnosti obsahují přes 250 000 obálek, které lze propojit v katalogu pouze s tímto identifikátorem. Skenováním starších fondů toto číslo prudce narůstá, a pokud jej nemáte v systému implementováno, o hodně přicházíte. Server aktuálně podporuje řadu identifikátorů: ISBN, ISSN, číslo ČNB, OCoLC, EAN, vlastní identifikátor.
Co nového bylo v projektu vyvinuto v loňském roce?
• Systém komentářů a hodnocení
Interně na stránkách projektu fungovalo vkládání komentářů již dříve. Nicméně teď je možné pro knihovní systémy stahovat hodnocení a komentáře přímo ze serveru k jednotlivým titulům. Pokud knihovna provozuje i vlastní systém komentářů a hodnocení, je možné data nahrát na server Obálkyknih.cz a zpřístupnit ostatním knihovnám. API rozhraní zvládá vytvoření, načtení, update komentářů a případně i jejich zpětné smazání (pokud jsou nevhod-né). Každá knihovna může provozovat vlastní systém komentářů a hodnocení a náš server použít pouze jako zdroj dat. V JVK například mají právo ukládat hodnocení a komentáře pouze přihlášení uživatelé. Platí pravidlo, že jeden uživatel může přidat pouze jeden komentář ke konkrétnímu titulu. Do konce dne jej může upravovat. V noci je komentář odeslán na server Obálkyknih.cz a tím čtenář právo změny ztrácí. Samozřejmostí je možnost správce uložené příspěvky kontrolovat a v případě nevhodnosti skrýt v katalogu.
Na server Obálkyknih.cz se posílá s komentářem pouze název a sigla zdrojové knihovny. Žádná osobní data čtenáře.
Příklad komentáře na stránkách projektu: http://www.obalkyknih.cz/view?isbn=9788072266357
• Odolnost proti výpadkům – failover
V JVK považujeme projekt Obálkyknih.cz za klíčovou službu a využíváme ji nejen v katalogu, ale i v našich dalších systémech. Služba
Failover zajišťuje její dostupnost v případě výpadku primárního serveru – jeden server je umístěn v JVK a druhý v MZK. Služba je řešena aplikačně: aplikace kontroluje dostupnost primárního serveru a v případě jeho výpadku přepne stahování ze záložního serveru. V JVK je test dostupnosti serveru součástí každého dotazu do katalogu položeného libovolným čtenářem. Pokud primární obálkový server neodpoví do deseti vteřin, je prohlášen za nedostupný a obálky se stahují se serveru záložního. Po jedné hodině se testuje dostupnost původního zdroje, a pokud je v pořádku, obálky se opět stahují z primárního serveru. Výpadek tak čtenáři takřka nezaznamenají.
Tuto službu lze nasadit v jakémkoliv systému. Zatím ji však využívá jen okolo 5 % knihoven. Pro zájemce je na stránkách projektu dostupná dokumentace a praktické příklady použití.
• Obálky periodik a vícesvazkových děl
Ukládání obálek a obsahů periodik pomocí identifikátoru ISSN fungovalo již od počátku projektu Obálkyknih.cz. V databázi ale zůstala pouze poslední nahraná obálka a obsah. Záznamy se přemazávaly. Stejně tak i u vícesvazkových děl. Současné API serveru a skenovací klient umožňuje nahrát jednotlivé části monografie/číslo periodika pomocí parametrů:
• part_no – číslo části v případě monografie (podpole 245n), číslo vydání v případě periodika,
• part_name – název části v případě monografie (podpole 245p), nepoužívá se u periodika,
• part_year – rok vydání periodika, nepoužívá se u monografie,
• part_volume – ročník vydání periodika, nepoužívá se u monografie,
• part_note – textová identifikace části monografie, nebo periodika pro knihovní systémy, které nemají odděleně uložený rok/ročník/číslo.
Knihovní systém si pomocí parametrů dokáže stáhnout obálku a obsah konkrétního čísla periodika. Při zobrazení souborného záznamu se načte poslední dostupné vydání periodika. U svázaného ročníku se zobrazí první dostupné číslo, avšak zobrazit lze i všechna čísla. Každý knihovní systém si může zapracovat nastavení podle vlastních požadavků.
JVK v současnosti testuje zobrazení obálek a obsahů periodik v systému ARL. Zároveň začala do projektu Obálkyknih.cz přispívat skenováním periodik. Zveme všechny knihovny: přidejte se také…
Příklad zobrazení na stránkách projektu
- periodikum: 100+1 – http://www.obalkyknih.cz/view?isbn=0322-9629
- vícesvazkové dílo: Ottův slovník naučný nové doby – http://obalkyknih.cz/view?nbn=cnb000602512
• Fulltextové prohledávání obsahů dokumentů
Velký dosah pro čtenáře bude mít poslední novinka projektu. V případě titulů, u kterých bylo provedeno naskenování obsahu, poskytují
Obálkyknih.cz knihovním systémům obsah převedený pomocí OCR do textu. V JVK se fulltext stahuje společně s obálkami. Indexuje se lokálně do SOLR databáze a je zpřístupněn ve vyhledávání v katalogu pro čtenáře. K indexaci je použit tzv. stemming – snaží se indexovat základní tvar slova: například při zadání slov tónovaná malba, tónované malby, tónování malby najde to samé. Čtenář, který hledá pojem Jan Žižka, mohl dříve hledat pouze v názvu či popisu knihy. S touto funkcionalitou vyhledá i knihu České země v letech 1378–1437, která obsahuje kapitolu o Žižkovi, případně článek v historickém časopisu. V současnosti v JVK pracujeme na těsnějším zapojení do vyhledávání, aby bylo našim čtenářům maximálně dostupné.
Co plánujeme v roce 2015
V letošním roce chceme obohatit funkcionalitu Obálkyknih.cz o několik nových funkcí:
- obohatit záznamy autorit v knihovních katalozích o obrazové a jiné materiály, například fotografie osob, GPS souřadnice míst, www odkazy, …
- podpora obálek zvukových dokumentů a hudebnin včetně návrhu jednotné identifikace zvukových dokumentů (MC, CD, LP) a hudebnin, naimportujeme i přibližně 15 000 obálek zvukových dokumentů získaných od vydavatelství Supraphon,
- automatizované sklízení obsahů a obálek ze systému Kramerius včetně obohacování datového modelu obalkyknih.cz o URL na fulltext titulu v systému Kramerius navázaný na siglu knihovny (pro možný výběr zdroje), funkce umožní vytěžování dokumentů pořízených v rámci projektu NDK a projektů krajských digitalizací,
- automatická deduplikace záznamů podle identifikátorů – aby nedocházelo k ukládání shodných titulů získaných z různých zdrojů do více rozdílných záznamů, dotazy knihovních systémů budou přesnější,
- převzetí komentářů z jiných systémů nebo sklízení dalších zdrojů dat (podle individuálních dohod s provozovateli).
Odkazy na projekt, technická dokumentace: http://www.obalkyknih.cz, https://github.com/cbvk/obalkyknih/wiki. Dotazy a připomínky prosím posílejte na mail info@obalky knih.cz.Děkujeme všem spolupracujícím knihovnám a institucím a těšíme se na další knihovny. Výsledky práce využijí všichni.