Hlavní obsah stránky
VYUŽITÍ NOVÝCH TECHNOLOGIÍ: Projekt Obálkyknih.cz
JIŘÍ NECHVÁTAL nechvatal@cbvk.cz
Projekt Obálkyknih.cz (www.obalkyknih.cz) slouží knihovnám a obdobným institucím v České republice k obohacování obsahu jejich katalogu o rozšiřující informace ke všem typům dokumentů. Ostatně dnes by se asi jen stěží našla knihovna, která služeb projektu nevyužívá. Autor článku je správcem projektu Obálkyknih.cz a pracovníkem Jihočeské vědecké knihovny v Českých Budějovicích.
Nápad se zrodil v roce 2008 díky projektu Moravské zemské knihovny v Brně (MZK) v rámci programu VISK 3 Ministerstva kultury. Původním cílem knihovny bylo stát se pouze centrálním depozitářem obrázků obálek knih. Na technickém řešení se v počátcích podílela také Vědecká knihovna v Olomouci. V letech 2011–2012 byla správcem projektu Městská knihovna v Praze. V roce 2013 MZK přenesla práva k projektu na Sdružení knihoven ČR (SDRUK), které následně předalo oprávnění k provozování projektu a jeho dalšímu vývoji Jihočeské vědecké knihovně v Českých Budějovicích (JVK). V následujích letech projekt prošel intenzivním vývojem, který umožnil rozšíření služeb.
Nabídka databáze
V současnosti naše databáze nabízí:
- obálky knih a periodik (uložit obálku je však možno i u speciálních dokumentů – map, hudebnin, CD, DVD aj.);
- obsahy knih a periodik (naskenované obsahy zpřístupněné v podobě PDF souborů);
- plné texty obsahů (obsahy převedené na text pomocí technologie OCR a zpřístupněné pro indexaci knihovním systémem);
- anotace (autorské, nakladatelské, ale i uživatelské popisy dokumentů pro snadnější výběr čtenáři);
- komentáře a hodnocení (možnost stažení dostupných komentářů a zároveň i možnost exportu komentářů z jiných systémů na Obálkyknih.cz, a tím zpřístupnění ostatním knihovnám);
- autority (obrazové a jiné materiály napojené na ID autority, např. fotografie osob, GPS souřadnice míst, www odkazy aj.);
- citace (citace podle normy ISO 690 generované z ověřených zdrojů či generované z vlastních dat knihoven).
Zdroje
Projekt čerpá data z několika zdrojů:
1) Stahování obálek dokumentů od nakladatelů: prvotní zdroj obálek, který byl realizován na základě dohody sdružení SKIP s největšími nakladateli v ČR. Nakladatelé se mohou sami zaregistrovat na stránkách projektu a zpřístupnit svá data. V současnosti tímto způsobem získáváme cca 15 % obálek.
2) Přispívání spolupracujícími knihovnami: projekt provozuje více než dva roky vlastní program (tzv. skenovací klient – http://www.obalkyknih.cz/obalkyknih-scanner/). Tento způsob využívá v současnosti cca 45 knihoven, na server již poslaly více než 570 000 stran obálek a obsahů. Jedná se o hlavní zdroj dat, který poskytuje cca 60 % obálek a obsahů. JVK skenuje všechny nově nakoupené dokumenty a postupně na server ukládáme i starší fond. Stejně tak postupuje několik dalších knihoven v ČR.
3) Webové rozhraní projektu: na adrese http://www.obalkyknih.cz/upload mohou individuální přispěvatelé zaslat obálky svých dokumentů. Rozhraní nepodporuje posílání obsahů.
4) Spolupracující webové portály: importy dat přes veřejné nebo individuální XML exporty. Spolupracujeme s portály: zbozi.cz, cbdb.cz, srovname.cz, ereading.cz, flexibook.cz, aj.
5) „Sklízení“ rozličných zdrojů dat: individuální importy z jiných systémů. Například jsme importovali přes 55 000 obálek získaných z webového projektu antikvariaty.cz a pečlivě překontrolovaných studenty knihovnictví a pracovníky Ústřední knihovny Filozofické fakulty Masarykovy univerzity; Vědecká knihovna v Olomouci zrušila svůj interní systém obálek a data byla taktéž importována na Obálkyknih.cz (cca 32 000 obálek), Národní technická knihovna přispěla cca 15 000 obálkami periodik a zahraničních publikací, vlastním rozhraním přispěla i cca 11 000 obálkami a obsahy a 55 000 hodnoceními Městská knihovna v Praze, Souborný katalog Lanius poskytl přes 6900 obálek.
Mezi největší přispěvatele do projektu patří vedle JVK knihovna Filozofické fakulty Masarykovy univerzity v Brně, Národní knihovna ČR, Vědecká knihovna v Olomouci, Slovanská knihovna a MZK.
Faktografie
Pár zajímavých informací o systému:
- Databáze aktuálně obsahuje cca 1 431 000 obálek a 241 000 obsahů českých a zahraničních publikací.
- Hlavní servery jsou provozovány v JVK, záložní server je umístěn v MZK.
- V případě výpadku jednoho ze serverů mají knihovní systémy možnost přejít během několika vteřin na záložní stroj bez ztráty dostupnosti služeb pro své čtenáře.
- Měsíčně hlavní server odbaví průměrně 55 miliónů požadavků, cca 2 milióny denně, průměrně 20 dotazů za vteřinu.
- Ve špičkách (9:00–15:00 hod.) odbavují servery 40–80 požadavků za vteřinu.
- Denně je do databáze nově nahráno nebo je upraveno průměrně 500 dokumentů.
- Další dokumenty se automaticky sklízejí z externích zdrojů – nakladatelé, vydavatelé, webové portály…
- Denní přírůstek dat činí 6 GB, z nich se následně generují náhledy obálek v různých rozlišeních, PDF dokumenty s obsahy a rozpoznává se text pomocí OCR.
- 20 Mbit za vteřinu je datový tok ze serveru a na server, což představuje cca 85 % všech dat, která projdou internetovým připojením JVK.
Bližší popis fungováni služby a technickou dokumentaci naleznete na stránkách projektu (http://www.obalkyknih.cz/), příp. se můžete spojit s provozovatelem nebo dodavatelem svého knihovního systému.
Novinky
V posledních dvou letech došlo k propracování funkčnosti projektu Obálkyknih.cz, přibylo několik nových funkcí:
- Implementace citací podle normy ČSN ISO 690 – je řešeno dvěma způsoby:
- A) Sklízení bibliografických záznamů ze Souborného katalogu ČR s následným vytvořením citace. Uloženy jsou výsledné citace, které jsou poskytovány pomocí API obálkyknih.cz.
- B) Možnost citování i jiných typů dokumentů, jako jsou např. články, mapy apod., které server Obálkyknih.cz generuje podle pravidel na základě dat zaslaných knihovnou.
- Automatizované sklízení obsahů a obálek ze systému Kramerius s možností provázat s konkrétní knihovnou – siglou. Toto umožní vytěžování dokumentů pořízených v rámci projektu Národní digitální knihovny (NDK) a dalších projektů (např. krajské digitalizace).
- Vylepšení „skenovacího klienta“ (program sloužící pro přispívání do projektu) pro zrychlení a zefektivnění práce při odesílaní obálek a obsahů na server. Nově klient podporuje skenování dvojstran, resp. menších formátů monografií, skenování na pozadí, více typů skenerů a má větší kompatibilitu se staršími skenery, umožňuje ukládat naskenované obrázky do vlastní složky, skenovat a odesílat hlavní autority titulu na server aj.
- Obohacení záznamů autorit v knihovních katalozích o obrazové a jiné materiály, např. fotografie osob, www odkazy aj. Byla sklizena databáze WikiMedia a testovány další zdroje. Náhledy jsou dostupné ve více rozlišeních. Aktuálně databáze obsahuje přes 47 000 fotografií autorit. Díky automatizovanému sklízení a implementaci funkce odesílání autorit do skenovacího klienta přibývají měsíčně stovky nových fotografií.
- Sklízení dalších zdrojů dat podle individuálních dohod s provozovateli: portál zboží.cz, srovnáme.cz, ereading.cz, flexibook.cz aj.
- Převzetí více než 3,7 miliónu hodnocení u cca 67 000 titulů z portálu cbdb.cz.
- Podpora obálek zvukových dokumentů a hudebnin včetně návrhu jednotné identifikace zvukových dokumentů (MC, CD, LP) a hudebnin.
- Automatická deduplikace záznamů podle identifikátorů, aby nedocházelo k ukládání shodných titulů získaných z různých zdrojů do více rozdílných záznamů. Dotazy knihovních systémů tak budou přesnější.
- Implementace větších náhledů o velikosti 510 px.
- Vyšší rozlišení PDF souborů s obsahy pro kvalitnější zobrazení.
- Technologie Push API, umožňující knihovním systémům zrychlit načítání (aktualizaci) dostupných informací obohacujících knižní katalogy. Kladný dopad se projeví i při vyhledávání ve fulltextech obsahů poskytovaných projektem.
- Technologie OAI-PMH, umožňující knihovním systémům opačný postup informování o změnách, kde bude o zaslání změn žádat samotný knihovní systém. Díky časovým známkám u záznamů lze kdykoliv opakovaně stáhnout všechny potřebné záznamy.
Rozvoj nových funkcí je závislý na získání prostředků z veřejných projektů (VISK 3) a také na ochotě a spolupráci knihoven a paměťových institucí. JVK ve spolupráci s MZK investuje do projektu značné vlastní prostředky a množství práce. Držte nám palce a zapojte se do spolupráce na projektu. Výsledky práce může využívat nejen více než 6000 knihoven v ČR a jejich uživatelé, ale také muzea, archivy a další instituce a zájemci. Děkujeme.
Odkazy na projekt, technická dokumentace: http://www.obalkyknih.cz, https://github.com/cbvk/obalkyknih/wiki
Dotazy a připomínky, prosím, posílejte na: info@obalkyknih.cz