Hlavní obsah stránky

VYUŽITÍ NOVÝCH TECHNOLOGIÍ: Projekt Obálkyknih.cz

JIŘÍ NECHVÁTAL nechvatal@cbvk.cz

Projekt Obálkyknih.cz (www.obalkyknih.cz) slouží knihovnám a obdobným institucím v České republice k obohacování obsahu jejich katalogu o rozšiřující informace ke všem typům dokumentů. Ostatně dnes by se asi jen stěží našla knihovna, která služeb projektu nevyužívá. Autor článku je správcem projektu Obálkyknih.cz a pracovníkem Jihočeské vědecké knihovny v Českých Budějovicích.

Nápad se zrodil v roce 2008 díky projektu Moravské zemské knihovny v Brně (MZK) v rámci programu VISK 3 Ministerstva kultury. Původním cílem knihovny bylo stát se pouze centrálním depozitářem obrázků obálek knih. Na technickém řešení se v počátcích podílela také Vědecká knihovna v Olomouci. V letech 2011–2012 byla správcem projektu Městská knihovna v Praze. V roce 2013 MZK přenesla práva k projektu na Sdružení knihoven ČR (SDRUK), které následně předalo oprávnění k provozování projektu a jeho dalšímu vývoji Jihočeské vědecké knihovně v Českých Budějovicích (JVK). V následujích letech projekt prošel intenzivním vývojem, který umožnil rozšíření služeb.

Nabídka databáze

V současnosti naše databáze nabízí:

  • obálky knih a periodik (uložit obálku je však možno i u speciálních dokumentů – map, hudebnin, CD, DVD aj.);
  • obsahy knih a periodik (naskenované obsahy zpřístupněné v podobě PDF souborů);
  • plné texty obsahů (obsahy převedené na text pomocí technologie OCR a zpřístupněné pro indexaci knihovním systémem);
  • anotace (autorské, nakladatelské, ale i uživatelské popisy dokumentů pro snadnější výběr čtenáři);
  • komentáře a hodnocení (možnost stažení dostupných komentářů a zároveň i možnost exportu komentářů z jiných systémů na Obálkyknih.cz, a tím zpřístupnění ostatním knihovnám);
  • autority (obrazové a jiné materiály napojené na ID autority, např. fotografie osob, GPS souřadnice míst, www odkazy aj.);
  • citace (citace podle normy ISO 690 generované z ověřených zdrojů či generované z vlastních dat knihoven).

Zdroje

Projekt čerpá data z několika zdrojů:

1) Stahování obálek dokumentů od nakladatelů: prvotní zdroj obálek, který byl realizován na základě dohody sdružení SKIP s největšími nakladateli v ČR. Nakladatelé se mohou sami zaregistrovat na stránkách projektu a zpřístupnit svá data. V současnosti tímto způsobem získáváme cca 15 % obálek.

2) Přispívání spolupracujícími knihovnami: projekt provozuje více než dva roky vlastní program (tzv. skenovací klient – http://www.obalkyknih.cz/obalkyknih-scanner/). Tento způsob využívá v současnosti cca 45 knihoven, na server již poslaly více než 570 000 stran obálek a obsahů. Jedná se o hlavní zdroj dat, který poskytuje cca 60 % obálek a obsahů. JVK skenuje všechny nově nakoupené dokumenty a postupně na server ukládáme i starší fond. Stejně tak postupuje několik dalších knihoven v ČR.

3) Webové rozhraní projektu: na adrese http://www.obalkyknih.cz/upload mohou individuální přispěvatelé zaslat obálky svých dokumentů. Rozhraní nepodporuje posílání obsahů.

4) Spolupracující webové portály: importy dat přes veřejné nebo individuální XML exporty. Spolupracujeme s portály: zbozi.czcbdb.czsrovname.czereading.czflexibook.cz, aj.

5) „Sklízení“ rozličných zdrojů dat: individuální importy z jiných systémů. Například jsme importovali přes 55 000 obálek získaných z webového projektu antikvariaty.cz a pečlivě překontrolovaných studenty knihovnictví a pracovníky Ústřední knihovny Filozofické fakulty Masarykovy univerzity; Vědecká knihovna v Olomouci zrušila svůj interní systém obálek a data byla taktéž importována na Obálkyknih.cz (cca 32 000 obálek), Národní technická knihovna přispěla cca 15 000 obálkami periodik a zahraničních publikací, vlastním rozhraním přispěla i cca 11 000 obálkami a obsahy a 55 000 hodnoceními Městská knihovna v Praze, Souborný katalog Lanius poskytl přes 6900 obálek.

Mezi největší přispěvatele do projektu patří vedle JVK knihovna Filozofické fakulty Masarykovy univerzity v Brně, Národní knihovna ČR, Vědecká knihovna v Olomouci, Slovanská knihovna a MZK.

Faktografie

Pár zajímavých informací o systému:

  • Databáze aktuálně obsahuje cca 1 431 000 obálek a 241 000 obsahů českých a zahraničních publikací.
  • Hlavní servery jsou provozovány v JVK, záložní server je umístěn v MZK.
  • V případě výpadku jednoho ze serverů mají knihovní systémy možnost přejít během několika vteřin na záložní stroj bez ztráty  dostupnosti služeb pro své čtenáře.
  • Měsíčně hlavní server odbaví průměrně 55 miliónů požadavků, cca 2 milióny denně, průměrně 20 dotazů za vteřinu.
  • Ve špičkách (9:00–15:00 hod.) odbavují servery 40–80 požadavků za vteřinu.
  • Denně je do databáze nově nahráno nebo je upraveno průměrně 500 dokumentů.
  • Další dokumenty se automaticky sklízejí z externích zdrojů – nakladatelé, vydavatelé, webové portály…
  • Denní přírůstek dat činí 6 GB, z nich se následně generují náhledy obálek v různých rozlišeních, PDF dokumenty s obsahy a rozpoznává  se text pomocí OCR.
  • 20 Mbit za vteřinu je datový tok ze serveru a na server, což představuje cca 85 % všech dat, která projdou internetovým připojením JVK.

Bližší popis fungováni služby a technickou dokumentaci naleznete na stránkách projektu (http://www.obalkyknih.cz/), příp. se můžete spojit s provozovatelem nebo dodavatelem svého knihovního systému.

Novinky

V posledních dvou letech došlo k propracování funkčnosti projektu Obálkyknih.cz, přibylo několik nových funkcí:

  • Implementace citací podle normy ČSN ISO 690 – je řešeno dvěma způsoby:
  • A)  Sklízení bibliografických záznamů ze Souborného katalogu ČR s následným vytvořením citace. Uloženy jsou výsledné citace, které jsou poskytovány pomocí API obálkyknih.cz.
  • B)  Možnost citování i jiných typů dokumentů, jako jsou např. články, mapy apod., které server Obálkyknih.cz generuje podle pravidel na základě dat zaslaných knihovnou.
  • Automatizované sklízení obsahů a obálek ze systému Kramerius s možností provázat s konkrétní knihovnou – siglou. Toto umožní vytěžování dokumentů pořízených v rámci projektu Národní digitální knihovny (NDK) a dalších projektů (např. krajské digitalizace).
  • Vylepšení „skenovacího klienta“ (program sloužící pro přispívání do projektu) pro zrychlení a zefektivnění práce při odesílaní obálek a obsahů na server. Nově klient podporuje skenování dvojstran, resp. menších formátů monografií, skenování na pozadí, více typů skenerů a má větší kompatibilitu se staršími skenery, umožňuje ukládat naskenované obrázky do vlastní složky, skenovat a odesílat hlavní autority titulu na server aj.
  • Obohacení záznamů autorit v knihovních katalozích o obrazové a jiné materiály, např. fotografie osob, www odkazy aj. Byla sklizena databáze WikiMedia a testovány další zdroje. Náhledy jsou dostupné ve více rozlišeních. Aktuálně databáze obsahuje přes 47 000 fotografií autorit. Díky automatizovanému sklízení a implementaci funkce odesílání autorit do skenovacího klienta přibývají měsíčně stovky nových fotografií.
  • Sklízení dalších zdrojů dat podle individuálních dohod s provozovateli: portál zboží.czsrovnáme.czereading.czflexibook.cz aj.
  • Převzetí více než 3,7 miliónu hodnocení u cca 67 000 titulů z portálu cbdb.cz.
  • Podpora obálek zvukových dokumentů a hudebnin včetně návrhu jednotné identifikace zvukových dokumentů (MC, CD, LP) a hudebnin.
  • Automatická deduplikace záznamů podle identifikátorů, aby nedocházelo k ukládání shodných titulů získaných z různých zdrojů do více rozdílných záznamů. Dotazy knihovních systémů tak budou přesnější.
  • Implementace větších náhledů o velikosti 510 px.
  • Vyšší rozlišení PDF souborů s obsahy pro kvalitnější zobrazení.
  • Technologie Push API, umožňující knihovním systémům zrychlit načítání (aktualizaci) dostupných informací obohacujících knižní katalogy. Kladný dopad se projeví i při vyhledávání ve fulltextech obsahů poskytovaných projektem.
  • Technologie OAI-PMH, umožňující knihovním systémům opačný postup informování o změnách, kde bude o zaslání změn žádat samotný knihovní systém. Díky časovým známkám u záznamů lze  kdykoliv opakovaně stáhnout všechny potřebné záznamy.

Rozvoj nových funkcí je závislý na získání prostředků z veřejných projektů (VISK 3) a také na ochotě a spolupráci knihoven a paměťových institucí. JVK ve spolupráci s MZK investuje do projektu značné vlastní prostředky a množství práce. Držte nám palce a zapojte se do spolupráce na projektu. Výsledky práce může využívat nejen více než 6000 knihoven v ČR a jejich uživatelé, ale také muzea, archivy a další instituce a zájemci. Děkujeme.

Odkazy na projekt, technická dokumentace: http://www.obalkyknih.czhttps://github.com/cbvk/obalkyknih/wiki

Dotazy a připomínky, prosím, posílejte na: info@obalkyknih.cz