Main content

Vyhledávání nové generace

MAREK ČEJKA marekcejka@seznam.cz

Následující příspěvek vychází z autorovy bakalářské práce Vyhledávací systémy no­vé generace1, která byla obhájena v červnu letošního roku na ÚISK FF Univerzity Karlovy v Praze.

Motivace pro novou generaci vyhledávání

Knihovny mnohdy vynakládají velké prostředky, aby svým čtenářům nabídly co největší množství elektronických zdrojů, jejichž cena se často každým rokem zvyšuje. Na pozadí těchto nákupů zcela jistě stojí přání, aby byly tyto zdroje v co největší míře využívány, protože proč by je jinak měla knihovna předplácet? Aby je ovšem uživatelé knihoven využívali, musejí být schopni je objevit. A jak se ukazuje, v dnešní době čím dál více záleží také na tom, aby je objevili co nejrychleji a nejsnadněji (Vaughan, 2011a).

Uživatelé dnešní doby jsou z používání internetových vyhledávačů typu Google zvyklí na jednoduché, rychlé vyhledávání poskytující oka­­m­žité výsledky, a knihovna (nebo jí poskytované služby) pro ně často nepředstavuje výchozí bod, kde začínají vyhledávat informace. Velice dobrý popis takové situace prezentuje následující citace z výzkumu o vylepšování uživatelského přístupu ke knihovním katalogům: „Lidé nejenže používají informace, které je snadné najít; oni dokonce používají informace, o kterých vědí, že jsou málo kvalitní a méně hodnověrné – dokud to nevyžaduje přílišnou námahu je najít –, spíše než by použili informace, o kterých vědí, že jsou kvalitnější a hodnověrnější, ale je těžší je najít.“ (Bates, 2003, s. 4)

Jak již bylo řečeno, knihovny vyhrazují velkou část svých finančních zdrojů na předplácení odborných databází a dalších komerčních elektronických zdrojů. Často pak také pozorně sledují statistiky prozrazující, jak jsou tyto zdro­je využívány. Zdroje, o které je ze strany uživatelů zájem malý, je pak těžké obhájit při rozhodování, zda jejich předplatné o rok prodloužit.

Proto by knihovny měly věnovat pozornost všem způsobům, jak pro své uživatele zlepšit přístup k celé šíři zdrojů a především k informacím, které obsahují. Protože, „aby byl obsah využíván, musí být možné jej objevit – a pro mnoho dnešních uživatelů snadné jej objevit.“ (Vaughan, 2011a, s. 8)

Web scale discovery – nový přístup k vyhledávání

Okamžité vyhledávání napříč všemi zdroji knihovny pomocí jednoho jediného okénka – toto a ještě něco navíc slibuje nový přístup k vyhledávání skrývající se pod anglickým novotvarem web scale discovery. Myšlenka existující již od vzniku federativního vyhledávání, ovšem nyní i s rychlostí a uživatelskou přívětivostí Googlu.

Inovativnost web scale discovery nespočívá v technologiích, na kterých jsou nové systémy postaveny, nýbrž na novém způsobu přístupu k celé podstatě vyhledávání. Namísto prohledávání jednotlivých roztroušených databází prostřednictvím jednoho unifikovaného rozhraní stojí podstata těchto nových systémů na prohle­dávání jednoho ohromného indexu (rejstříku) obsahu sestaveného jednak z komerčních elektronických informačních zdrojů, na základě dohod tvůrců web scale discovery systémů s vydavateli a poskytovali tohoto obsahu, dále co největšího množství volně dostupných elektronických zdrojů a nakonec lokálních zdrojů knihovny, jako jsou katalogy, digitální knihov­ny, repozitáře a podobně (Coufalová, 2009; Vaughan, 2012).

Možnost do různé míry indexovat obsah ze všech lokálních zdrojů a současně také moder­ní a přívětivější uživatelské rozhraní přinášejí už OPACy (veřejně přístupné on-line katalogy) nové generace od doby svého vzniku na začátku minulého desetiletí, ale právě indexování i vzdá­leně uloženého obsahu a vytvoření jednotného centrálního indexu prakticky všech zdrojů je to, čím se od nich novější systémy typu web scale discovery odlišují.

Pro web scale discovery systémy je typické, že jsou nabízeny spíše metodou software jako služba („software as a service“) než jako software pro lokální implementaci (Breeding, 2012a). Toto řešení mimo jiné umožňuje, že je možné rozsah poskytovaných služeb neustále rozšiřovat.

Definice web scale discovery

S tím, jak více a více knihoven spouští v ostrých nebo testovacích verzích web scale discovery systémy hlavních komerčních poskytovatelů, je pravděpodobné, že se – především zahraniční – uživatelé knihoven již s některou z těchto služeb setkali. Vyhledávání zdrojů prostřednictvím jediného vyhledávacího okna pro ně není díky zkušenostem s vyhledávači typu Google žádná novinka – naopak je to něco, co již při kontaktu s knihovnou a jejími zdroji v dnešní době očekávají (Hoeppner, 2012). A tak se nejspíše ani nepozastaví nad tím, že jde v rámci knihoven o něco revolučního či přinejmenším evolučního. Samotný termín web scale discovery by však těmto uživatelům nejspíše nic neřekl.

Abychom přesněji pochopili podstatu těchto systémů, které přinášejí knihovnám zcela nový přístup k vyhledávání, je nutné si je přesněji vymezit. Terminologie web scale discovery v do­bě vytváření mé práce nebyla nikterak pevně ukotvená, proto budou v následujících řádcích představeny především definice jednotlivých autorů, kteří se fenoménem web scale discovery začali jako jedni z prvních seriózně zabývat.

Ve Spojených státech amerických Národní organizace pro tvorbu norem NISO (National Information Standards Organization) ustanovila pracovní skupinu Open Discovery Initiave, která měla za úkol vytvořit normu NISO RP-19 typu „doporučené praxe“, jejímž cílem je „definovat nejlepší praktiky pro knihovní discovery systémy nové generace, které jsou založené na indexovaném vyhledávání“ (National Information Standards Organization, 2013). Projekt zahájený v srpnu roku 2011 měl termín ukončení stanovený na srpen roku 2013, tedy až po dokončení mé bakalářské práce. Proto jsem bohužel nemohl jeho výstupy využít.

Web scale

Termín web scale (či web-scale) podle Marshal­la Breedinga (2012a) poprvé zařadil do knihovnického slovníku Lorcan Dempsey, viceprezident a hlavním stratég americké neziskové společnosti OCLC (Online Computer Library Center, Inc.), který na něj v lednu 2007 upozornil v příspěvku na svém blogu. Poukázal na to, jak jej již nějakou dobu využívají firmy typu Amazon ve spojení se svými novými internetovými výpočetními a úložnými službami. Termín web scale v takových případech odkazuje na to, že lze rozsah poskytovaných služeb rozšiřovat podle potřeby využití (Dempsey, 2007).

Společnost OCLC následně termín web scale začala používat v rámci svého konceptu glo-bálního poskytování služeb a produktů, jako je katalog WorldCat, později discovery systému WorldCat Local a především služby Web-Scale Management Services (dnes již pod názvem OCLC Worldshare Management Services) – prvního knihovního systému pro kooperativní správu. OCLC nicméně na termín web scale nedrží žádná autorská práva, a proto se začal rychle šířit a začaly jej přebírat i konkurenční společnosti, jako například Serials Solutions pro svůj discovery systém Summon.

Web scale discovery

Slovní spojení web scale tak postupně dalo vzniknout celému termínu web scale discovery, který byl ústředním tématem mé práce. Přesné definice tohoto pojmu se různí, neboť jde o velice novou oblast, a tak různí autoři přicházejí pokaždé s lehce odlišnými vymezeními. Všech­ny definice však spojují společné charakteristiky.

Jason Vaughan pro potřeby čísla časopisu Library Technology Reports, které je celé vě­nováno tematice web scale discovery, zmíněný termín definuje jako „službu schopnou rychle a souvisle vyhledávat ve velkém rozsahu předsklizeného2 a indexovaného obsahu“ (2011a, s. 6). Sám ale pro potřeby svého pozdějšího článku používá lehce odlišnou definici, což dokazuje, že jde skutečně o novou a stále se rozvíjející oblast: „Služby typu web-scale discovery jsou flexibilní služby, které poskytují schopnost v rámci ohromného skladiště obsahu tento obsah rychle a souvisle objevovat, poskytovat a řadit dle relevance.“ (2012, s. 32)

Jiní autoři pak v rámci definicí kladou důraz na fakt, že web scale discovery představuje spojení velkého centrálního indexu obsahu a nástavby v podobě tzv. „discovery layer“ (česky volně přeloženo jako „vrstva pro objevování“). Samotný centrální index je definován jako: „Sbírka předsklizených a zpracovaných metadat a plných textů, které tvoří prohledávatelný obsah web scale discovery služby.“ (Hoeppner, 2012) Discovery layer označuje uživatelské rozhraní a především samotný vyhledávací systém, který prohledává a zobrazuje obsah získaný ze zdrojů knihovny, v případě web scale discovery systémů především z centrálního indexu. Athe­na Hoeppnerová používá pro web scale discoverynásledující souhrnnou definici: „Předsklizený centrální index doplněný o discovery layer s bohatými funkcemi, poskytující jednotné vyhledávání v lokálních, otevřených i předplácených zdrojích knihovny.“ (Hoeppner, 2012, s. 7)

Třetí varianta definice web scale discovery pak klade důraz právě na zmiňovaný centrální index. Česká terminologická databáze knihovnictví a informační vědy uvádí termín web scale discovery jako jeden z pěti anglických ekvivalentů termínu „centralizované vyhledávání“, který definuje následovně: „Typ sjednoceného vyhledávání, v jehož průběhu vyhledávač místo prohledávání jednotlivých zdrojů realizuje dotaz nad jednotným vyhledávacím indexovým souborem. Technologické řešení je založeno na předem vytvořeném centrálním indexu pro všechny prohledávané zdroje.“ (KTD, c2009)

Ve srovnání s výše zmíněnou problematikou se pak již jako pouze marginální problém jeví otázka, zdali se termín má psát „web-scale discovery“ či „web scale discovery“, neboť zahraniční autoři i samotní tvůrci systémů používají jednou tu, jednou onu variantu. Z významového hlediska tato jazyková nejednotnost nehraje žádnou roli.

Obsah centrálních indexů

Ohromné centrální indexy předsklizeného obsahu jsou z velké části tím, co z web scale discovery systémů činí nový přístup k vyhledávání. Na rozdíl od federativního vyhledávání3, které na první pohled uživateli poskytuje stejnou služ­bu, jsou výsledky v případě vyhledávání v ce­n­trálním indexu zobrazeny takřka okamži­tě.

Obsah centrálního indexu se zpravidla sklá­dá ze sklizeného obsahu lokálních zdrojů knihovny (záznamy z katalogu a repozitářů) a především z obsahu získaného na základě licenčních dohod uzavřených s vydavateli, kteří umožní přístup ke svým metadatům, eventuál­ně plným textům, za účelem indexace.

Klasické vyhledávače typu Google pracují na podobném principu, avšak jejich práce je jednodušší v tom, že indexují volně přístupný obsah internetu, zatímco tvůrci web scale discovery systémů musejí pro své centrální indexy obsah získat licenčními dohodami s jednotlivými poskytovateli. Vzájemná rivalita existujících společností anebo nedůvěra vydavatelů k novému přístupu k vyhledávání pak vede k to­mu, že prakticky žádný z centrálních indexů neobsahuje veškerý obsah. Typicky se děje to, že producent discovery systému, který je zároveň vlastníkem některé databáze, neposkytuje obsah této databáze svým konkurentům, a tak je dostupný pouze v centrálním indexu jeho vlastního systému (Hoeppner, 2012).

To je jedním z největších problémů celého konceptu. V současné době proto musejí knihov­ny web scale discovery systém pečlivě vybírat nejen z hlediska nabízených funkcí, ale také tak, aby se obsah centrálního indexu co nejvíce kryl s obsahem, který si knihovna aktuálně jednotlivě předplácí a který považuje za důležitý pro své uživatele. Systém, který by neměl indexovaný obsah zrovna z té nejvíce využívané databáze v knihovně, by nesplnil svůj účel, protože knihovna by sice měla předplacené plné texty, ale v daném discovery systému by jejich záznamy (a tedy i ony plné texty) nikdo nenašel.

Díky tomu, že se stejné dokumenty mohou nacházet ve více různých databázích, se ovšem může stát, že centrální index obsahuje záznam z jedné databáze a přitom plný text si knihovna předplácí z jiné (té, se kterou jinak tvůrce discovery systému nemá uzavřenou licenční dohodu) – prostřednictvím linkovacího nástroje, který na plný text do správné databáze odkáže, se pak vše propojí.

Najít ten správný systém, který by odpovídal obsahovým požadavkům, je pro knihovny skutečně složité, a je proto nutné si od producenta systému předem vyžádat důkladnou komparační obsahovou analýzu (Vaughan, 2011b).

Úskalí konceptu web scale discovery a centrálních indexů

Přestože si knihovníci a odborníci využívající elektronické informační zdroje uvědomují, co se web scale discovery systémy snaží nabídnout, uvědomují si zároveň i jejich nedostatky a bojí se, že s nimi přijdou o některé funkce, na které jsou zvyklí ze své práce s tradičními systémy. Marshall Breeding (2012b) ve svém textu zmiňuje, že zatímco prvotní reakce běžných uživatelů na nové systémy bývají nadšené, mnoho knihovníků a odborných uživatelů je v některých případech vidí i jako krok zpět.

Přidávají se k nim i obavy poskytovatelů obsahu. Ti se bojí ztráty kontroly nad tím, v jaké výsledné podobě se jejich zdroje dostávají k uživatelům, a toho, aby nepoklesla jejich statistika využívání, což by mohlo vést k neprodloužení předplatného ze strany knihoven. Někteří vydavatelé a databázová centra raději nabízejí své zdroje pouze ve vlastním uživatelském rozhraní než v systémech jiných společností, kde nemohou nijak přímo ovlivnit pozici svého obsahu v rámci vyhledaných výsledků.

Linda Beebe, ředitelka pro databázi Psyc­INFO, významného zdroje z oboru psychologie, uvedla: „Pokud by PsycINFO bylo součástí discovery služeb, uživatelé by se mohli domnívat, že doopravdy prohledávají naši databázi, i když by se ve skutečnosti sotva dotkli jejího povrchu.“ (Kelley, 2012) Přesto je však databáze PsycINFO součástí systému EBSCO Discovery Service. K tomu ještě dodává: „EDS je jediný systém, který má integrovanou platformu pro doručování obsahu. Můžeme si být jistí, že pouze uživatelé, kteří mají licencovaný přístup k našemu obsahu, vidí záznam z Psyc­INFO a máme zaručeno, že systém využití posiluje, nikoli že je jenom nahrazuje.“ (Kelley, 2012) Pro přístup k záznamům databáze PsycINFO je nutné být nejen přihlášený do systému EDS, ale knihovna také musí databázi předplácet – jinak se v seznamu výsledků její záznamy nezobrazí.

Současná praxe zahraničních knihoven, které již některý z discovery systémů zavedly, bývá taková, že jej nabízejí jako primární přístup k nabízeným zdrojům, ale stále ještě ponechávají v činnosti staré katalogy a tradiční systémy pro použití knihovníky a dalšími uživateli se speciálními potřebami. Zatímco do vývoje web scale discovery systémůa discovery rozhraní (resp. OPACů nové generace) je investováno mnoho prostředků a úsilí, staré katalogy (OPACy druhé generace) již žádná vylepšení nečekají. Jde tedy pouze o krátkodobé až střednědobé řešení (Breeding, 2012b).

 

ODKAZY:

1) ČEJKA, Marek. Vyhledávací systémy nové generace. Praha, 2013. Bakalářská práce. Univerzita Karlova v Praze, Fakulta filozofická, Ústav informačních studií a knihovnictví.

2) „Předsklizené“ je českým překladem anglického originálu „pre-harvested“, který odkazuje na tzv. „harvesting“, metodu hromadného sběru dat, např. pro účel tvorby centrálního indexu.

3) Koncept federativního vyhledávání je založen na systému, který po zadání dotazu uživatelem prohledává zvlášť jednotlivé vzájemně nezávislé elektronické zdroje a výsledky zobrazuje v jednotném uživatelském rozhraní. Celý proces je ovšem zdlouhavý, může trvat až několik desítek vteřin. Jedním z těchto systémů je např. Metalib společnosti Ex Libris (Krejčíř, 2011).

SEZNAM ZDROJŮ:

  • BATES, Marcia J. Improving User Access to Library Catalog and Portal Information. [online]. June 1, 2003 [cit. 2013-04-16]. Dostupné z: http://www.loc.gov/catdir/bibcontrol/2.3BatesReport6-03.doc.pdf.
  • BREEDING, Marshall. Library Web-Scale. Computers in Libraries. 2012a, 32(1), 19–21. ISSN 1041-7915. Dostupný také komerčně ze systému EBSCOhost: http://www.ebscohost.com.
  • BREEDING, Marshall. Looking Forward to the Next Generation of Discovery Services. Computers in Libraries. 2012b, 32(2), 28–31. ISSN 1041-7915. Dostupný také komerčně ze systému EBSCOhost.com.
  • COUFALOVÁ, Jindřiška, Karolína KOŠŤÁLOVÁ a Hana NEMEŠKALOVÁ. Katalogy nové generace: analýza vybraných systémů z pohledu uživatele. Praha: Národní knihovna České republiky, 2009, 66 s. ISBN 978-80-7050-579-3.
  • DEMPSEY, Lorcan. Web scale. In: Lorcan Dempsey’s Weblog: On libraries, services and networks [online]. January 5, 2007 [cit. 2013-04-16]. Dostupné z: http://orweblog.oclc.org/archives/001238.html.
  • HOEPPNER, Athena. The Ins and Outs of Evaluating Web-scale Discovery Services. Computers in Libraries. 2012, 32(3), 6–13. ISSN 1041-7915. Dostupný také komerčně ze systému EBSCOhost: http://www.ebscohost.com.
  • KELLEY, Michael. Stakeholders Strive to Define Standards for Web-Scale Discovery Systems. The Digital Shift[online]. October 11, 2012 [cit. 2013-04-16]. Dostupné z: 
    http://www.thedigitalshift.com/2012/10/discovery/coming-into-focus-web-scale-discovery-services-face-growing-need-for-best-practices/.
  • KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online databáze]. Praha: Národní knihovna České republiky, © 2009 [cit. 12. února 2013]. Dostupná z: sigma.nkp.cz/cze/ktd.
  • National Information Standards Organization. NISO RP-19-201x Open Discovery Initiative (ODI).  NISO: How the information world connects [online]. © 2013 [cit. 2013-04-16]. Dostupné z: http://www.niso.org/apps/group_public/project/details.php?project_id=113.
  • VAUGHAN, Jason. Chapter 1: Web Scale Discovery What and Why? Library Technology Reports. 2011a, 47(1), 5–11. ISSN 0024-2586. Dostupný také komerčně ze systému EBSCOhost: http://www.ebscohost.com.
  • VAUGHAN, Jason. Chapter 6: Differentiators and A Final Note. Library Technology Reports. 2011b, 47(1), 48–53. ISSN 0024-2586. Dostupný také komerčně ze systému EBSCOhost: http://www.ebscohost.com.
  • VAUGHAN, Jason. Investigations into Library Web-Scale Discovery Services. Information Technology & Libraries. 2012, 31(1), 32–82. ISSN 0730-929