Main content

VYUŽITÍ NOVÝCH TECHNOLOGIÍ: Webarchiv a vytěžování velkých dat

Využití nových technologií

MARKÉTA HRDLIČKOVÁ marketa.hrdlickova@nkp.cz

MARIE HAŠKOVCOVÁ marie.haskovcova@nkp.cz

Objem informací zveřejněných na internetu v současné informační společnosti narůstá enormním tempem. Komunikace ve webovém prostředí a sociálních médiích reflektuje a také významně ovlivňuje společenské dění. Protože vykazuje velkou nestabilitu, je archivace webových pramenů zásadní a její význam stále roste. Ve srovnání s tištěnými médii má webový obsah relativně malou trvalost.

Výzkumy uvádějí, že životnost webové stránky je okolo 100 dní. Informace se průběžně upravují, aktualizují, přesouvají jinam nebo zanikají. Pokud obsah webový archiv sklidí, dokáže k němu zajistit přístup i po zániku zdroje. Webové archivy se proto stávají důležitým článkem pro uchování „digitální paměti“ a představují cenný zdroj informací pro vzdělávání a výzkum.

Český webový archiv

Problematika webové archivace je ústředním tématem mnoha paměťových institucí. V České republice se archivaci webů věnuje webový archiv Národní knihovny ČR (NK) – Webarchiv. Zaměřuje se na sklízení, ukládání, ochranu a zajištění dlouhodobého přístupu k webovým zdrojům, čímž naplňuje funkci NK jakožto depozitní knihovny odpovědné za trvalé uchování fondu bohemikálních dokumentů. Unikátnost českého webového archivu spočívá v zaměření na národní obsah. Vzhledem k rozsáhlosti webu je při jeho archivaci klíčová otázka selekce zdrojů. Základním kritériem pro výběr je tedy jejich bohemikální charakter, jenž je definován teritoriálně, obsahově, autorsky či jazykově, přičemž předmětem archivace jsou výhradně dokumenty, které jsou volně přístupné na internetu. Legislativa, která definuje podmínky pro archivaci webových zdrojů v České republice, umožňuje NK tvorbu archivních kopií pro konzervační a archivační účely. Celý webový archiv aktuálně obsahuje přes 560 TB dat. Přestože archivuje pouze volně dostupný obsah, kopie všech webových zdrojů je možné prohlížet jen na speciálně určených terminálech v budově NK. Mimo ni jsou dostupné pouze licenčně ošetřené zdroje, což představuje méně než 0,4 % obsahu celého archivu.

V rámci tzv. celoplošné sklizně, která se snaží zachytit všechny zdroje na české doméně .cz, Webarchiv usiluje o zachycení obrazu českého webu v daném čase. Sklizeň se uskuteční alespoň jednou ročně. Jako výchozí seznam slouží url adresy (tzv. semínka) registrované na doméně .cz, které Webarchivu poskytuje společnost CZ.NIC. K dalším liniím akviziční strategie patří tvorba výběrových sklizní a tematických kolekcí.

Tematické kolekce zahrnují zdroje propojené společným tématem nebo událostí, které významně rezonují v prostředí českého internetu. Může se jednat o události pravidelné, např. volby, i nenadálé, jako je třeba šíření covidu-19 nebo válka na Ukrajině. Reflektována jsou však i dlouhodobější témata, například klimatická změna, nebo se sledují vybrané české zpravodajské zdroje. Posledním typem je sklizeň výběrová. Jedná se o kurátorsky zpracovanou kolekci zdrojů s kulturní, historickou, výzkumnou, případně další hodnotou napříč všemi tématy. Tato kolekce se buduje dlouhodobě a není podmíněná aktuálností nebo tematickým ohraničením. Vybrané zdroje se Webarchiv snaží licenčně ošetřit (licenční smlouvou nebo vystavením zdrojů pod licencí Creative Commons) a přijímá i návrhy zdrojů k archivaci od veřejnosti. Součástí akvizice je také archivace vybraných profilů na sociálních sítích, k nimž patří například veřejné profily politiků nebo novinářů.

Badatelské využití archivních dat

Webové prostředí integrující nové technologie umožňuje masivní komunikaci a sdílení informací. Jde o dosud nebývalý zdroj písemných a obrazových informací, v němž jsou zastoupeny nejrůznější oblasti společnosti. Webové archivy se tak stávají unikátními objemnými datasety, zajímavými pro další výzkum. Přestože Webarchiv NK uchovává český web a zpřístupňuje svá data více než dvacet let, je povědomí o jeho činnosti stále malé. V loňském roce realizoval v rámci institucionálního výzkumu dotazníkové šetření, jehož cílem bylo zmapovat povědomí akademické sféry o existenci a využití webových archivů, zjistit, zda badatelé s daty webových archivů pracují, případně získat nové podněty pro další vývoj.

Průzkum potvrdil, že povědomí o webových archivech není velké, informace o archivních datech a možnostech práce s nimi prostupují do vědecké sféry pozvolna, Webarchiv se proto snaží badatelům a paměťovým institucím vycházet vstříc. Dlouhodobou spolupráci navázal s Ústavem pro českou literaturu Akademie věd ČR v oblasti archivace literárních zdrojů. Začala v rámci projektu reflektujícího české literární dění na internetu, jehož výstupem se stala unikátní databáze českých literárních zdrojů, které mají archivní kopii ve Webarchivu. Vznikl cenný korpus, zahrnující publicistické a literární weby, periodika obsahující původní autorskou tvorbu, online mutace tištěných deníků a časopisů, univerzitní a knihovnické časopisy. Jak již bylo zmíněno, práci s daty však značně limituje legislativa omezující zpřístupňování archivních kopií. Proto Webarchiv hledá nové možnosti, jak svá data uživatelům poskytnout. Jednou z takových cest se stal i výzkumný projekt zaměřený na vytěžování dat z webového archivu.

Vytěžování velkých dat

Na projektu Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů, realizovaném v rámci programu na podporu aplikovaného výzkumu Ministerstva kultury ČR NAKI II v letech 2018–⁠2022, spolupracovala Národní knihovna ČR s Katedrou kybernetiky Fakulty aplikovaných věd Západočeské univerzity v Plzni a se Sociologickým ústavem Akademie věd ČR. Cílem projektu bylo vytvoření uživatelsky přívětivého prostředí pro práci s velkými daty. Zatímco výzkumné záměry kolegů ze Sociologického ústavu zastupovaly požadavky badatelské komunity na vývoj a funkčnost rozhraní, kolegové ze Západočeské univerzity navrhli řešení strojového zpracování dat. Zabývali se analýzou témat textového dokumentu a jejich automatické detekce na základě hlubokých neuronových sítí a rozpoznáváním informací z video nebo audio souborů. Rozhraní nazvané WACloud, které je badatelům dostupné v budově NK, pracuje s pokročilými postupy strojového učení. Oproti standardnímu vyhledávání údajů ve Webarchivu umožňuje prohledávání dat napříč archivem, resp. jeho definovanou částí, což dosud nebylo možné. Na základě fasetového a fulltextového vyhledávání tak mohou badatelé podle vlastních požadavků definovat a získat datasety pro další výzkum.

Webové archivy disponují velkým objemem archivních dat, a proto přirozeně vstupují do diskuse týkající se jejich využití a zpracování. V rámci mezinárodní komunity webových archivářů vznikají experimentální projekty a nástroje zapojující nástroje umělé inteligence a je zřejmé, že se stanou běžnou součástí pracovních postupů. Uplatnění naleznou při akvizici, organizaci, popisu, zpřístupnění či průzkumu dat z webových archivů v rozsahu, který není v lidských silách. Kromě nástrojů a projektů vznikají studie, které se snaží uchopit využití umělé inteligence v kontextu digitálních sbírek kulturních institucí nejen z hlediska technologického, procesního, ale i etického. Zapojení umělé inteligence do činnosti paměťových institucí v oblasti archivace webu patří k intenzivně řešeným tématům, o čemž svědčí mimo jiné třeba i zaměření jednoho z diskusních okruhů na konferenci WAC, pořádané mezinárodním konsorciem webových archivů IIPC, která proběhne 24.–26. 4. 2024 v Paříži. Rozhraní pro vytěžování dat WACloud patří k prvním pokusům zpracovávat velká data za použití strojového učení v českém webovém archivu a do budoucna lze očekávat další zapojování postupů umělé inteligence do jeho činnosti.

Použitá literatura:

– KVASNICA, J., A. PROKOPOVÁ, Z. VOZÁR a Z. KVAŠOVÁ (2019). Analýza českého webového archivu: provenience, autenticita a technické parametry. ProInflow, 11(1). https://doi.org/10.5817/ProIn2019-1-2

– HAŠKOVCOVÁ, M., L. SVOBODA a M. HRDLIČKOVÁ (2022). Používáte Webarchiv? Průzkum potřeb uživatelů českého webového archivu. ProInflow, 14(1–2). https://doi.org/10.5817/ProIn2022-2-2

– VOZÁR, Z., M. HAŠKOVCOVÁ a A. PROKOPOV, A. (2022). Internet jako pramen výzkumu: přístup k archivovaným webovým zdrojům a možnosti jejich zpracování. Teorie vědy, 44(1). https://teorievedy.flu.cas.cz/index.php/ tv/article/view/552

– SVOBODA, Luboš. Možnosti použití umělé inteligence pro webarchivační praxi. Online. E-zpravodaj Národní knihovny ČR. 2022, 9(1) [cit. 2023-10-30]. Dostupné z: https://www.nkp.cz/o-knihovne/zakladni-informace/vydane-publikace/soubory/ostatni/ez_2022_1.pdf