Hlavní obsah stránky
Český národní korpus
VĚRA SCHMIEDTOVÁ Vera.Schmiedtova@seznam.cz
Úvod místo perexu
„Jó, knihy pro Korpus, ty nemusíte zpracovávat, ty se evidují na spotřebu, oni je tam stříhaj a řežou a skenujou a pak to zpracovávají do těch korpusů,“ to nám po léta tvrdila kolegyně, která má u nás na fakultě na starosti evidenci knih. Knihy pořízené tzv. „na spotřebu“ nepodléhají revizi a knihovny je nemusí skladovat; příkladem mohly být třeba právě knihy pro Ústav Českého národního korpusu. Kolegyně je z nás služebně nejstarší, tudíž nebyl důvod jí nevěřit, dokud jsme neoslovili kolegy přímo z Korpusu, jestli by nám o tom nenapsali nějaký vtipný článek, jak kupujeme knihy proto, abychom je následně rozstříhali apod. Ukázalo se ale, že to celé byla jenom jakási urban legend čili městská legenda! Pro potřeby vytváření korpusů se knihy vůbec nestříhají, neničí a obvykle ani neskenují, ale prostě se sbírají elektronické texty přímo od nakladatelů. Nejen o tom je nakonec i článek Věry Schmiedtové, která byla u toho, když se s českým korpusem začínalo.
JAN KAMENICKÝ Jan.Kamenicky@ff.cuni.cz
Pojem „korpus“
Pro mnohé čtenáře časopisu Čtenář bude korpus zřejmě neznámým pojmem. Náš nejúplnější Slovník spisovného jazyka českého, zpracovávaný a vydávaný v letech 1960 až 1971, definuje toto slovo následovně: korpus – ozvučná skříň smyčcových nástrojů; armádní sbor. Akademický slovník cizích slov, který vyšel poprvé v roce 1995, už reaguje na rozšíření významu: korpus je celek, soupis, sbírka; rozsáhlý soubor elektronicky uložených jazykových textů nebo jejich částí určený k vědeckému výzkumu jazyka; ozvučná skříň; trubice s roztrubem; pečený polotovar pro cukrářské výrobky určený k dalšímu upravování; tělo ukřižovaného Krista bez kříže. Význam „našeho korpusu“ je samozřejmě ten tučně zvýrazněný.
I já jsem se s tímto významem slova korpus setkala teprve někdy v roce 1988, kdy jsem dostala od významné anglické lexikografky Sue Atkinsové knihu Looking Up. Byl to popis prvního anglického výkladového slovníku, který vznikl na bázi korpusu. Proč mě tahle problematika zajímala? Měla jsem v Ústavu pro jazyk český na starosti lexikografický archiv, na základě kterého vznikly všechny akademické výkladové slovníky současné češtiny. Archiv nikdo v té době novými excerpty nedoplňoval a bylo jasné, že ve světě se už asi píší slovníky jinak…
Budování českého korpusu
Hned v roce 1990, kdy se otevřely hranice, nejen fyzické, ale i informační, jsme se začali snažit o vybudování českého korpusu, na kterém by mohl vzniknout nový výkladový slovník, který už byl nezbytně potřeba. Pro naši práci bylo důležité, že většina nakladatelství, vydavatelství, redakcí a tím i autorů přešla od papírového zpracování svých textů k počítačům. Bylo to postupné, ale přesto bleskové. Kde byla doba psacích strojů? Tehdy jsme ještě netušili, že jednou přijde doba tabletů a chytrých telefonů. V začátcích naší činnosti jsme za klíčové pokládali získávání elektronických textů, dostatečnou paměť počítačů, kam jsme své texty a potom i korpusy ukládali, a vyhledávací program, který by nám umožnil se ve velkém množství textů vyznat.
Přípravné organizační práce k budování českého korpusu spočívaly především v propojování lidí, které by budoucí korpus zajímal a kteří ho potřebovali ke své práci, a v hledání finančních prostředků na jeho budování. Hledali jsme i instituci, která by budoucí zájmovou „korpusovou“ skupinu, Počítačový fond češtiny, přijala pod svá křídla. V Ústavu pro jazyk český jsme bohužel neuspěli. Nakonec se nás ujala Filozofická fakulta Univerzity Karlovy a v roce 1994 tam byl založen Ústav Českého národního korpusu (ÚČNK).
Od té doby se samozřejmě mnohé změnilo, narostl počet ústavních zaměstnanců, ústav získal důstojné pracovní prostory, rozšířilo se jeho pole působnosti, budují se korpusy psaného i mluveného jazyka, korpusy paralelní, to znamená, že je možné jev, který uživatele zajímá, hledat v korpusech různých jazyků. Buduje se také korpus staré češtiny a tzv. autorské korpusy. Ústav vlastní autorský korpus díla Karla Čapka, jehož elektronické texty poskytl Městské knihovně v Praze, kde jsou bezplatně čtenářům k dispozici. Dále pak korpus textů Bohumila Hrabala. Na základě těchto korpusů vznikly frekvenční slovníky obou autorů. Existuje i korpus Rudého práva, který se stal základem frekvenčního slovníku totalitního jazyka. Je možné se na ně podívat na stránkách www.korpus.cz.
Jak se získávají texty
Co se ale na internetu nedozvíte, je to, jak se pro korpusy získávají texty. Pro jednoduchost budeme popisovat jen sběr pro korpus psaného jazyka. Základem jsou texty elektronické, tedy počítačově čitelné. Pokud jsou kniha nebo text pouze v tištěné papírové podobě, je nutné je pro naši potřebu digitalizovat, což je práce nákladná jak časově, tak finančně. Takových textů proto Český národní korpus obsahuje minimum. Zde bych ráda zdůraznila, že pokud se kniha digitalizuje, nerozřezává se, ani se jinak neničí, jak by se třeba někdo mohl mylně domnívat.
Protože jsou elektronické texty pro činnost ÚČNK klíčové, hned po jeho založení jsme rozjeli rozsáhlou akci sběru textů. Bylo nutné pokrýt všechny druhy textů, které obvykle členíme do tří kategorií: beletrie, odborná literatura a publicistika, tedy noviny a časopisy. Zpočátku se nám zdály všechny kategorie stejně obtížně dosažitelné, později se ukázalo, že nejsnáze se dají získávat texty novin a časopisů. Beletrie a odborné texty vyžadovaly osobní jednání s jednotlivými redakcemi a nakladatelstvími.
Ústav s vlastníky textů podepisuje smlouvy o jejich poskytování, které zaručují, že budou užity pro vědecké účely a budou ochráněna jejich autorská práva. Ale ne každý nakladatel je ochotný texty poskytovat, je to pro něj práce navíc. Přesto jsme našli asi padesát nakladatelů, kteří nám například v roce 2016 poskytovali elektronické texty své produkce, za rok 2015 k nám doputovalo přibližně tisíc textů. Velmi si jejich spolupráce ceníme a jsme jim vděční. Novinové a časopisecké texty získáváme od jejich zpracovatele ve velkých dávkách jednou ročně, také na základě dohod uzavřených s vydavateli.
Jednou za pět let sestavuje ústav reprezentativní korpus, tj. takový, který by vypovídal o skutečném užití jazyka. Pro reprezentativní korpusy se používá publicistika, beletrie i odborné texty, ovšem ani tak nelze říci, že je skutečně reprezentativní. U beletrie se například pro stanovení počtu jednotlivých složek beletristických textů berou v potaz i počty výpůjček ve veřejných knihovnách. Celou věc navíc komplikuje to, že naprostá většina užití jazyka je v mluveném projevu a dnes nám ještě do celé věci čím dál více zasahují sociální sítě a chaty.
Technicky zaměření výzkumníci přirozeného jazyka získávají obrovské objemy textů přímo z internetu. Takové korpusy se ale nehodí pro jazykový výzkum, protože se přesně neví, jaké typy textů se v nich vyskytují, a bývá v nich obrovské množství chyb. Jazyk v jednotlivých typech textů se výrazně liší a texty čistě beletristické nebo odborné tvoří jen malé procento. Reprezentativní korpus, který dodržuje přesné rozsahy textů z našich tří kategorií a který může vypovídat o stavu jazyka, nelze bez cíleného sběru textů přímo od vydavatelů sestavit.
Jednoduché není ani získávání textů pro ostatní korpusy. Starou češtinu je stále nutné přepisovat a pro paralelní korpusy se k textu v elektronické podobě ručně přidává buď jeho překlad, nebo originál. Texty pro mluvené korpusy, nahrané neformální rozhovory (účastníci konverzace předem nevědí, že jsou nahráváni), se opět musí přepisovat do elektronické podoby. Nahrává se po celém území republiky, protože mluvené korpusy se sestavují podle předem daných sociologických kategorií, jako jsou pohlaví, region, kde mluvčí vyrostl, věk a vzdělání.
Korpusová lingvistika
V devadesátých letech jsme vůbec netušili, kam se celá věc bude ubírat. Vznikl nový lingvistický obor – korpusová lingvistika, která svými prostředky popisuje skutečný stav jazyka. Vzniká stále víc studií, které korpus češtiny využívají, a to nejen v Česku. Psaní výkladového slovníku češtiny se stále věnují kolegové z Ústavu pro jazyk český a důležitým zdrojem jazykového materiálu jsou pro ně právě naše korpusy. To, co vzniká, je skutečný Český národní korpus.