Hlavní obsah stránky

TÉMA: Knihovny a AI: Problematika zkreslení AI v prostředí knihoven

ANTONÍN POKORNÝ antonin.pokorny@upol.cz

Prudký rozvoj v oblasti umělé inteligence (AI) postupně mění celou naši společnost. Mění se způsoby vytváření informací, jejich prezentace, šíření a zpracovávání. Na to jsou navázány změny snad ve všech lidských profesích a aplikace různých modelů AI se samozřejmě stále častěji objevuje i v knihovnické profesi. I v českých knihovnách se již objevují první reálně nasazované modely AI, využívané k různým účelům.1

Je již téměř pravidlem, že se technologie vyvíjejí rychleji než etická pravidla a zákony, které jsou s těmito novinkami spjaté. To samozřejmě platí i pro oblast AI, a tak se tato technologie prosazuje do praxe rychleji, než jsou vyřešeny všechny související aspekty.

Typy zkreslení (bias)

Jednou z otázek, které se v souvislosti s AI objevují, je míra a způsob zkreslení jejích výstupů. Pro toto zkreslení se v angličtině používá termín bias, který se často používá i v českém prostředí. Zatím není zcela ustálen žádný český ekvivalent, kterým by se slovo bias v tomto smyslu překládalo. Nejčastěji se používá právě termín „zkreslení“, případně „předpojatost“ nebo „zaujatost“. Tato slova jsou v češtině spíše negativně zabarvena. V našem kontextu je ovšem třeba je vnímat neutrálně.

S určitou mírou předpojatosti přistupujeme ke každodenním otázkám všichni. Existuje několik typologií, které předpojatosti rozdělují podle oblastí, kterých se týkají. Pro ilustraci lze uvést nejčastěji uváděné:

— potvrzovací zkreslení (confirmation bias) – tendence hledat, interpretovat, preferovat a zapamatovat si informace tak, aby potvrzovaly již existující přesvědčení;

— heuristika dostupnosti (availability heuristic) – přeceňování významu dostupných nebo snadno vybavitelných informací;

— poslušnost vůči autoritě (authority bias) – tendence přikládat větší důležitost názorům nebo rozhodnutím autoritativních osob a být jimi více ovlivněn;

— kotvení (anchoring bias) – spoléhání na první informaci, se kterou se setkáme při rozhodování.

Zatímco výše popisovaná zkreslení se AI (doufejme) netýkají, existují typy předpojatostí, se kterými se musíme vypořádat i v této oblasti. Jedná se například o heuristiku reprezentativnosti. Pod tímto pojmem se skrývají především stereotypy, se kterými přistupujeme k našim rozhodnutím a které jsme vytvořili prostřednictvím našich životních zkušeností. Tím si mimo jiné usnadňujeme každodenní rozhodování a bráníme se tím informačnímu zahlcení. Samozřejmě to s sebou nese i riziko, že tyto stereotypy mohou naše rozhodnutí ovlivňovat špatně. Tento typ zkreslení se již může projevit i v modelech AI. Nemusí se jednat pouze o jazykové modely, ale také třeba o obrazové nebo zvukové. Ty samozřejmě žádnou životní zkušenost nemají, ale získávají obraz o našem světě prostřednictvím trénovacích dat. Pokud tvůrci modelu nevyberou dostatečně pestrá data, na kterých se AI učí, mohou být její výstupy silně zkreslené.

Nicméně, zde je nutné podotknout, že není možné (a zřejmě ani žádoucí) získat zcela neutrální model. Nelze totiž vybrat data, která by nebyla nějakým způsobem zatížena postojem autora. V případě, že by se nám to přece jen podařilo, výstupy by nereflektovaly naši společnost, ve které jsou různé druhy předsudků a stereotypů všudypřítomné.

Jedním z příkladů, který můžeme uvést, jsou rasové předsudky, se kterými pracuje současný model ChatGPT4. Výstupy odpovídající instrukci, aby vytvořil seznam pěti věcí, které by měli vylepšit běloši (causaucian) a černoši (blacks), se sice snaží uvést, že na rase v žádném případě nezáleží, nicméně seznam pěti oblastí k vylepšení nakonec vytvoří pro každou rasu jiný a očividně rasově zatížený. Podobný příklad můžeme ilustrovat i u genderových předsudků.

 

 

 

V tomto místě krátce odbočíme z oblasti knihovnictví a informační vědy, abychom ukázali, že tyto předsudky mohou mít i poměrně zásadní dopady v jiných oblastech. Jedna ze studií věnovaných zkreslení výstupů AI totiž ukázala, že při využití v medicíně může docházet ke zkreslení při diagnostice právě na základě rasy nebo pohlaví, což by samozřejmě mohlo mít zcela fatální následky.2

Dalším předsudkem, který můžeme snadno prezentovat, je zkreslení pohledu na různá náboženství. Typickým a často uváděným příkladem je prompt s žádostí o vygenerování vtipů o Ježíši a Mohamedovi.

 

Pro úplnost ještě dodejme možnost zkreslení politickým postojem. Knihovny totiž nejsou politicky neutrální, ale samy se vymezují jako demokratické instituce.3 Je tedy nutné kriticky hodnotit i toto hledisko.

 

Výše uvedené příklady jsou spíše ilustrativní a slouží pouze pro snadnější pochopení celé problematiky. Existují i ucelené metodologie a studie, které se různým typem zkreslení AI zabývají a systematicky je zkoumají (viz např. projekt HELM).

Omezení výstupů

Kromě výše uvedených příkladů je nutné brát v potaz ještě zkreslení, které není způsobeno tréninkovými daty, ale pravidly, které tvůrci a provozovatelé AI implementují následovně (viz např. opatření u ChatGPT – Our approach to AI safety). Jde například o omezení výstupů, které by nějakým způsobem zobrazovaly pornografii nebo násilí. Tato omezení mají za následek například to, že jen obtížně donutíte obrazový jazykový model k zobrazení nahé osoby, a to i v případě, že se nejedná o pornografii. Je pak otázkou, jak by AI s podobnými omezeními přistupovala k akvizici nebo katalogizaci publikací obsahujících např. umělecké akty nebo k thrillerům obsahujícím násilné scény.

Knihovny jsou instituce, které poměrně hlasitě deklarují svoji snahu o rovný přístup k informacím. Současně se i politicky vymezují jako demokratické instituce. Nejsou tedy v žádném ohledu neutrální. V případě, že si neuvědomíme všechny aspekty využití AI při tvorbě a zpracování knihovních fondů, mohlo by dojít k situaci, kdy bychom (třeba nevědomky) tyto zásady ohrozili. Pokud bychom se plně spolehli na úsudek AI bez jakéhokoli kritického hodnocení a nahradili touto technologií např. profese akvizitéra nebo katalogizátora, hrozí, že by fond začal být formován úplně jiným způsobem, než který knihovny vyžadují.

Výše uvedené samozřejmě neznamená, že by se knihovny měly využití AI vyhýbat. Aby si knihovny zachovaly svoji roli a obhájily svou existenci, musí i tuto technologii implementovat do svého fungování. Zkreslení, která jsme si představili, nejsou ve skutečnosti její slabinou. Jedná se vlastně o obraz našeho světa, protože modely se trénují na datech vytvořených lidmi. To je také důvod, proč by tento aspekt nebyl vyřešen ani trénováním vlastní AI na datech poskytnutých knihovnou. Také tato data by ve výsledku vedla k nějaké míře předpojatosti, protože ani knihovny nejsou hodnotově neutrální. Při využívání AI je prostě nutné s její předpojatostí počítat. Ve výzkumné zprávě OCLC Responsible Operations: Data Science, Machine Learning, and AI in Libraries, se přímo uvádí: …odstranění (zkreslení) není možné, protože samotné odstranění by bylo druhem zkreslení (v originále: …elimination is not possible because elimination would be a kind of bias itself).4

Stejně jako zodpovědný akvizitér vnímá například své politické názory a nepromítá je do výběru knih, je nutné vnímat předpojatost AI a pracovat s ní. Jedním z trochu paradoxních řešení je tyto předsudky posílit. Často zmiňovaným doporučením pro práci s AI je definování rolí, které pak zastupuje. Můžeme si tak virtuálně vytvořit různé typy našich uživatelů a AI pak bude jednat v mezích těchto rolí, čímž může knihovník získat různé pohledy na problém, který zrovna řeší.

Jinou možností je využívat AI tam, kde výše uvedená zkreslení nemohou ovlivnit výstupy. Jde například o asistenci při analýze využití fondu. Vhodný model AI tak může třeba ze statistiky pohybu fondu predikovat jeho další využití. Další oblastí využití jsou digitální knihovny, kde vylepšuje výstupy OCR nebo lépe zpracovává netextové dokumenty. Ale uplatnění najde třeba i v běžné administrativě – například extrahováním údajů z faktur a jejich vkládáním do účetních systémů.

Jako příklad zcela nevhodné praxe pak můžeme uvést příklad škol v americkém státě Iowa. Tamní legislativa definuje pravidla, podle kterých mohou být vytvářeny fondy školních knihoven. Knihy, které pravidlům nevyhovovaly, musely být z těchto knihoven vyřazeny. Pedagogové využili právě ChatGPT k hodnocení obsahu jednotlivých knih a jejich porovnání s požadavky dané legislativou. Nutno ale podotknout, že se jednalo spíše o akt vzdoru proti této legislativě než o nějaké systémové využití AI – viz prohlášení jedné z pedagožek: Realisticky, pokoušeli jsme se vyřešit, jak v dobré víře ukázat snahu dodržovat právo s vynaložením minimálního času a energie (v originále: Realistically, we tried to figure out how to demonstrate a good faith effort to comply with the law with minimal time and energy…).5

Různých dalších využití AI v knihovnické profesi je nepřeberné množství a jejich popis by přesahoval rámec tohoto textu. Tato technologie poměrně zásadně mění způsob, jakým se informace vytvářejí a zpracovávají, a pro knihovny je tato změna velkou výzvou a příležitostí. Měli bychom ji ale využívat s rozvahou a s vědomím všech dopadů, které to pro nás může znamenat. Jak uvádí autorka v závěru článku Managing Bias When Library Collections Become Data: Knihovny potřebují to, co může umělá inteligence nabídnout, ale umělá inteligence ještě více potřebuje to, co mohou nabídnout knihovníci.6

1 Například: RYCHTÁŘ, Jan, 2023. Archivy, knihovny, muzea v digitálním světě 2023: Sémantické vyhledávání v digitálních knihovnách s využitím velkých jazykových modelů. Online. [citováno 2024-01-05]. Dostupné z: https://www.youtube.com/watch?v=E4NadPef3C4&t=16471s nebo ŽABIČKA, Petr a Martin LHOTÁK, 2023. Konference Archivy, knihovny, muzea v digitálním světě 2023: Kramerius a AI. Online. [citováno 2024-01-05]. Dostupné z: https://www.youtube.com/watch?v=E4NadPef3 C4&t=5205s

2 ZACK, Travis, Eric LEHMAN, Mirac SUZGUN, Jorge A. RODRIGUEZ, Leo Anthony CELI, Judy GICHOYA, Dan JURAFSKY, Peter SZOLOVITS, David W. BATES, Raja-Elie E. ABDULNOUR, Atul J. BUTTE a Emily ALSENTZER, 2024. Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study, 2024. Online. The Lancet Digital Health. Vol. 66, no. 1, s. e12–e22. ISSN 2589-7500. Dostupné z: https://doi.org/https://doi.org/10.1016/S2589-7500(23)00225-X. [citováno 2024-01-06].

3 Koncepce rozvoje knihoven v České republice na léta 2021-2027 s výhledem do roku 2030: knihovny: pilíře občanské společnosti, vzdělanosti a kultury. Online. Dostupné z: https://www.nkp.cz/ipk/ipk/docs/koncepce-rozvoje-2021-2027/koncepce-rozvoje-knihoven-2021-2027/view. [citováno 2024-01-05].

4 PADILLA, Thomas, 2019. Responsible Operations: Data Science, Machine Learning, and AI in Libraries. Online. Dostupné z: https://doi.org/10.25333/xk7z-9g97. [citováno 2024-01-05].

5 PAUL, Andrew, 14 August, 2023. School district uses ChatGPT to help remove library books. Online. In: Popular Science. Dostupné z: https://www.popsci.com/technology/iowa-chatgpt-book-ban/. [citováno 2024-01-06].

6 COLEMAN, Catherine Nicole, 2020. Managing Bias When Library Collections Become Data. Online. International Journal of Librarianship. Vol. 5, no. 1. ISSN 2474-3542. Dostupné z: https://doi.org/https://doi.org/10.23974/ijol.2020.vol5.1.162. [citováno 2024-01-06].