Jedním z největších strašáků v Silicon Valley je sanfranciská advokátní kancelář Josepha Saveriho. Už jsme o ní letos psali několikrát, firma se totiž specializuje na tradiční americké hromadné žaloby a Saveri se už loni na podzim rozhodl, že si udělá jméno na boji proti umělé inteligenci.

Jedni ho považují za otravného právního trola, který jen hledá laciné PR, jiní ale upozorňují, že ten chlap má sakra pravdu a otázky, které nastolil, musíme v globálním měřítku zavčas vyřešit, než na nás bude vykukovat generativní AI z každé konzervy. Máme k tomu solidně našlápnuto.

OpenAI by mohla mít problém...

Saveri totiž ve svých žalobách zastupuje umělce všeho druhu, na jejichž autorsky chráněných dílech se měly údajně učit mnohé a dnes velmi populární neuronové sítě.



ChatGPT s modelem GPT-4 tvrdí, že nezná doslovné znění románu Válka s mloky, ale přece jen nabídne podrobný souhrn. Podle nové hromadné žaloby obsahy jiných knih musí znát, ačkoliv jejich autoři o tom neví a nedali k tomu souhlas

Hned zkraje roku jsme napsali o právní bitvě Saveri vs. Midjourney a Stability AI, ve které kancelář zastupuje několik amerických ilustrátorů, no a teď se budou muset se stejnými nepříjemnostmi poprat také v OpenAI, kde by mohly být v krajním případě následky doslova katastrofální.

A s ní i její klíčový partner Microsoft

Největším obchodním a strategickým partnerem OpenAI je totiž Microsoft, který v posledních několika letech investoval do umělé inteligence i skrze laboratoř OpenAI miliardy dolarů a její klíčový produkt – velký jazykový model z rodiny GPT – tvoří jak páteř nového (a provozně velmi drahého) Bingu, tak komerčních služeb pro podniky a státní správu. S GPT si tak skrze Microsoft hraje už také NASA a Pentagon.

Víte, co znamená zkratka GPT? Porovnejte se s ostatními v našem kvízu

V čem je tedy problém? Zatímco v případě už probíhající soudní tahanice s Midjourney a Stability AI jde o to, jestli náhodou AI generátor obrázků neporušuje autorská práva, když se (údajně) učil i na dílech ilustrátorů, kteří k tomu nedali svolení, v čerstvé kauze LLM litigation Saveri zastupuje několik zajímavých autorů ze zámoří, na jejichž knižních dílech se (prý) pro změnu učil zase GPT.



Sarah Silvermanová a její kniha, kterou si podle žaloby ChatGPT přečetl a naučil nazpaměť, aniž by k tomu měl patřičnou licenci

Jednou z poškozených je třeba stand-up komička, herečka a spisovatelka Sarah Silvermanová. Dvakrát vyhrála Emmy, o medializaci případu je tedy dopředu postaráno.

OpenAI před soudem

Návrh hromadné žaloby podané opět u sanfranciského soudu najdete v tomto PDF a sedmnáctistránkový dokument určitě stojí za nahlédnutí, podrobně totiž vysvětluje, v čem je vlastně problém. OpenAI zatím mlčí, a tak se pojďme podívat alespoň na argumentaci žalující strany.



OpenAI je dnes hlavním symbolem AI chatbotů

Saveri a jeho tým vycházejí z veřejně dostupných studií a odborných článků publikovaných přímo výzkumnou laboratoří OpenAI (laboratoř vymyslí primární technologii a o komercializaci se pak stará několik stejnojmenných obchodních společností).

Aby mohla generativní AI něco generovat, musí se to nejprve na něčem naučit

Aby mohla generativní AI cokoliv generovat, musí se nejprve naučit, jak to vypadá. U obrázkových neuronek je to relativně jednoduché, pro výzkumníky v oblasti umělé inteligence tu jsou totiž obrovské databáze obrázků na webu, které vyčmuchal podobný indexovací robot, jaké používají i běžné vyhledávače.



Tak dlouho se vědci z Marylandské a Newyorské univerzity ptali Stable Diffusion, až jim vygeneroval ilustrace, které kompozičně dokonale odpovídaly originálům v datasetu LAION

Vtip spočívá v tom, že samotná databáze často obsahuje jen odkazy na tyto indexované obrázky a nikoliv samotné stažené JPEGy, takže autor databáze je z hlediska autorských práv z obliga.

Přesně tak funguje třeba projekt LAION. Akademik, amatérský výzkumník nebo třeba firmy jako Stable Diffusion a Midjourney si obrázky stáhnou svépomocí, takže případného porušení autorských práv se dopustí až ony.

U textu ale takový postup není možný. Jak byste také chtěli smysluplně vést databázi, ve které by byla jen metadata ve smyslu: „Na webové adrese ABC se vyskytuje odstavec textu ve francouzštině na téma XYZ.“

ChatGPT je tak dobrý i díky dělníkům z Afriky

Pro učení velkých jazykových modelů se naopak používají speciální databáze – korpusy –, které už obsahují samotný text. Buď v surové a doslova jen zkopírované podobě z originálu, anebo delikátně pročištěné.



Aby nemohl ChatGPT generovat nevhodný obsah, dělníci OpenAI pečlivě prošli a označili už samotná studijní data

Studijní texty samozřejmě pročišťuje a po vlastní ose označuje i OpenAI, aby se nebohý ChatGPT náhodou neučil generovat text třeba na základě nějaké fakt moc NSFW debaty z Redditu a už zkraje roku se okolo toho strhla menší aféra, když časopis Time přišel na to, že tuto otrockou práci dělá za směšné dva dolary na hodinu námezdní síla z Keni.

Bez Wikipedie a GitHubu by byly chatboti tupí, jen tyto zdroje ale nestačí

O holky a kluky z Afriky tu ale tentokrát nejde. Jde tu o to, co vlastně čtou a co případně označují za obsah, který ChatGPT nemá umět generovat. Typicky se to týká pornografie a tak podobně.

Všechny velké jazykové modely se samozřejmě přednostně učí na licenčně co nejsvobodnějších zdrojích. Naprostým základem jsou proto Wikipedie, díky které robot získává faktografické znalosti, a kódy na GitHubu publikované pod svobodnou licencí (ehm, i když), s jejichž pomocí zase umí ChatGPT, nový Bing i Bard od Googlu programovat.

Jenže to nestačí.

Košaté texty díky Gutenbergu

Skutečným pokladem jsou košaté a barvité slovní konstrukce a delší souvislý text, kde běžný článek na Wiki nebo online manuál k žehličce nepomůže. Ano, mnozí už jistě tuší, svatým grálem jsou totiž digitalizované knihy.

Třeba projekt Gutenberg a jeho Standardized Project Gutenberg Corpus, který jako zdroj používá okolo 70 000 starých digitalizovaných knih a dalších publikací, u kterých už vypršela autorskoprávní ochrana.

V roce 2016 vypršela práva třeba k románu Karla Poláška Bylo nás pět a Povídání o pejskovi a kočičce od Josefa Čapka.

Guláš The Pile může obsahovat knižní warez

Horší je to už s mohutnou databází The Pile od týmu EleutherAI. The Pile je úctyhodný textový korpus, který je takovou slepeninou 22 dalších zdrojů o celkové velikosti 800 GB anglických textů. Obsahuje jak zmíněný Gutenberg, tak odborné články publikované na Arxivu, opět Wikipedii, dokonce i titulky z OpenSubtitles, články z HackerNews, texty z GitHubu a také 100GB databázi Books3.



Představení The Pile na sklonku roku 2020 (PDF)

Ta je pro nás konečně nejzajímavější, je to totiž databáze digitalizovaných knih z dalšího projektu Bibliotik, který patří do skupiny tzv. stínových knihoven (shadow libraries) a šíří se třeba skrze BitTorrent.

Stínové knihovny vznikly jako vzdor proti těm komerčním s placeným přístupem a staly se v mnoha zemích světa populární třeba v období kovidu, kdy měli studenti omezený přístup ke zdrojům informací. Problém spočívá v tom, že tady se už na licenci z definice moc nehraje a Bibliotik je tak (údajně) plný knižního warezu.

The Pile používa LLaMA od Mety, pravděpodobně OpenAI a další

Používání obrovského anglického korpusu The Pile pro cvičení těch největších jazykových modelů je tedy lákavé – nic většího tu pravděpodobně neexistuje –, nicméně hrozí, že se v tom dříve či později někdo začne rýpat a stejně jako Saveri testovat, jestli náhodou nakonec nebude warez i odvozený produkt – generativní AI a její nejoblíbenější aplikace současnosti, tedy inteligentní chatbot.



Saveri má kvůli The Pile políčeno i na Metu

The Pile včetně potenciálně problematického datasetu Books3 použila pro učení svého velkého jazykového modelu LLaMA i Meta a podle Saveriho týmu parametrům The Pile odpovídají i blíže nespecifikované zdroje, na kterých se učily přinejmenším některé modely z rodiny GPT.

Krátce po hromadné žalobě proti OpenAI proto na podobném půdorysu postavili i kauzu proti obří Metě.

Důkaz warezu má být schopnost ChatGPT detailně popsat děj knihy

A čím vlastně svá tvrzení dokládají? Důkazem toho, že si ChatGPT přečetl knihy, ke kterým neměl patřičnou licenci, má být jedna z klíčových funkcí AI chatbotů, ve které excelují prakticky všichni: analýza a syntéza dlouhých textů – tedy tvorba zjednodušených výtahů a sumářů.



Dokladem toho, že si chatbot nepřečetl jen nějakou recenzi, ale zná knihu opravdu důkladně, mají být velmi podrobné odpovědi na otázku, co se děje v jednotlivých kapitolách knih poškozených autorů

Jednoduše řečeno, Saveri k žalobám doplnil otázky a odpovědi pro ChatGPT, ve kterých dává povely robotovi, aby popsal obsah a děj vybraných knižních publikací autorů, které v hromadné žalobě zastupuje jeho firma.

Robot odpovídá velmi přesně, obsáhle a nabízí na přání i výtahy z dalších kapitol, což má být důkaz toho, že se k těmto informacím nedostal třeba studiem knižních recenzí, ale musel mít k dispozici původní texty, aniž by o tom jejich autoři měli nejmenší páru.

Je to fair use, nebo není?

Co to znamená v praxi? To upřímně v tuto chvíli nikdo neví. Už první kauza z kraje letošního roku je v tuto chvíli stále na úplném začátku, Midjourney a Stability AI se proti návrhu hromadné žaloby pochopitelně ohradily a teprve uvidíme, jak se bude kauza vyvíjet dál. V případě textových generátorů to bude podobné.

Možná bude taková praxe přípustná a v mantinelech právního principu férového použití (fair use), nicméně takový ChatGPT Plus je už komerční produkt a stejně tak podnikové AI služby na Microsoft Azure, čili argument, že původní autor informace, kterou robot jen sofistikovaně papouškuje, z této hry nemá ani halíř, je rozhodně na místě.

Je třeba to vyřešit, dokud je AI ještě v plenkách

Tyto zdánlivě akademické spory se musejí zavčas vyjasnit, dokud je generativní AI teprve ve své rané fázi a stále je to poměrně nový a okrajový fenomén. Technologie ChatGPT nicméně skrze Bing a aplikaci Copilot postupně proniká i do Windows 11, čili počet koncových uživatelů může v následujících měsících výrazně poskočit.

Saveriho svatou válku prakticky proti všem současným tahounům generativní AI tedy může leckdo považovat především za skvělou reklamu pro jeho kancelář – a nejspíše tomu tak i bude –, otázka autorských práv je ale opravdu na místě a někdo by to měl konečně rozčísnout.