Umělá inteligence | Autorské právo

Jsou vůbec DALL-E, Midjourney nebo Copilot legální? Někdo by to měl rozčísnout, dokud je ještě čas

  • Z textových a obrázkových AI generátorů se stávají komerční služby
  • Už to není experiment pro pár geeků a programátorů
  • Právní experti začínají řešit, jestli náhodou neporušují autorské právo

Komu patří kód, který generuje AI pomocník Copilot od GitHubu? A stejně tak komu patří obrázky, které vytvářejí v posledních měsících tolik populární generátory na bázi AI počínaje DALL-E a Midjourney a konče Stable Diffusion?

Touto otázkou se zabývají experti na autorské právo už nějaký rok, a byť se pomalu zdálo, že je vše vyřešeno, americké právní firmy znovu zavětřily příležitost. Nakonec totiž stejně bude muset někdo rozhodnout, jak to tedy je, a nastavit precedens. Čím dříve, tím lépe.

Transformativní férové užití díla

Nejprve stručná rekapitulace. Copilot je pokročilý doplňovač programového kódu pro vývojáře, který pohání neuronka Codex. Codex umí generovat kód, protože si vytvořil ohromný statistický AI model z mnoha milionů řádků kódu, které jste možná i vy vystavili pod svobodnou licencí veřejně na GitHubu. Užívání děl pod svobodnou licencí má nicméně také svá pravidla. Není to žádná anarchie.

The Codex model was trained on tens of millions of public repositories, which were used as training data for research purposes in the design of Codex. We believe that is an instance of transformative fair use.

Maddie Simens, OpenAI

Za Codexem stojí spolupráce mezi GitHubem a organizací OpenAI, která dala život i obrázkovému generátoru DALL-E.

Tatáž OpenAI ve svém čerstvě aktualizovaném dokumentu Understanding Codex training data and outputs vysvětluje, že učení jejich modelu na komunitních datech je v naprostém pořádku, protože jim to umožňuje princip transformative (fair) use. Nejbližší analogií v našem autorském zákoně je princip volného užití (paragraf 29 a dál).

Transformativním férovým užitím je nějaké alternativní užití díla bez zjevného porušení autorských práv. Některé soudní precedenty ze zámoří vzešly třeba z případů, ve kterých požadoval autor zaplatit za to, že jeho dílo někdo jiný parodoval. Parodie však podle soudů nebyla zneužitím a krádeží původního díla, ale právě jeho transformativním férovým použitím.

Více než 99 % generovaného kódu nelze přiřadit žádnému autorovi

Podle OpenAI je Codex transformativním férovým použitím cizího díla hlavně z toho důvodu, že podle interních testů ve více než 99 % případů generuje naprosto univerzální obsah – obsah, který nelze přiřadit žádným konkrétním datům, na kterých se učil, takže prostě nikomu nepatří. 

Analysis has shown that, even in this early stage of development, the vast majority of output (>99%) does not match training data. Of course, certain source material, like all computer programs, contains common, widely-used solutions that are either standard and/or functionally-mandated.

Maddie Simens, OpenAI

Pokud tedy někdo tvrdí, že Copilot používá jeho algoritmy, kterými se pochlubil na GitHubu a chce být řádně citován, nejspíše to nebudou nikterak unikátní a osobité algoritmy, ale natolik obecné, že je přirozeně generuje i automat a tisíce a tisíce dalších uživatelů GitHubu.

Stručně řečeno, když zabrnkáte nějaký naprosto provařený a všudypřítomný akord na kytaru a dáte to na YouTube, kde vyděláte na reklamě pár centů, ještě to neznamená, že vykrádáte třeba The Pink Floyd. Férovým transformativním užitím je to, že jste kapelu poslouchali v mládí, a tak vás přirozeně autorsky ovlivnila. S Codexem je to podle OpenAI vlastně úplně to samé.

My si to ale nemyslíme!

Jenže jak už tomu v životě bývá, toto je tvrzení OpenAI a GitHubu a od letošního léta se začíná zvedat i hlasitá skupina těch, kteří mají opačný názor. Dokud byl Copilot v rámci ročního testování zdarma, nikdo to moc neřešil, jakmile se z něj ale stala placená služba se vším všudy, právní týmy zbystřily.

„To je můj kód,“ píše profesor Tim Davis z Texas A&M University:

Třeba Joseph Saveri Law Firm ze San Franciska, který už zkoumá možnosti a v potenciálním sporu století vidí příležitost, jak si udělat jméno. Že jste o této firmě v životě neslyšeli a jen si někdo v zámoří honí triko? To je samozřejmě možné, ale o to nakonec vůbec nejde. Na začátku precedentního rozhodnutí, které po letech sporů ovlivní celý trh, může být i docela malá rybička či autorskoprávní trol.

Ostatně, přidávají se i další, kteří koketují s myšlenkou, že by nakonec mohl porušovat autorská práva i ten, kdo nápovědu od GitHubu použije ve svém vlastním komerčním kódu.

DALL-E a další? Jako přes kopírák

To bychom tedy měli Copilota, obrázkové AI generátory na tom jsou ale úplně stejně. Je zcela irelevantní, zdali je výsledkem text, nebo hromada pixelů, takže i zde se nabízí otázka, na jakých datech se vlastně DALL-E a jemu podobné technologie opravdu učily.

I think it could be illegal.

Craig Peters, výkonný ředitel Getty Images v rozhovoru pro The Verge, proč jeho slavný katalog fotografií odmítá používat generativní obrázkové AI

Pokud armáda botů prošla internet a v dobré víře (transformative fair use) posbírala všechny JPEGy, na které narazila, je to analogie Codexu. No, a i kdyby OpenAI vyrukoval s tezí, že si generoval studijní fotografie pomocí nějakého dalšího AI generátoru, ani to nic nemění na podstatě věci, jen se trošku zacyklíme.

Pokud by totiž studijní data pro DALL-E aspol. generoval nějaký další generátor (a AI syntéza studijních dat/učení bez dat je právě pro jejich nedostatek velké téma už několik posledních let), musíme se logicky ptát, na čem se učil generátor, který generoval studijní data pro nějaký další učící se generátor.

Kdyby to bylo ilegální, celý segment AI má obrovský problém

Tato ožehavá otázka se bude muset zavčas vyřešit, na studijních datech totiž stojí veškerá současná AI. Není to jen DALL-E a jemu podobní, ale prakticky všechny neuronové detektory, které jednou rozpoznávají automobily v záběrech z dopravních kamer, podruhé chodce na ulici, no a potřetí třeba kočičky.

Stručně řečeno, na těchto obřích databázích studijních dat jsou založené stovky a tisíce odvozených technologií a v podstatě celý výzkum a vývoj na poli AI v posledních několika dekádách.

Podobných soudních pří o výklad onoho zamlženého fair use jsme tu zároveň měli v éře IT celý zástup včetně tolik medializované bitvy mezi Oraclem a Googlem ohledně férového použití aplikačního rozhraní Javy v Androidu.

Diskuze (40) Další článek: Rusko se připravuje na horší časy. Prodeje PC komponent tam stouply až na čtyřnásobek

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , , ,