Smutná umělá inteligence před federálním soudem v představách Midjourney Midjourney

Smutná umělá inteligence před federálním soudem v představách Midjourney | Midjourney

Difuzní generátory půjdou možná před soud

Difuzní generátory půjdou možná před soud

Praha v katalozích Getty Images, iStocka  Unsplash

Praha v katalozích Getty Images, iStocka  Unsplash

Praha v katalozích Getty Images, iStocka  Unsplash

Praha v katalozích Getty Images, iStocka  Unsplash

Praha v katalozích Getty Images, iStocka  Unsplash

Praha v katalozích Getty Images, iStocka  Unsplash

Fotorealistické ilustrace vytvořené automatem Stable Diffusion Zdroj:  Stability AI

Fotorealistické ilustrace vytvořené automatem Stable Diffusion | Zdroj: Stability AI

Fotorealistické ilustrace vytvořené automatem Stable Diffusion Zdroj:  Stability AI

Fotorealistické ilustrace vytvořené automatem Stable Diffusion | Zdroj: Stability AI

Fotorealistické ilustrace vytvořené automatem Stable Diffusion Zdroj:  Stability AI

Fotorealistické ilustrace vytvořené automatem Stable Diffusion | Zdroj: Stability AI

Postupný rozptyl původního obrazce v šum  Zdroj:  Standford University, Deep Unsupervised Learning using Nonequilibrium Thermodynamics

Postupný rozptyl původního obrazce v šum  | Zdroj: Standford University, Deep Unsupervised Learning using Nonequilibrium Thermodynamics

Rekonstrukce původního obrázku z šumu, ve kterém zůstala drobná rezidua Zdroj:  Standford University, Deep Unsupervised Learning using Nonequilibrium Thermodynamics

Rekonstrukce původního obrázku z šumu, ve kterém zůstala drobná rezidua | Zdroj: Standford University, Deep Unsupervised Learning using Nonequilibrium Thermodynamics

Drobná změna ve vstupním šumu způsobí různé varianty rekonstruovaného originálu Zdroj:  Scale.com

Drobná změna ve vstupním šumu způsobí různé varianty rekonstruovaného originálu | Zdroj: Scale.com

Generátor se nejdříve naučil, jaké obrázky patří k jakým slovům. V dalším kroku pak buď textový, nebo obrazový vstup interpretoval (U-Net) jako šum s drobnými rezidui objektů, které se mají zhmotnit (predicted noise) Zdroj:  Aayush Agrawal

Generátor se nejdříve naučil, jaké obrázky patří k jakým slovům. V dalším kroku pak buď textový, nebo obrazový vstup interpretoval (U-Net) jako šum s drobnými rezidui objektů, které se mají zhmotnit (predicted noise) | Zdroj: Aayush Agrawal

Generátor se nejdříve naučil jaké obrázky patří k jakým slovům. V dalším kroku pak buď textový, nebo obrazový vstup interpretoval (U-Net) jako šum s drobnými rezidui objektů, které se mají zhmotnit (predicted noise) Zdroj:  Aayush Agrawal

Generátor se nejdříve naučil jaké obrázky patří k jakým slovům. V dalším kroku pak buď textový, nebo obrazový vstup interpretoval (U-Net) jako šum s drobnými rezidui objektů, které se mají zhmotnit (predicted noise) | Zdroj: Aayush Agrawal

Předpřipravený šum s rezidui si konečně vezme na starost denoiser a postupným průchodem začne vytvářet hotovou ilustraci podle toho, jaká rezidua v šumu vidí a jak se je naučil interpretovat Zdroj:  Aayush Agrawal

Předpřipravený šum s rezidui si konečně vezme na starost denoiser a postupným průchodem začne vytvářet hotovou ilustraci podle toho, jaká rezidua v šumu vidí a jak se je naučil interpretovat | Zdroj: Aayush Agrawal

 Vyhledávač  v databázi LAION5B

Vyhledávač v databázi LAION5B

Tak dlouho se vědci z Marylandské a Newyorské univerzity ptali Stable Diffusion, až jim vygeneroval ilustrace, které kompozičně dokonale odpovídaly originálům v datasetu LAION Zdroj:  Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

Tak dlouho se vědci z Marylandské a Newyorské univerzity ptali Stable Diffusion, až jim vygeneroval ilustrace, které kompozičně dokonale odpovídaly originálům v datasetu LAION | Zdroj: Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

Originál z datasetu LAION Zdroj:  Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

Originál z datasetu LAION | Zdroj: Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

Vygenerovaná ilustrace ze Stable Diffusion, která sice obsahuje i odlišné prvky, základní kompozice se ale zachovala  Zdroj:  Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

Vygenerovaná ilustrace ze Stable Diffusion, která sice obsahuje i odlišné prvky, základní kompozice se ale zachovala  | Zdroj: Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

Difuzní generátory půjdou možná před soud
Praha v katalozích Getty Images, iStocka  Unsplash
Praha v katalozích Getty Images, iStocka  Unsplash
Praha v katalozích Getty Images, iStocka  Unsplash
18
Fotogalerie

Midjourney a Stable Diffusion před soudy v USA i Evropě. Jak funguje difuzní AI a v čem je problém?

  • Slovíčka Midjourney a Stable Diffusion dnes zná skoro každý
  • Obrázky od umělé inteligence zaplavily internet
  • Jak fungují difuzní generátory a proč prý porušují autorská práva

Během loňského roku zaplavily internet tisíce a tisíce mnohdy fotorealistických ilustrací, které už nenakreslil člověk, ale podle textového zadání počítačový program.

Lidstvo se naučilo nová slovíčka DALL-E 2, Midjourney a Stable Diffusion, no a komentátoři krátce poté zaplnili mediální prostor hromadou sloupků o tom, jak vstupujeme do nové éry, ve které kreativci všeho druhu nebudou nadále potřeba, protože je nahradí umělá inteligence.

První kolo: Žalujeme Microsoft a OpenAI

Nemyslí si to ale zdaleka všichni. K těm nejhlasitějším kritikům nové vlny chytrého softwaru patří zejména typograf, programátor a právník v jedné osobě Matthew Butterick, který se dal loni dohromady s expertem na hromadné žaloby Josephem Saverim a zkraje listopadu se společně obrátili na soud v San Francisku.

Jejich první pokus o soudní spor GitHub Copilot litigation si klade za cíl jednou provždy rozčísnout otázku, komu vlastně patří plody práce podobných softwarových automatů.

„To je můj kód,“ píše profesor Tim Davis z Texas A&M University:

Jak už název napovídá, v listopadu zažehnutá právní bitva viní GitHub, jeho mateřský Microsoft a OpenAI z toho, že se jejich komerční našeptávač programového kódu GitHub Copilot učil doplňovat text na licenčně chráněných datech někoho jiného, aniž by k tomu dostal souhlas.

Druhé kolo: Žalujeme Midjourney a Stability AI

Uplynuly dva měsíce a Butterick se Saverim se vracejí do boje. Před pár dny rozeslali médiím z celého světa text nové hromadné stížnosti k sanfranciskému federálnímu soudu, přičemž na seznamu žalovaných tentokrát figurují angloamerická společnost Stability AI (tvůrce Stable Diffusion), Midjourney a DeviantArt z Delaware.

f8993e0d-0ac9-4ae2-a9cf-53489f257d8b
Difuzní generátory půjdou možná před soud

Po vzoru podzimní kauzy Butterick opět vytvořil web Stable Diffusion litigation, na kterém se tentokrát pokouší širšímu publiku vysvětlit, oč jim vlastně jde.

Mimochodem, jelikož chtějí dosáhnout hromadné žaloby a soudního řízení před porotou, Saveriho právní firma zastupuje trojici renomovaných ilustrátorek Sarah Andersen (její knihy vyšly i v Česku), Kelly McKernan a Karlu Ortiz.

Getty Images žaluje Stability AI ve Velké Británii

V úterý 17. ledna se do boje se syntetickými generátory ilustrací pustil také britsko-americký konglomerát Getty Images, pod jehož křídla patří fotobanky Getty Images, iStock a Unsplash. Katalogy dohromady čítají okolo 500 milionů fotografií, ilustrací a videí. Hlavní konkurent Shutterstock nabízí podle dostupných dat více než 400 milionů položek.

0f611d03-4d87-431b-8e10-b1ae93b900a62bbe3c31-8dfc-4407-bf19-3d27ff988d028a843546-a12a-47d8-9ed2-c4635d6301e9
Praha v databázích Getty Images, iStock a Unsplash

Vedení společnosti se proti Stability AI, DALL-E a Midjourney vyjadřovalo už během loňského roku a nyní v tiskové zprávě oznámilo, že zažalovalo Stability AI u britského Vrchního soudu.

Podle Getty Images společnost Stability AI porušila autorská práva fotografů a ilustrátorů, když jejich díla bez svolení použila ke strojovému učení generátoru Stable Diffusion. Stability AI se naopak brání slovy, že využila právní princip férového použití – fair use. Více se dočtete níže v článku.

Originál, nebo jen koláž existujících děl?

Pointa sporu je identická s tou předchozí, generátor programového kódu ale tentokrát nahrazují právě ony syntetizátory ilustrací, které jste si možná sami vyzkoušeli, nebo dokonce už používáte i pro svůj vlastní byznys.

4222c38a-777e-49bf-b7b4-6b4e2fa71e8142677209-0f9c-4071-8e0b-cc5ca7f38d1ed632309b-a441-41e2-a5f4-03828fa9cb58
Fotorealistické ilustrace vytvořené automatem Stable Diffusion

Stručně řečeno, autoři žaloby chtějí přinutit soud, aby precedentně rozhodl, jestli jsou generativní difuzní umělé inteligence opravdu tvůrci svébytného obsahu, anebo jen tvoří modifikované kopie již existujících děl, která někomu patří.

Rozptyl do šumu

Abychom se v tom celém vyznali, musíme si nejprve ve vší stručnosti vysvětlit, jak vlastně technologie Midjourney, DALL-E a Stable Diffusion fungují v praxi.

Podobných generátorů jsme tu totiž měli za poslední dekádu už tucty, tato trojice však ohromila svět hlavně z toho důvodu, že její tvůrci dovedli k dokonalosti relativně novou difuzní techniku strojového učení.

735c538c-029d-4bd4-8e96-e540a2fc9da6
Postupný rozptyl původního obrazce v šum 

Základní princip je vlastně docela jednoduchý. Představte si, že máte libovolný obrázek a během strojového učení do něj v každém kroku přidáte trošku nahodilého šumu. Softwarový algoritmus na pixelové úrovni studuje, jak obrázek postupně degraduje a jak z něj mizí dříve patrné struktury, čímž si vlastně učí, jak mají vypadat.

To je tedy ve vší stručnosti ona difuze – rozptyl původní informační struktury ve zdánlivě neuspořádaný systém.

Rekonstrukce ze šumu

Podstata difuzního generování dat – nemusí to být pouze obrázek z Midjourney, ale třeba i syntetizovaný zvuk – spočívá v tom, že v další fázi celý proces otočíme.

818f194c-26f5-4d78-8e30-e1e56157eb8d
Rekonstrukce původního obrázku z šumu, ve kterém zůstala drobná rezidua originálu

Pokud se algoritmus učil, jak se nějaké struktury pixelů postupně měnily v neuspořádaný systém, dokáže z šumu, ve kterém stále zůstávají pro člověka neviditelná rezidua informací, zrekonstruovat původní originál. Je to vlastně jen velmi složitý dešumizér – denoiser.

Protože v šumu zůstalo opravdu málo původních informací, stačí v něm změnit pár bitů a difuzní generátor rekonstruuje původní obrázek v trošku jiné podobě, protože nyní v šumu vidí rezidua i nějakých dalších struktur, na kterých se učil.

4a3a9148-dd2c-4228-818f-df16d0d54ac3
Drobná změna ve vstupním šumu způsobí různé varianty rekonstruovaného originálu

Textový dotaz je vlastně vstupní šum

Celé kouzlo tedy, velmi zjednodušeně řečeno, spočívá v tom, že když chytře upravíme podobu vstupního šumu, generátor vytvoří zhruba to, co potřebujeme.

Podívejte se, jak v nitru funguje Stable Diffusion pro vývojáře v Pythonu 

Tímto šumem může být na numerické úrovni třeba matematická interpretace textového zadání. Stroj se totiž učil na párech text-obrázek, takže ví, jakému šumu odpovídá jaký popisek.

6cb12044-9ef9-4c6f-a109-685260b5f2e184ac0f3a-62a6-4f11-94d9-1eec5076fa57
Generátor se nejdříve naučil, jaké obrázky patří k jakým slovům. V dalším kroku pak buď textový, nebo obrazový vstup interpretoval (U-Net) jako šum s drobnými rezidui objektů, které se mají zhmotnit (predicted noise)

V praxi je na většině služeb takto vygenerovaný obrázek opravdu pokaždé trošku jiný, program totiž k vstupní textové instrukci přidá i sůl – náhodný sled znaků –, která zajistí, že bude pokaždé jiný i šum, ze kterého denoiser generuje výsledek.

051fa135-da32-4d5e-baf2-53f6198887f7
Předpřipravený šum s rezidui si konečně vezme na starost denoiser a postupným průchodem začne vytvářet hotovou ilustraci podle toho, jaká rezidua v šumu vidí a jak se je naučil interpretovat

Právě tato sůl mimochodem podle kritiků zajišťuje to, aby difuzní generátory ještě více skryly (modifikovaly) studijní obrázky, ke kterým se už vážou autorská práva a které by neměl generátor nikdy zobrazit v původní podobě, protože by se prozradil, že je vlastně ukradl kdesi na internetu. Vrátíme se k tomu níže v článku.

Difuzní technika může data také opravovat 

Vstupním šumem pro denoiser ale může být i nějaký jiný obrázek – třeba rozbitá fotografie, kterou chceme opravit. Protože se difuzní generátor naučil, jak se v šum mění miliardy různých obrazových vzorů, dokáže šum nekvalitní předlohy proměnit opět v pravděpodobný originál.

Zvětšení fotografie difuzním dopočítáním (Google Research):

Difuzní techniku tak nemusíme používat jen v aplikacích jako Midjourney nebo DALL-E, ale také pro zvětšení fotografie, odstranění rozčtverečkované tváře, doostření pomocí AI a tak dále.

LAION5B: Šest miliard odkazů na obrázky

Stable Diffusion, který je jedním z žalovaných v čerstvé kauze, svůj difuzní automat učil na datasetu LAION5B od stejnojmenné německé organizace.

LAION5B obsahuje už podle svého názvu 5,85 miliard párů obrázek-text, které jsou další neuronkou pečlivě očištěné od závadných dat – třeba pornografie, násilí a NSFW všeho druhu.

a71e415e-985b-4f92-9d85-30429cbf0712
Vyhledávač v databázi LAION5B

Tvůrci, kteří svoji umělou inteligenci vybudují právě nad tímto souborem studijních dat, tak mají jistotu, že pak na žádost vtipálků nezačne generovat třeba fotorealistické záběry intimních chvil dvou francouzských buldočků, protože je při tom AI nikdy neviděla.

Kde ty fotky vlastně LAION sebral?

A teď ta nejdůležitější otázka dnešního večera. Kde vlastně kluci a holky z LAIONu vzali těch bezmála 6 miliard obrázků? Na internetu přece! Prostě je tam vyčmuchal podobný typ indexovacího robota, který používají i vyhledávače jako Google, Bing nebo český Seznam. Takže to je krádež, že?

Nic nestahujeme, pouze indexujeme!

Ne, krádež to není, databáze LAION5B totiž ve skutečnosti neobsahuje samotné obrázky, ale pouze metadata a webové odkazy, kde se na internetu vyskytují. Výzkumník, který chce použít surový LAION5B si je musí pomocí automatu stáhnout až sám, nebo využít některou z odvozených kompilací. Tím se tedy přenáší veškerá zodpovědnost až na samotného tvůrce koncové technologie – třeba právě společnost Stability AI.

Teprve ta se musí vyrovnat s palčivým dilematem, že svůj difuzní automat učí na fotografiích, jejichž autoři k tomu nedali souhlas. Nicméně pozor, takto funguje i drtivá většina ostatních datasetů, na kterých se učily obrazové detektory a další neuronky v minulosti, jejichž hotových modelů je plný GitHub.

Z nápovědy na webu Laion.ai

Does LAION datasets respect copyright laws?

LAION datasets are simply indexes to the internet, i.e. lists of URLs to the original images together with the ALT texts found linked to those images. While we downloaded and calculated CLIP embeddings of the pictures to compute similarity scores between pictures and texts, we subsequently discarded all the photos. Any researcher using the datasets must reconstruct the images data by downloading the subset they are interested in. For this purpose, we suggest the img2dataset tool.

Dokud nešlo o byznys, nikdo to neřešil

Doposud to nikdo neřešil, všichni totiž automaticky předpokládali, že je vše kompatibilní s právním principem férového použití (fair use), a hlavně se vše odehrávalo v akademických laboratořích, na IT konferencích, za zavřenými dveřmi, v relativně malých komunitách na GitHubu a tak podobně.

S nástupem nové generace difuzních generátorů v loňském roce se však z doposud neznámých experimentů a firem stal celoplanetární mainstream a jejich tvůrci hledají i různý způsob monetizace. A právě komercializace nakonec motivuje tvůrce z masa a kostí, aby se hlásili o svá (údajná) práva.

Ostatně i v úvodu zmíněný našeptávač kódu Copilot prakticky nikomu nevadil až do chvíle, než GitHub loni v létě ukončil jeho bezplatný provoz v betaverzi a zpřístupnil jej výhradně jako placenou službu.

Dokážou difuzní generátory zobrazit originál?

No dobrá, ale je vůbec v lidských silách dokázat, že Stable Diffusion, Midjourney, DALL-E a rostoucí tábor dalších automatů vygeneroval obrázek, který je na první pohled kopií nějakého chráněného díla, jehož autor k tomu nedal souhlas?

Stručně řečeno, je možné tyto služby textovým příkazem donutit k tomu, aby z šumu zrekonstruovaly původní chráněný obrázek (nebo jeho dostatečně velkou a nezpochybnitelnou část)? To už by byl problém.

1069e40e-9e46-4770-8b9c-5a3915d64f53
Tak dlouho se vědci z Marylandské a Newyorské univerzity ptali Stable Diffusion, až jim vygeneroval ilustrace, které kompozičně dokonale odpovídaly originálům v datasetu LAION

Představte si například, že jste fotograf a fotografie je opravdu vaše živnost. Jednoho dne ale vaši ukázkovou galerii navštíví indexovací robot a třeba zrovna Stability AI jej použije k přeučení své technologie Stable Diffusion.

No, a byť je to velmi málo pravděpodobné, později kdosi předá veřejnému generátoru přesně takový sled textových příkazů, až Stable Diffusion vyplivne vaši dopočítanou fotografii. Bez copyrightu, možná i ve vyšším rozlišení a expozičně vylepšenou. Je to vůbec možné? Ano, přinejmenším částečně.

b5d9e935-706e-4a28-ad3e-192e9ddbfa63122b6cdc-dc2e-46be-a343-7f74095d67a4
Originál z datasetu LAION a vygenerovaná ilustrace ze Stable Diffusion, která sice obsahuje i odlišné prvky, základní kompozice se ale zachovala 

Přesně touto otázkou se totiž v minulosti věnovali třeba počítačoví vědci z Marylandské a Newyorské univerzity. S výsledky své práce se pochlubili v článku Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models, který najdete na Arxivu.

Autorská práva je třeba vyřešit, dokud ještě nejsme závislí na AI

Ať už Butterickův a Saveriho boj dopadne jakkoliv a ať už si mnozí myslí, že jim jde jen o publicitu, protože pomocí AI syntetizované malůvky a programový kód nelze považovat za kopii původního a autorsky chráněného díla, v jednom mají nejspíše pravdu.

Nejsou ani zdaleka jediní, kteří poukazují na to, že by otázku ohledně autorství takto syntetizovaných děl měly právní autority zodpovědět, dokud je ještě čas. Studijní data v dobré víře posbíraná na internetu totiž používají prakticky všichni, respektive jsou základem mnoha technologií, z nichž byly později odvozené i ty další.

I think it could be illegal.

Craig Peters, výkonný ředitel Getty Images v rozhovoru pro The Verge, proč jeho slavný katalog fotografií odmítá používat generativní obrázkové AI

Je to vlastně tak trochu začarovaný kruh. Dejme tomu, že bychom začali studijní fotografie namísto stahování z webu generovat strojově, což se ostatně už také děje. Saveri aspol. by nicméně mohli analogicky namítnout, že úplně na začátku byla opět něčí data, na kterých se stroj učil, jak vlastně generovat umělé a už zdánlivě licenčně čisté polotovary.

Slabá AI – všechny ty automaty počínaje detektory fotek a konče Midjourney a ChatGPT – bude do našich každodenních životů pronikat v následujících letech stále více a více, je proto tedy třeba definitivně rozčísnout, jestli je optikou autorskoprávní legislativy čistá jako lilie, anebo je to jeden velký softwarový pirát.

Sarah Andersen, Kelly McKernan, Karla Ortiz a další vs. Stability AI, Midjourney a DeviantArt:

Určitě si přečtěte

Články odjinud