Umělá inteligence | Strojové učení | Neuronová síť

Midjourney a Stable Diffusion před soudy v USA i Evropě. Jak funguje difuzní AI a v čem je problém?

  • Slovíčka Midjourney a Stable Diffusion dnes zná skoro každý
  • Obrázky od umělé inteligence zaplavily internet
  • Jak fungují difuzní generátory a proč prý porušují autorská práva

Během loňského roku zaplavily internet tisíce a tisíce mnohdy fotorealistických ilustrací, které už nenakreslil člověk, ale podle textového zadání počítačový program.

Lidstvo se naučilo nová slovíčka DALL-E 2, Midjourney a Stable Diffusion, no a komentátoři krátce poté zaplnili mediální prostor hromadou sloupků o tom, jak vstupujeme do nové éry, ve které kreativci všeho druhu nebudou nadále potřeba, protože je nahradí umělá inteligence.

První kolo: Žalujeme Microsoft a OpenAI

Nemyslí si to ale zdaleka všichni. K těm nejhlasitějším kritikům nové vlny chytrého softwaru patří zejména typograf, programátor a právník v jedné osobě Matthew Butterick, který se dal loni dohromady s expertem na hromadné žaloby Josephem Saverim a zkraje listopadu se společně obrátili na soud v San Francisku.

Jejich první pokus o soudní spor GitHub Copilot litigation si klade za cíl jednou provždy rozčísnout otázku, komu vlastně patří plody práce podobných softwarových automatů.

„To je můj kód,“ píše profesor Tim Davis z Texas A&M University:

Jak už název napovídá, v listopadu zažehnutá právní bitva viní GitHub, jeho mateřský Microsoft a OpenAI z toho, že se jejich komerční našeptávač programového kódu GitHub Copilot učil doplňovat text na licenčně chráněných datech někoho jiného, aniž by k tomu dostal souhlas.

Druhé kolo: Žalujeme Midjourney a Stability AI

Uplynuly dva měsíce a Butterick se Saverim se vracejí do boje. Před pár dny rozeslali médiím z celého světa text nové hromadné stížnosti k sanfranciskému federálnímu soudu, přičemž na seznamu žalovaných tentokrát figurují angloamerická společnost Stability AI (tvůrce Stable Diffusion), Midjourney a DeviantArt z Delaware.

Klepněte pro větší obrázek
Difuzní generátory půjdou možná před soud

Po vzoru podzimní kauzy Butterick opět vytvořil web Stable Diffusion litigation, na kterém se tentokrát pokouší širšímu publiku vysvětlit, oč jim vlastně jde.

Mimochodem, jelikož chtějí dosáhnout hromadné žaloby a soudního řízení před porotou, Saveriho právní firma zastupuje trojici renomovaných ilustrátorek Sarah Andersen (její knihy vyšly i v Česku), Kelly McKernan a Karlu Ortiz.

Getty Images žaluje Stability AI ve Velké Británii

V úterý 17. ledna se do boje se syntetickými generátory ilustrací pustil také britsko-americký konglomerát Getty Images, pod jehož křídla patří fotobanky Getty Images, iStock a Unsplash. Katalogy dohromady čítají okolo 500 milionů fotografií, ilustrací a videí. Hlavní konkurent Shutterstock nabízí podle dostupných dat více než 400 milionů položek.

Klepněte pro větší obrázekKlepněte pro větší obrázekKlepněte pro větší obrázek
Praha v databázích Getty Images, iStock a Unsplash

Vedení společnosti se proti Stability AI, DALL-E a Midjourney vyjadřovalo už během loňského roku a nyní v tiskové zprávě oznámilo, že zažalovalo Stability AI u britského Vrchního soudu.

Podle Getty Images společnost Stability AI porušila autorská práva fotografů a ilustrátorů, když jejich díla bez svolení použila ke strojovému učení generátoru Stable Diffusion. Stability AI se naopak brání slovy, že využila právní princip férového použití – fair use. Více se dočtete níže v článku.

Originál, nebo jen koláž existujících děl?

Pointa sporu je identická s tou předchozí, generátor programového kódu ale tentokrát nahrazují právě ony syntetizátory ilustrací, které jste si možná sami vyzkoušeli, nebo dokonce už používáte i pro svůj vlastní byznys.

Klepněte pro větší obrázekKlepněte pro větší obrázekKlepněte pro větší obrázek
Fotorealistické ilustrace vytvořené automatem Stable Diffusion

Stručně řečeno, autoři žaloby chtějí přinutit soud, aby precedentně rozhodl, jestli jsou generativní difuzní umělé inteligence opravdu tvůrci svébytného obsahu, anebo jen tvoří modifikované kopie již existujících děl, která někomu patří.

Rozptyl do šumu

Abychom se v tom celém vyznali, musíme si nejprve ve vší stručnosti vysvětlit, jak vlastně technologie Midjourney, DALL-E a Stable Diffusion fungují v praxi.

Podobných generátorů jsme tu totiž měli za poslední dekádu už tucty, tato trojice však ohromila svět hlavně z toho důvodu, že její tvůrci dovedli k dokonalosti relativně novou difuzní techniku strojového učení.

Klepněte pro větší obrázek
Postupný rozptyl původního obrazce v šum 

Základní princip je vlastně docela jednoduchý. Představte si, že máte libovolný obrázek a během strojového učení do něj v každém kroku přidáte trošku nahodilého šumu. Softwarový algoritmus na pixelové úrovni studuje, jak obrázek postupně degraduje a jak z něj mizí dříve patrné struktury, čímž si vlastně učí, jak mají vypadat.

To je tedy ve vší stručnosti ona difuze – rozptyl původní informační struktury ve zdánlivě neuspořádaný systém.

Rekonstrukce ze šumu

Podstata difuzního generování dat – nemusí to být pouze obrázek z Midjourney, ale třeba i syntetizovaný zvuk – spočívá v tom, že v další fázi celý proces otočíme.

Klepněte pro větší obrázek
Rekonstrukce původního obrázku z šumu, ve kterém zůstala drobná rezidua originálu

Pokud se algoritmus učil, jak se nějaké struktury pixelů postupně měnily v neuspořádaný systém, dokáže z šumu, ve kterém stále zůstávají pro člověka neviditelná rezidua informací, zrekonstruovat původní originál. Je to vlastně jen velmi složitý dešumizér – denoiser.

Protože v šumu zůstalo opravdu málo původních informací, stačí v něm změnit pár bitů a difuzní generátor rekonstruuje původní obrázek v trošku jiné podobě, protože nyní v šumu vidí rezidua i nějakých dalších struktur, na kterých se učil.

Klepněte pro větší obrázek
Drobná změna ve vstupním šumu způsobí různé varianty rekonstruovaného originálu

Textový dotaz je vlastně vstupní šum

Celé kouzlo tedy, velmi zjednodušeně řečeno, spočívá v tom, že když chytře upravíme podobu vstupního šumu, generátor vytvoří zhruba to, co potřebujeme.

Podívejte se, jak v nitru funguje Stable Diffusion pro vývojáře v Pythonu 

Tímto šumem může být na numerické úrovni třeba matematická interpretace textového zadání. Stroj se totiž učil na párech text-obrázek, takže ví, jakému šumu odpovídá jaký popisek.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Generátor se nejdříve naučil, jaké obrázky patří k jakým slovům. V dalším kroku pak buď textový, nebo obrazový vstup interpretoval (U-Net) jako šum s drobnými rezidui objektů, které se mají zhmotnit (predicted noise)

V praxi je na většině služeb takto vygenerovaný obrázek opravdu pokaždé trošku jiný, program totiž k vstupní textové instrukci přidá i sůl – náhodný sled znaků –, která zajistí, že bude pokaždé jiný i šum, ze kterého denoiser generuje výsledek.

Klepněte pro větší obrázek
Předpřipravený šum s rezidui si konečně vezme na starost denoiser a postupným průchodem začne vytvářet hotovou ilustraci podle toho, jaká rezidua v šumu vidí a jak se je naučil interpretovat

Právě tato sůl mimochodem podle kritiků zajišťuje to, aby difuzní generátory ještě více skryly (modifikovaly) studijní obrázky, ke kterým se už vážou autorská práva a které by neměl generátor nikdy zobrazit v původní podobě, protože by se prozradil, že je vlastně ukradl kdesi na internetu. Vrátíme se k tomu níže v článku.

Difuzní technika může data také opravovat 

Vstupním šumem pro denoiser ale může být i nějaký jiný obrázek – třeba rozbitá fotografie, kterou chceme opravit. Protože se difuzní generátor naučil, jak se v šum mění miliardy různých obrazových vzorů, dokáže šum nekvalitní předlohy proměnit opět v pravděpodobný originál.

Zvětšení fotografie difuzním dopočítáním (Google Research):

Difuzní techniku tak nemusíme používat jen v aplikacích jako Midjourney nebo DALL-E, ale také pro zvětšení fotografie, odstranění rozčtverečkované tváře, doostření pomocí AI a tak dále.

LAION5B: Šest miliard odkazů na obrázky

Stable Diffusion, který je jedním z žalovaných v čerstvé kauze, svůj difuzní automat učil na datasetu LAION5B od stejnojmenné německé organizace.

LAION5B obsahuje už podle svého názvu 5,85 miliard párů obrázek-text, které jsou další neuronkou pečlivě očištěné od závadných dat – třeba pornografie, násilí a NSFW všeho druhu.

Klepněte pro větší obrázek
Vyhledávač v databázi LAION5B

Tvůrci, kteří svoji umělou inteligenci vybudují právě nad tímto souborem studijních dat, tak mají jistotu, že pak na žádost vtipálků nezačne generovat třeba fotorealistické záběry intimních chvil dvou francouzských buldočků, protože je při tom AI nikdy neviděla.

Kde ty fotky vlastně LAION sebral?

A teď ta nejdůležitější otázka dnešního večera. Kde vlastně kluci a holky z LAIONu vzali těch bezmála 6 miliard obrázků? Na internetu přece! Prostě je tam vyčmuchal podobný typ indexovacího robota, který používají i vyhledávače jako Google, Bing nebo český Seznam. Takže to je krádež, že?

Nic nestahujeme, pouze indexujeme!

Ne, krádež to není, databáze LAION5B totiž ve skutečnosti neobsahuje samotné obrázky, ale pouze metadata a webové odkazy, kde se na internetu vyskytují. Výzkumník, který chce použít surový LAION5B si je musí pomocí automatu stáhnout až sám, nebo využít některou z odvozených kompilací. Tím se tedy přenáší veškerá zodpovědnost až na samotného tvůrce koncové technologie – třeba právě společnost Stability AI.

Teprve ta se musí vyrovnat s palčivým dilematem, že svůj difuzní automat učí na fotografiích, jejichž autoři k tomu nedali souhlas. Nicméně pozor, takto funguje i drtivá většina ostatních datasetů, na kterých se učily obrazové detektory a další neuronky v minulosti, jejichž hotových modelů je plný GitHub.

Z nápovědy na webu Laion.ai

Does LAION datasets respect copyright laws?

LAION datasets are simply indexes to the internet, i.e. lists of URLs to the original images together with the ALT texts found linked to those images. While we downloaded and calculated CLIP embeddings of the pictures to compute similarity scores between pictures and texts, we subsequently discarded all the photos. Any researcher using the datasets must reconstruct the images data by downloading the subset they are interested in. For this purpose, we suggest the img2dataset tool.

Dokud nešlo o byznys, nikdo to neřešil

Doposud to nikdo neřešil, všichni totiž automaticky předpokládali, že je vše kompatibilní s právním principem férového použití (fair use), a hlavně se vše odehrávalo v akademických laboratořích, na IT konferencích, za zavřenými dveřmi, v relativně malých komunitách na GitHubu a tak podobně.

S nástupem nové generace difuzních generátorů v loňském roce se však z doposud neznámých experimentů a firem stal celoplanetární mainstream a jejich tvůrci hledají i různý způsob monetizace. A právě komercializace nakonec motivuje tvůrce z masa a kostí, aby se hlásili o svá (údajná) práva.

Ostatně i v úvodu zmíněný našeptávač kódu Copilot prakticky nikomu nevadil až do chvíle, než GitHub loni v létě ukončil jeho bezplatný provoz v betaverzi a zpřístupnil jej výhradně jako placenou službu.

Dokážou difuzní generátory zobrazit originál?

No dobrá, ale je vůbec v lidských silách dokázat, že Stable Diffusion, Midjourney, DALL-E a rostoucí tábor dalších automatů vygeneroval obrázek, který je na první pohled kopií nějakého chráněného díla, jehož autor k tomu nedal souhlas?

Stručně řečeno, je možné tyto služby textovým příkazem donutit k tomu, aby z šumu zrekonstruovaly původní chráněný obrázek (nebo jeho dostatečně velkou a nezpochybnitelnou část)? To už by byl problém.

Klepněte pro větší obrázek
Tak dlouho se vědci z Marylandské a Newyorské univerzity ptali Stable Diffusion, až jim vygeneroval ilustrace, které kompozičně dokonale odpovídaly originálům v datasetu LAION

Představte si například, že jste fotograf a fotografie je opravdu vaše živnost. Jednoho dne ale vaši ukázkovou galerii navštíví indexovací robot a třeba zrovna Stability AI jej použije k přeučení své technologie Stable Diffusion.

No, a byť je to velmi málo pravděpodobné, později kdosi předá veřejnému generátoru přesně takový sled textových příkazů, až Stable Diffusion vyplivne vaši dopočítanou fotografii. Bez copyrightu, možná i ve vyšším rozlišení a expozičně vylepšenou. Je to vůbec možné? Ano, přinejmenším částečně.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Originál z datasetu LAION a vygenerovaná ilustrace ze Stable Diffusion, která sice obsahuje i odlišné prvky, základní kompozice se ale zachovala 

Přesně touto otázkou se totiž v minulosti věnovali třeba počítačoví vědci z Marylandské a Newyorské univerzity. S výsledky své práce se pochlubili v článku Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models, který najdete na Arxivu.

Autorská práva je třeba vyřešit, dokud ještě nejsme závislí na AI

Ať už Butterickův a Saveriho boj dopadne jakkoliv a ať už si mnozí myslí, že jim jde jen o publicitu, protože pomocí AI syntetizované malůvky a programový kód nelze považovat za kopii původního a autorsky chráněného díla, v jednom mají nejspíše pravdu.

Nejsou ani zdaleka jediní, kteří poukazují na to, že by otázku ohledně autorství takto syntetizovaných děl měly právní autority zodpovědět, dokud je ještě čas. Studijní data v dobré víře posbíraná na internetu totiž používají prakticky všichni, respektive jsou základem mnoha technologií, z nichž byly později odvozené i ty další.

I think it could be illegal.

Craig Peters, výkonný ředitel Getty Images v rozhovoru pro The Verge, proč jeho slavný katalog fotografií odmítá používat generativní obrázkové AI

Je to vlastně tak trochu začarovaný kruh. Dejme tomu, že bychom začali studijní fotografie namísto stahování z webu generovat strojově, což se ostatně už také děje. Saveri aspol. by nicméně mohli analogicky namítnout, že úplně na začátku byla opět něčí data, na kterých se stroj učil, jak vlastně generovat umělé a už zdánlivě licenčně čisté polotovary.

Slabá AI – všechny ty automaty počínaje detektory fotek a konče Midjourney a ChatGPT – bude do našich každodenních životů pronikat v následujících letech stále více a více, je proto tedy třeba definitivně rozčísnout, jestli je optikou autorskoprávní legislativy čistá jako lilie, anebo je to jeden velký softwarový pirát.

Sarah Andersen, Kelly McKernan, Karla Ortiz a další vs. Stability AI, Midjourney a DeviantArt:

Diskuze (48) Další článek: Americký Bradley je už v Polsku. Někdejší odpověď na sovětské BMP vystrašila i Saddáma

Témata článku: Microsoft, Google, Umělá inteligence, Internet, USA, Evropa, Strojové učení, Midjourney, Praha, Velká Británie, Neuronová síť, Shutterstock, GitHub, DALL-E, Newyorská univerzita, Ilustrace, Craig Peters, Obrázek, Seznam, Generátor, Texas, Česká republika, The Verge, DeviantArt, Šum



Microsoft Store pro Windows 10 a 11 se již konečně může plnit i klasickými programy

Microsoft Store pro Windows 10 a 11 se již konečně může plnit i klasickými programy

**Microsoft spouští loni oznámený reklamní systém pro Store **Je co kapitalizovat, programy i návštěvníci přibývají **Do Storu už mohou bez omezení proudit klasické programy

Petr Urban
Microsoft StoreMicrosoft
Spousta řidičů v Česku riskuje pokutu kvůli umístění držáku mobilního telefonu. Zákon hovoří jasně

Spousta řidičů v Česku riskuje pokutu kvůli umístění držáku mobilního telefonu. Zákon hovoří jasně

** Kam s telefonem v autě, které nemá palubní počítač? ** Variant držáků je celá řada, ale každý má svá specifika ** Není možné jej umístit, kam se vám zlíbí

AutoRevue.cz
LegislativaPro řidičePříslušenství
Bude to o prsa. Facebook a Instagram pořád neví, kdy jsou zobrazené bradavky porno

Bude to o prsa. Facebook a Instagram pořád neví, kdy jsou zobrazené bradavky porno

**Meta má zjednodušit pravidla a být ke všem spravedlivá **Facebook s Instagram věnují samostatný odstavec bradavkám **Pravidla ale neřeší nebinární, transsexuální a intersexuální osoby

Petr Urban
InstagramFacebookSociální sítě
Nabíjíte jen jednou za týden. Tomuto smartphonu pomáhá k nadstandardní výdrži rekordní kapacita baterie

Nabíjíte jen jednou za týden. Tomuto smartphonu pomáhá k nadstandardní výdrži rekordní kapacita baterie

** Do prodeje se brzy dostane telefon, který dobijete jednou za týden ** Vděčí za to rekordně velké kapacitě baterie ** 22 000 mAh v mobilu, to dodnes zatím nikdo neměl

Martin Chroust
MIL-STD 810Zvýšená odolnost
Google není jen vyhledávač: 15 užitečných funkcí, o kterých možná ani nevíte

Google není jen vyhledávač: 15 užitečných funkcí, o kterých možná ani nevíte

** Google umí kromě vyhledávání i spoustu dalších věcí ** Vybrali jsme více než 15 užitečných funkcí a schopností ** Stačí zadat do vyhledávače ta správná klíčová slova

Karel Kilián
TipyVyhledávačeGoogle
Za WhatsApp se bude platit! Za předplatné dostanete funkci, která je u konkurence zadarmo

Za WhatsApp se bude platit! Za předplatné dostanete funkci, která je u konkurence zadarmo

** Bylo to jen otázkou času ** Už i WhatsApp nabízí prémiové předplatné ** Za poplatek dostanete funkci, která je u konkurence zadarmo

Martin Chroust
předplatnéWhatsAppMobilní aplikace
Co s novým počítačem: Tohle udělejte, než ho začnete používat

Co s novým počítačem: Tohle udělejte, než ho začnete používat

**Každý nový počítač si zaslouží počáteční péči **Odinstalujte bloatware a nezapomeňte na vhodné nastavení **Poradíme, jaký software do nového počítače nainstalovat

Petr UrbanDavid Polesný
TipyPočítače
Vědci zkoumali přesnost měření stavby těla u hodinek od Samsungu. Výsledky všechny překvapily

Vědci zkoumali přesnost měření stavby těla u hodinek od Samsungu. Výsledky všechny překvapily

** Chytré hodinky běžně bereme jako informativní měřidla ** Jak si však stojí ve srovnání s profesionálními měřiči ** Při měření stavby těla se na hodinky můžete spolehnout

Martin Chroust
Galaxy Watch4Měření
Humor za každou cenu se nevyplácí. Komentáře OnePlus k premiéře řady Galaxy S23 budí spíše rozpaky

Humor za každou cenu se nevyplácí. Komentáře OnePlus k premiéře řady Galaxy S23 budí spíše rozpaky

** Když Apple představuje novinky, Samsung je rád komentuje ** Nyní si to stejné vyzkoušelo OnePlus ** Výsledné vtipné hlášky na Twitteru však budí spíše rozpaky

Martin Chroust
Unpacked
15 praktických tipů a triků pro Mapy.cz, které možná neznáte

15 praktických tipů a triků pro Mapy.cz, které možná neznáte

** Mapy.cz neslouží jen k zobrazení podkladů a plánování tras ** Nabízejí celou řadu dalších praktických funkcí a možností ** Vybrali jsme 15 tipů a triků, o kterých možná nevíte

Karel Kilián
Mapy.czMapyTipy
Návod, jak dostat maximum z Peněženky Google

Návod, jak dostat maximum z Peněženky Google

Služba Google Wallet (Peněženka Google) schlamstla před několika měsíci platební aplikaci Google Pay. Díky tomu se původní platforma rozrostla o další funkce. Je zde však i prostor pro zlepšení.

Jan Spěšný
Šedý trh s předplatným se vymyká kontrole. Spotify, Netflix nebo Disney+ můžete mít doslova za pár korun

Šedý trh s předplatným se vymyká kontrole. Spotify, Netflix nebo Disney+ můžete mít doslova za pár korun

** Sdílení účtů mezi kamarády je jen začátek ** Dnes letí nákupy předplatných v Indii nebo na Aliexpressu ** Superlevné „netflixy“ ale mohou nakonec spíš škodit

Lukáš Václavík
PředplatnéNetflixSpotify