Umělá inteligence | Web | Autorské právo

Have I Been Trained? Webová stránka zjistí, jestli vaše fotky používá AI

Pokud na webu vystavujete veřejně dohledatelné fotografie, na stránce Have I Been Trained? si můžete si vyzkoušet, jestli je už vyčmuchal robot obří databáze LAION5B. Tu ke cvičení používají mnohé AI generátory obrázků včetně populárního automatu Stable Diffusion od společnosti Stability AI.

LAION5B obsahuje informace o bezmála 6 miliardách obrázkových souborů, ale bez samotných grafických dat. Najdete v něm pouze odkaz na originál, textový popisek, co je na obrázku, a další technické informace. Tím se autoři databáze chrání před nařčením z porušování autorských práv.

Kdokoliv, kdo by chtěl databázi využít pro trénink vlastní neuronové sítě, které bude předkládat studijní fotografie, si musí pomocí dalších nástrojů jednotlivé soubory nejprve stáhnout, takže veškeré břímě zodpovědnosti padne na něj.

ff2c379d-e5aa-414c-b620-386456b9bd6e
Je moje fotografie součástí databáze, kterou ke cvičení používají neuronové sítě?

A jelikož Stability AI zveřejnila, že svůj generátor postavila právě nad LAION5B, zkraje letošního roku ji zažalovalo několik dílčích umělců ze zámoří a posléze pak i největší fotobanka na světě Getty Images. Nejprve v lednu ve Velké Británii, no před pár dny pak i v americkém Delaware.

Majitelé práv mohou označit soubory, které bude AI ignorovat

Reakcí na kritiku je právě vyhledávač Have I Been Trained, který se pokusí libovolnou fotografii vyhledat v indexu LAIONB a nabídne její smazání z učebních dat pro Stable Diffusion podobným způsobem, jako když majitel práv žádá třeba o stažení videa z YouTube.

81e593e0-f867-4590-83ed-a140ed0d7442
Nahrál jsem fotografii svého avataru a web našel všechny podobné snímky v databázi LAION5B. Hned na prvním místě je původní originál, který jsem před lety použil i já. Jelikož ale nejsem autor, o výmaz samozřejmě žádat nebudu

Má to ale jeden háček. Web nijak neověřuje váš autorský nárok na dílo, které chcete zablokovat, takže teoreticky můžete označit jako chráněná data i soubory, které vám vůbec nepatří.

Stačilo by, kdyby všichni používali robots.txt

V každém případě, tento opt-out bude nejspíše jednou z cest, jak se tvůrci AI vypořádají s autorskými právy. Pokud umělec nebo databanka nebude souhlasit s tím, aby se neuronka učila na jejich datech, prostě je bude muset dodatečně označit.

4398777e-2d1a-42b7-ae4b-3ed4aca92965
Robots.txt je textový soubor, který sděluje indexovacím robotům všeho druhu, jak mají zacházet s daty. Velké vyhledávače tyto direktivy dodržují

Na stranu druhou, jeden nástroj na to už máme. Jmenuje se robots.txt a je to soubor pro webmastery, ve kterém mohou nastavit pravidla, jak se na jejich webu mají chovat internetoví roboti.

Byť se robots.txt používá primárně kvůli klasickým vyhledávačům, pokud by bylo povinností všech automatů na internetu dodržovat jeho direktivy, v podstatě bychom celý problém elegantně vyřešili bez potřeby znovu vynalézat kolo.

Váš názor Další článek: Nejstarší dobře zachovaný mozek obratlovců má přes 319 milionů let

Témata článku: , , , , , , , , , , , , , , , , , , ,