Pokud na webu vystavujete veřejně dohledatelné fotografie, na stránce Have I Been Trained? si můžete si vyzkoušet, jestli je už vyčmuchal robot obří databáze LAION5B. Tu ke cvičení používají mnohé AI generátory obrázků včetně populárního automatu Stable Diffusion od společnosti Stability AI.
LAION5B obsahuje informace o bezmála 6 miliardách obrázkových souborů, ale bez samotných grafických dat. Najdete v něm pouze odkaz na originál, textový popisek, co je na obrázku, a další technické informace. Tím se autoři databáze chrání před nařčením z porušování autorských práv.
Kdokoliv, kdo by chtěl databázi využít pro trénink vlastní neuronové sítě, které bude předkládat studijní fotografie, si musí pomocí dalších nástrojů jednotlivé soubory nejprve stáhnout, takže veškeré břímě zodpovědnosti padne na něj.

Je moje fotografie součástí databáze, kterou ke cvičení používají neuronové sítě?
A jelikož Stability AI zveřejnila, že svůj generátor postavila právě nad LAION5B, zkraje letošního roku ji zažalovalo několik dílčích umělců ze zámoří a posléze pak i největší fotobanka na světě Getty Images. Nejprve v lednu ve Velké Británii, no před pár dny pak i v americkém Delaware.
Majitelé práv mohou označit soubory, které bude AI ignorovat
Reakcí na kritiku je právě vyhledávač Have I Been Trained, který se pokusí libovolnou fotografii vyhledat v indexu LAIONB a nabídne její smazání z učebních dat pro Stable Diffusion podobným způsobem, jako když majitel práv žádá třeba o stažení videa z YouTube.

Nahrál jsem fotografii svého avataru a web našel všechny podobné snímky v databázi LAION5B. Hned na prvním místě je původní originál, který jsem před lety použil i já. Jelikož ale nejsem autor, o výmaz samozřejmě žádat nebudu
Má to ale jeden háček. Web nijak neověřuje váš autorský nárok na dílo, které chcete zablokovat, takže teoreticky můžete označit jako chráněná data i soubory, které vám vůbec nepatří.
Stačilo by, kdyby všichni používali robots.txt
V každém případě, tento opt-out bude nejspíše jednou z cest, jak se tvůrci AI vypořádají s autorskými právy. Pokud umělec nebo databanka nebude souhlasit s tím, aby se neuronka učila na jejich datech, prostě je bude muset dodatečně označit.

Robots.txt je textový soubor, který sděluje indexovacím robotům všeho druhu, jak mají zacházet s daty. Velké vyhledávače tyto direktivy dodržují
Na stranu druhou, jeden nástroj na to už máme. Jmenuje se robots.txt a je to soubor pro webmastery, ve kterém mohou nastavit pravidla, jak se na jejich webu mají chovat internetoví roboti.
Byť se robots.txt používá primárně kvůli klasickým vyhledávačům, pokud by bylo povinností všech automatů na internetu dodržovat jeho direktivy, v podstatě bychom celý problém elegantně vyřešili bez potřeby znovu vynalézat kolo.