Víte, co mají společného obrázkové AI generátory Adobe Firefly a OpenAI DALL-E? Když v nich vytvoříte obrázek a ten si pak stáhnete na počítač, součástí souboru bude digitální podpis koalice C2PA.
Stejně jako internetové certifikáty na webu potvrzuje, že tento obrázek a v konkrétní čas vytvořila umělá inteligence a každý si to může vyzkoušet na speciální ověřovací stránce Content Credentials Verify.
C2PA je rodokmen obrázku, který vytvořila AI
C2PA je poměrně propracovaný pokus, jak hned na začátku označit stále fotorealističtější AI obrázky, které by mohl leckdo zneužít k šíření polopravd, šikany a dalších neplech.
Mělo by to fungovat zhruba tak, že když budete o původu scény pochybovat, fotku si stáhnete, proženete verifikátorem, no a ten odhalí, jaká je skutečnost.
Vlevo tvorba obrázku v ChatGPT a vpravo jeho rodokmen v ověřovací službě. Podpis v sobě může držet informaci nejen o vytvoření, ale i dalších úpravách
Verifikátor sdělí, kdo a jak obrázek vytvořil. V náhledu výše vidíme vpravo rodokmen se dvěma miniaturami. Ta spodní ukazuje nejranější zdroj dat, kterým je v tomto případě OpenAI API a generátor DALL-E 3. Ta horní pak patří službě ChatGPT, která obrázek definitivně předala uživateli.
Všichni ověřujeme každý tweet! Ale houby
Jenže ruku na srdce, tohle fakt nikdo dělat nebude. Neznám jediného člověka, kterému by to v praxi stálo za to a každodenní praxe mi dává za pravdu.
I když o sobě všichni rádi tvrdíme, že je nám vlastní kritické myšlení a ověřujeme kdejaký tweet, ve skutečnosti většinou fungujeme na první signální. Lajkujeme, komentujeme a sdílíme o sto šest a leda tak kdesi hodně hluboko v hlavě doufáme, že přece sledujeme důvěryhodné lidi a ne idioty. Akorát že vůbec!
Google zavede C2PA napříč svými službami
Aby C2PA mělo alespoň nějaký smysl, musí jej automaticky používat velké platformy a výsledek třeba formou vodotisku či textového dodatku doplnit rovnou k obsahu, aby to bylo hned na očích.
Řídící výbor koalice C2PA je plný zvučných jmen. Důležitý je hlavně Google a Meta. Mezi ostatními pak nechybí ani TikTok. Marně na seznamu hledám X, Stability AI a Midjourney
A přesně to teď bude dělat jedna z těch největších platforem na světě – Google, který se už pochlubil na svém blogu!
Dokud se ovšem nepřidají sociální sítě, a hlavně producenti obsahu, nemůže to už z principu věci fungovat.
DALL-E a Midjourney deepfake nevytvoří
Stručně řečeno, je sice příkladné, že OpenAI zavedlo C2PA už letos v zimě, ale omalovánky ze zastaralého DALL-E 3 dokáže od reality rozlišit i houpací koník pro děti. A Midjourney na tom není jinak!
Jeho síla spočívá v kreativní šíři a vkusu, ale nikoliv v tvorbě deepfaků všeho druhu. Na to si velké komerční AI služby dávají velký pozor. I kdyby totiž Midjourney na technologické úrovni dokázalo vytvořit fotorealisticky naprosto věrnou (*) fotografii Miloše Zemana v průvodu Prague Pride, nemůže podobnou kvalitu nabídnout široké veřejnosti.
(* ještě jednou, mám na mysli opravdu věrný deepfake na té úrovni, kdy už nerozeznáte realitu od fikce)
Věrný AI inpainting zvládne kde kdo
Úplně jinak na tom je ale zástup komunitních modelů na GitHubu a Hugging Face, které se specializují na inpainting a často používají některou z mnoha variant open-source modelů z rodiny Stable Diffusion.
Kvalitní deepfake spočívá hlavně v tom, že je uvěřitelné už jeho téma, a tak nezkoumáme každý pixel. Plavců v rozvodněných řekách jsme za poslední týden viděli celou řadu
Inpainting je koláž reality a fikce, jako základ totiž slouží skutečná fotografie, ve které maskou označíme místo, se kterým se má něco stát – kde se má něco domalovat. Na rozdíl od primitivní koláže z rastrového editoru se ale aplikuje holistický přístup.
To znamená, že když neuronku instruujete, aby do scény města při podvečerní zlaté hodince domalovala kouř, domaluje ho tak, že expozičně opravdu docela zapadá do snímku. Má tedy správnou teplotu bílé, hází správný stín, a protože je inpainting malý a kdesi v dáli, na sociálních sítích nebude nikdo zkoumat, jestli je opravdu pravý. Tedy pokud nebude obsahově příliš extrémní (viz náš plavec).
Neexistuje způsob, jak vnutit C2PA open-source
Přesně v těchto situacích by bylo C2PA opravdu potřeba, jenže je od začátku odsouzeno k neúspěchu, protože kdo mě donutí k tomu, abych jej vložil do snímku? Co když použiji právě jeden z mnoha inpainting generátorů na internetu, anebo jej spustím na své vlastní mašině vyzbrojené dostatečně výkonnou grafickou kartou?
Jednou z mála komerčních služeb s podporou inpaintingu je třeba Adobe FireFly
Digitální podpis C2PA jsou ke všemu jen metadata – podobná metadata jako třeba EXIF s údaji o fotoaparátu. I když jimi tedy bude chráněný obrázek stažený třeba z Adobe FireFly, který také umí inpainting, i naprostý trouba jej velmi snadno odstraní. Vystačí si s Malováním ve Windows.
Adobe FireFly tedy do obrázku vnesl viditelný vodotisk a do metadat podpis C2PA, pan Luboš Pralinka nicméně snímek vypral jednoduše tak, že namísto publikace originálu vytvořil snímek obrazovky. Sice tímto krokem porušil licenci Adobe, ale to je opravdu to poslední, co by snad mělo zastavit podobné Pralinky nejen na českém internetu.
Podpisem musejí být samotné pixely
Jedinou možností, jak opravdu trvale podepisovat obrázky generované umělou inteligencí, je tedy ověřovací vzor, který se propíše přímo do obrazových dat a bude dostatečně silný, aby přežil i velmi silnou transformaci. Musel by být odolný třeba jako QR kód, díky jehož robustnosti si ho můžeme vytvářet v různých barvách a stylizacích.
Pokud máte dobrý mobil, tento QR z AI generátoru na HuggingFace přečtete levou zadní a dozvíte se o autorovi článku informaci, kterou neříká jen tak na potkání
Obrázky s vodotiskem QR kódu ale fakt nikdo nechce, chtělo by to proto jinou techniku. Ideálně takovou, kterou používají programy pro skládání panoramatických snímků.
Třeba v podobě měřítkově-neměnných struktur
Jejich základem jsou algoritmy pro vyhledávání totožných struktur na sousedících fotografiích, které jsou pro software viditelné i při vzájemně odlišné geometrické deformaci (způsobené objektivem atp.).
Jedním ze základních algoritmů pro vyhledávání klíčovacích bodů je třeba SIFT (Scale-Invariant Feature Transform) a ukázali jsme si jej v článku Jak složit panorama v Pythonu.
Vyznačené struktury SIFT, které by měly na fotografii přežít i při změně její velikosti a geometrie
Právě proto jsou vhodné jako klíčovací body při skládání panoramat. Skládač hledá ty stejné na sousedících záběrech (všimněte si, že chybuje, a proto se panorama ne vždy podaří)
Kdyby se tedy všichni tvůrci generativní AI domluvili, že jejich programy budou do dat vnášet pro člověka neviditelně podpisy ve formě pixelových struktur, detekce by fungovala ideálně i při změně barev a rozměrů obrázku.
Člověk by je zničil leda tak, že celý obrázek začmárá černou barvou, anebo provede drastickou ztrátovou kompresi (JPEG na 20 %?), což je ale pro šíření fake news poněkud nepraktické.
Ale ani to nemůže fungovat. Řešení je jediné
Technologie jako taková by sice opravdu mohla fungovat, ale co naplat, ještě ten den po oznámení přelomového digitálního podepisování AI by se vyrojil zástup svobodných neuronek, které nic z toho dodržovat nebudou. Vyrojil by se z prosté lidské potřeby vzdorovat autoritě.
Obrázky z AI generátoru dokáže spolehlivě detekovat nejspíše jen nějaká další AI
A tak nám nezbývá nic jiného, než doufat hlavně v to, že fotorealisticky věrně generované obrázky zítřka identifikuje nějaká další AI provozovatele platformy. A ta je pak sama doplní varováním a třeba i spočítá jejich kontrolní součet, který pak bude sdílet s dalšími operátory v databance podvrhů. Tak, jak se to už dnes děje (byť ne úplně funkčně) třeba ve světě ochrany autorských práv.