V posledních týdnech získal na sociálních sítích pozornost generátor obrázků DALL-E 2. S velmi podobným konceptem nyní vyrukoval Google, který představil svůj Imagen – projekt využívající umělou inteligenci k pochopení zadaného textu a následnému vytváření obrázků s „bezprecedentním stupněm fotorealismu“.
Podle vedoucího oddělení umělé inteligence Jeffa Deana mohou takovéto systémy „uvolnit společnou kreativitu člověka a počítače“ a Imagen je „jedním ze směrů, kterým se [firma] ubírá“. Proti DALL-E 2 má mít Imagen výhodu zejména ve vysoké fotorealističnosti.
Převod z textu na obrázek
„Imagen staví při porozumění textu na síle velkých transformačních jazykových modelů a opírá se o sílu difuzních modelů při generování velice věrných obrazů. Naším klíčovým objevem je, že obecné velké jazykové modely, předem natrénované na výhradně textových korpusech, jsou překvapivě účinné při kódování textu pro syntézu obrazu,“ uvádí Jeff Dean.
K prokázání tohoto pokroku vytvořil Google srovnávací test pro hodnocení modelů převodu textu na obrázky nazvaný DrawBench. Lidští hodnotitelé dávali při porovnávání vedle sebe přednost „Imagenu před ostatními modely, a to jak z hlediska kvality vzorků, tak z hlediska shody obrázku a textu.“ Imagen byl porovnáván s modely VQ-GAN+CLIP, Latent Diffusion Models a DALL-E 2.
Mezi metriky, jež byly použity k prokázání toho, že Imagen lépe rozumí požadavkům uživatelů, patří prostorové vztahy, délka textu, neobvyklá slova a náročné výzvy. Další pokrok, který byl učiněn, se týká nové architektury Efficient U-Net, která je „výpočetně efektivnější, paměťově úspornější a rychleji konverguje“.
Veřejné demo není kvůli obavám
Výzkum převodu textu na obraz čelí několika etickým výzvám. „Potenciální rizika zneužití vyvolávají obavy ohledně odpovědného poskytování otevřeného kódu a demoverzí. V tuto chvíli jsme se rozhodli nezveřejnit kód ani veřejnou ukázku. V budoucí práci prozkoumáme rámec pro odpovědné zpřístupnění, který vyváží hodnotu externího auditu s riziky neomezeného otevřeného přístupu.“
Použitá technologie má samozřejmě své klady, ale i nedostatky, které bude potřeba vyřešit. Faktem je, že Imagen získává více kladných hodnocení na obrázcích, které nezobrazují lidi, což naznačuje, že postavy či tváře patrně negeneruje tak věrohodně.
Předběžné hodnocení také naznačuje, že obsahuje několik sociálních předsudků a stereotypů, včetně celkové tendence ke generování obrázků lidí se světlejším odstínem pleti a tendence k tomu, aby obrázky zobrazující různé profese odpovídaly západním genderovým stereotypům. Vývojáře Googlu tedy čeká ještě spousta práce.