Technologie | Google | Umělá inteligence

Napište, co chcete, a umělá inteligence dle zadání vytvoří obraz. Tak funguje Imagen od Googlu

V posledních týdnech získal na sociálních sítích pozornost generátor obrázků DALL-E 2. S velmi podobným konceptem nyní vyrukoval Google, který představil svůj Imagen – projekt využívající umělou inteligenci k pochopení zadaného textu a následnému vytváření obrázků s „bezprecedentním stupněm fotorealismu“.

Podle vedoucího oddělení umělé inteligence Jeffa Deana mohou takovéto systémy „uvolnit společnou kreativitu člověka a počítače“ a Imagen je „jedním ze směrů, kterým se [firma] ubírá“. Proti DALL-E 2 má mít Imagen výhodu zejména ve vysoké fotorealističnosti.

Převod z textu na obrázek

„Imagen staví při porozumění textu na síle velkých transformačních jazykových modelů a opírá se o sílu difuzních modelů při generování velice věrných obrazů. Naším klíčovým objevem je, že obecné velké jazykové modely, předem natrénované na výhradně textových korpusech, jsou překvapivě účinné při kódování textu pro syntézu obrazu,“ uvádí Jeff Dean.

K prokázání tohoto pokroku vytvořil Google srovnávací test pro hodnocení modelů převodu textu na obrázky nazvaný DrawBench. Lidští hodnotitelé dávali při porovnávání vedle sebe přednost „Imagenu před ostatními modely, a to jak z hlediska kvality vzorků, tak z hlediska shody obrázku a textu.“ Imagen byl porovnáván s modely VQ-GAN+CLIP, Latent Diffusion Models a DALL-E 2.

Mezi metriky, jež byly použity k prokázání toho, že Imagen lépe rozumí požadavkům uživatelů, patří prostorové vztahy, délka textu, neobvyklá slova a náročné výzvy. Další pokrok, který byl učiněn, se týká nové architektury Efficient U-Net, která je „výpočetně efektivnější, paměťově úspornější a rychleji konverguje“.

Veřejné demo není kvůli obavám

Výzkum převodu textu na obraz čelí několika etickým výzvám. „Potenciální rizika zneužití vyvolávají obavy ohledně odpovědného poskytování otevřeného kódu a demoverzí. V tuto chvíli jsme se rozhodli nezveřejnit kód ani veřejnou ukázku. V budoucí práci prozkoumáme rámec pro odpovědné zpřístupnění, který vyváží hodnotu externího auditu s riziky neomezeného otevřeného přístupu.“

Použitá technologie má samozřejmě své klady, ale i nedostatky, které bude potřeba vyřešit. Faktem je, že Imagen získává více kladných hodnocení na obrázcích, které nezobrazují lidi, což naznačuje, že postavy či tváře patrně negeneruje tak věrohodně.

Předběžné hodnocení také naznačuje, že obsahuje několik sociálních předsudků a stereotypů, včetně celkové tendence ke generování obrázků lidí se světlejším odstínem pleti a tendence k tomu, aby obrázky zobrazující různé profese odpovídaly západním genderovým stereotypům. Vývojáře Googlu tedy čeká ještě spousta práce.

Diskuze (28) Další článek: Jak promítnout displej telefonu na počítač s Windows 10

Témata článku: Technologie, Google, Umělá inteligence, Strojové učení, Neuronová síť, Převod, Obrázek, Model, Imagen, Obraz, Zadání, Text, DALL-E



Sex manželských párů? Jen výjimečně. Ložnice ovládnou roboti s umělou inteligencí

Sex manželských párů? Jen výjimečně. Ložnice ovládnou roboti s umělou inteligencí

** Sex manželských párů jen při zvláštních příležitostech. ** Ložnice ovládnou sexuální roboti s umělou inteligencí. ** I to je jeden ze závěrů Mezinárodní robotické konference.

Filip KůželJiří Liebreich
RobotiSexUmělá inteligence
Jak poznat, že máte možná hacknutý telefon? Toto je devět symptomů, které můžete pozorovat

Jak poznat, že máte možná hacknutý telefon? Toto je devět symptomů, které můžete pozorovat

** Jak poznat, že je váš smartphone hacknutý? ** Hledejte známky po nestandardním chování telefonu ** Stačí když telefon vydrží méně nebo topí i v klidovém režimu...

Martin Chroust
Jak...Malware
Sociální síť BeReal jde proti proudu. Žádné filtry a přetvařování, tohle má být čistá realita

Sociální síť BeReal jde proti proudu. Žádné filtry a přetvařování, tohle má být čistá realita

** BeReal je novou hvězdou mezi sociálními sítěmi ** Ukazuje pouze všední realitu běžných dní ** Aplikace vám jednou denně dá dvě minuty na poslání vlastní fotky

Martin Chroust
BeRealMobilní aplikaceSociální sítě
Nastal pravý čas na výměnu telefonu. Jak poznat, že ten váš už dosluhuje?

Nastal pravý čas na výměnu telefonu. Jak poznat, že ten váš už dosluhuje?

** Jak poznat, že váš telefon má nejlepší dny za sebou? ** Vypadá potlučeně, má pavučinu nebo nedostává aktualizace? ** Ukážeme si, kdy má smysl jeho oprava, a kdy už jen koupě nového

Martin Chroust
Prasklý displejVysloužilý mobilSmartphony
Jak zrcadlit obrazovku mobilu a počítače do televize

Jak zrcadlit obrazovku mobilu a počítače do televize

Ať už se chcete pochlubit fotkami z dovolené na velké obrazovce, nebo si přehrát video uložené na disku počítače, neobejdete se bez zrcadlení obrazovky. Ve výchozím stavu jej podporuje Windows i Android.

Stanislav Janů
NávodyTelevizeWindows