Neuronová síť

Jak na Živě používáme Midjourney. Poznatky a zkušenosti z kreslení obrázků pomocí neuronové sítě

V redakci Živě už několik týdnů zkoumáme službu Midjourney. Slovy popíšeme, co chceme, a neuronová síť nám to nakreslí.

A nakreslí to vážně dobře. Až tak, že jsme Midjourney zařadili mezi své zdroje ilustračních obrázků do článků. Nesáhneme automaticky do fotobanky jako dřív, ale místo toho zkoušíme umělé inteligenci říct, co nám má nakreslit. Výsledkem jsou unikátní, osobité obrázky, které často vypadají lépe než sterilní fotobankový ilustrák.

V tomto využití neuronových sítí vidíme budoucnost a chceme být na jejím začátku. Baví nás to a učíme se s AI správně mluvit, aby co nejpřesněji porozuměla tomu, co po ní chceme. Hrajeme si...

Dlouhá cesta k výsledku

Midjourney nám ale zatím rozhodně nešetří čas. Cesta k obrázku, který potom vidíte v článku na Živě, je bez výjimky hodně zdlouhavá. Často i slepá. Za jedním obrázkem mohou být i desítky pokusů.

Obvykle to probíhá nějak takto:

  • Zadáme příkaz a čekáme, co podle něj Midjourney nakreslí.
  • Někdy se to povede napoprvé a některý ze čtyř náhledů vypadá použitelně.
  • I tak ale často zkusíme další pokus se stejným zadáním; co kdyby to vyšlo lépe.
  • Často to ale nevyjde, takže upravíme zadání. Znovu a znovu upravujeme zadání.
  • Konečně si vybereme náhled, který se nám líbí.
  • Necháme si z něj udělat další variace – opět s nadějí, že by to mohlo být ještě lepší.
  • Variace porovnáme s původním náhledem, vybereme si a necháme spočítat velký obrázek. Nebo obrázky.
  • I když to vypadá dobře, zkusíme ještě dva nebo tři jiné algoritmy pro finální vykreslování, kdy každý počítá výsledek trochu jinak. Anebo znovu může dojít na další variace.
  • Často souběžně pracujeme na několika obrázcích a snažíme se potom orientovat, co na nás v Discordu, přes který se Midjourney ovládá, vlastně vyskakuje.
  • V kterémkoli kroku můžeme zjistit, že tudy cesta nevede a musíme se vrátit. Klidně až na úplný začátek.

V závěru máme potom na disku několik velkých obrázků, které prošly až do finále. Z nich si vybereme ten nejlepší. Práce ale ještě není u konce, většinou ještě přijde na řadu bitmapový editor, kterým obrázek upravíme: ořežeme, vyretušujeme různé detaily, doladíme úrovně a barevnost.

image.png 
Elon Musk jako Buzz Rakeťák. Vlevo dole je první úplně špatný pokus, vpravo dole stejné zadání znovu, jeho levý spodní náhled jsme použili pro další variace. Po použití funkce Remaster si Elon začal být na posledních (horních) obrázcích podobný

Proč mi nerozumíš?!

I když si s Midjourney píšeme přirozeným jazykem (anglicky), komunikace má svá pravidla. Člověk hlavně musí získat praxi. Teprve používáním zjistíte, co funguje, co spíš ne. Hodí se různé návody a tutorialy, vlastní zkušenost ale nic nenahradí. 

Někdy stačí napsat jen pár slov a nechat Midjourney, ať něco vymyslí. Pak případně upřesňovat. Nejlepších výsledků ale většinou dosáhnete detailním popisem toho, co na obrázku chcete. Jaké objekty, jaká má být scéna, jak má být „vyfocená“ a „nasvětlená“, jaký styl chcete...

Hodí se psát bez překlepů a srozumitelně. Já proto někdy píšu zadání česky do překladače Deepl, protože v takovém případě mi fantazii neomezuje slovní zásoba. Představivost je tady úplně klíčová: musíte popsat obrázek, který ještě nevidíte. Několikrát se mi vyplatilo přeložit přímo titulek článku a použít ho jako zadání.

Když máte v Midjourney placený účet, dostanete přístup do galerie nejlepších výtvorů. Je u nich rovnou vidět příkaz, který vedl k jejich vygenerování. To je výborný zdroj inspirace a příležitost zkoumat, co neuronové síti zadávat. Velice často to jsou extrémně dlouhé a detailní povely. 

Můžete zkusit, co stejné zadání nakreslí u vás. Výsledek bude výrazně odlišný než původní obrázek, protože Midjourney neudělá nic stejně. Ale postupným laděním a zkoušením se dá dojít ke skvělým vlastním výstupům. 

image.png 
Galerie nejlepších obrázků z Midjourney je skvělý zdroj inspirace

Midjourney ještě hodně věcí neumí. Když jsme začínali, byl velký problém například s lidskýma rukama. Postupně se to zlepšilo, ale výsledek stále není moc použitelný. Nebo jsme zjistili, že neumí nakreslit disketu, má problém s čipy i jiným hardwarem. U obrázku benzínové pumpy vedly hadice všude jinde, než měly vést. Vlak měl místo kol nožičky, kola formule 1 byla otočená o devadesát stupňů; ani jiná auta nevypadají moc reálně. I proto místo napodobování reality většinou skončíme u výstupů v podobě různých ilustrací a grafiky.

Zatím hodně chybí možnost upravovat na hotovém obrázku detaily. Třeba říct, že Elonova tvář je teď příliš červená, že chceme jiné pozadí apod. Dá se akorát zkusit štěstí, jestli nepomohou variace, nebo začít úplně od začátku, případně od nějakého stavu uprostřed.

Zkuste si udělat kvíz, jestli poznáte skladby The Beatles z obrázků, které z jejich názvů vygenerovala Midjourney

Když jsem se po týdnech experimentování s AI vrátil do fotobanky, v našem případě do Shutterstocku, přišla mi její nabídka zvláštním způsobem omezená. Fotky jsou velmi kvalitní, velké, je jich tady hodně… ale jsou tak nějak stejné, nudné. Nemohu si přesně říct, co chci. Při využívání Midjourney máme s obrázky mnohem víc práce, hodně odpadu, ale jeho obrázky mají  styl, jsou zajímavé.


Ukázky a příklady

V galerii nad článkem najdete vybrané ilustrační obrázky, které jsme k článkům během předchozích týdnů s pomocí Midjourney připravili. Následuje s komentářem pár dalších, které byly v předvýběru (našel jsem je na disku), ale nakonec jsme je nepoužili.

Tvořili jsme obrázek pro článek o nakupování bazarového hardwaru. Zkusili jsme starý, špinavý počítač. I když po mnoha pokusech něco vyšlo, nebylo to ono. Má to styl, notebook by ještě šel, ale vedle úplně chybí detaily. A není to zrovna pozitivní obrázek, tohle by nefungovalo.

Öbr 02.jpg

Tady byl další pokus s využitím jiného výtvarného stylu (vodovky a tuš). Nakonec jsme ale použili jinou, minimalistickou variantu.

Öbr 09.jpg

I když v popisu vždy přiznáváme, že obrázek je ilustrační, s tímto gejzírem bychom to pro článek o vodě na Marsu asi přehnali. Ale jinak se povedl, zajímavá je hloubka ostrosti s nezaostřeným povrchem v popředí.

Öbr 08.jpg

Midjourney moc neumí čipy ani jiný hardware. Zkusili jsme desku ve stylu steampunku, který služba velmi dobře zvládá, ale moc to nedopadlo.

Öbr 07.jpg

Steampunkové světy působí skvěle. Akorát jen do doby, než přestanete vnímat obrázek jako celek a zaměříte se na detaily.

Öbr 06.jpg

Ještě jednou steampunk. Midjourney se po poslední aktualizaci naučila dělat velmi realistické obličeje. 

Öbr 04.jpg

Nebo tady Elon coby Buzz Rakeťák. Ten se povedl, obrázek myslím ještě u nějakého článku použijeme. Stejně tak Marka Cyberbergra z úvodního obrázku, až Facebook zase provede něco zlého.

Öbr 03.jpg

V tomto je Midjourney nejlepší: temné, futuristické světy.

Öbr 05.jpg

Také tady je podobný příklad. Vlak už konečně připomíná vozidlo na kolejích a nemá místo kol chapadla jako při prvních pokusech.

Öbr 10.jpg

Midjourney tuší, jak vypadá auto, jak benzínová pumpa. Vytvoří náladový obrázek, ale ty hadice se úplně nepovedly, že?

12.jpg

Nová funkce Remaster převede obrázek do realističtější podoby. Auto se už celkem podařilo, ale válka hadic pokračuje.

11.jpg

Na závěr téma, které na Živě asi nikdy nenajdete: Midjourney je velmi silná u generování jídla. Napsali jsme, jak má dortík vypadat, a za chvíli byl na světě. Již brzy na vašich oblíbených webech s recepty…

Öbr 01.jpg
Diskuze (5) Další článek: Bill Gates: Lidé na mě veřejně pokřikovali, že do nich dávám čipy. Pomoc nepotřebuje jen Ukrajina

Témata článku: Facebook, Umělá inteligence, Mars, Elon Musk, Strojové učení, Neuronová síť, Midjourney, Shutterstock, Kreslení, Deepl, Variace, Elonova, Styl, Článek, Zadání, Elon, Remaster, Beatles, Obrázek