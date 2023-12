Vyšla nová verze obrázkového generátoru Midjourney. Číslo modelu tentokrát neposkočilo jen o desetiny, aktuálně jsme o jednotku výš na verzi v6 alpha.

Změny už nejsou tak zásadní a výrazné, jako když před rokem přišel model v4, nebo když se na jaře změnil v pětku. Pokud jde ale o kvalitu výstupů v kombinaci s jednoduchým zadáváním, Midjourney stále zůstává nejlepší službou svého druhu.

Tak co Emma?

V galerii nad článkem najdete srovnání tří posledních verzí Midjourney. Se stejnými prompty jsme vygenerovali obrázky ve verzích v5.1, v5.2 a v aktuální v6. Můžete přímo porovnat rozdíly, v popiscích vždy najdete použité textové zadání. Kdybyste se chtěli podívat, jak stejné obrázky dopadly v Midjourney v5, máme je ve starším článku.

Z tradičních důvodů nemůžeme pochopitelně začít jinak než Emmou Watson. Midjourney na ní zkoušíme od prvních verzí. U v5.1 jsme si všimli, že služba začíná mít problémy problémy s věrným zobrazením známých osobností. Emma přestávala být Emmou.

Co šestka? Obrázek je pěkný a velmi fotorealistický. Herečka by se v něm asi dala poznat, ale máme stále pocit, že dříve ji Midjourney zvládalo vygenerovat lépe.

Podívejte se ještě na jeden obrázek, kde jsme použili parametr --style raw. S ním se Midjourney nesnaží obrázky tolik vylepšovat do svého estetického pohledu, víc zachová zadání. Právě u „fotek“ se raw často vyplatí.

Opět to jsou velmi pěkné obrázky, ale Emma to není. Mimochodem všimněte si čtvrté pózy na první čtveřici a druhého obrázku na druhé. Nevypadají úplně přirozeně, že?

Ve všech ukázkách, kde v článku nebo galerii vidíte tyto čtveřice, jsme nic neladili a nehledali nejlepší výsledky. Rovnou ukazujeme první obrázek, který Midjourney po zadání vygenerovalo. Je proto velmi pravděpodobné, že dalšími pokusy a úpravami zadání bychom došli k lepším výsledkům.

Jako druhý obrázek v pořadí vždycky zkoušíme ledňáčka. V textu u něj ukážeme i předchozí dvě varianty (u všech ostatních obrázků je najdete v galerii), protože je tady dobře vidět jeden z rozdílů šestky. Zdá se nám, že čatěji generuje světlejší obrázky, ne tak kontrastní jako dřív. Zrovna u ledňáčka ale bylo tmavé pozadí výhodou, v obrázku tak byl zřetelnější.

U kosmonautky jsme chtěli realistický portrét. V předchozích verzích Midjourney vždy vytvořilo detail na obličej ve skafandru, tady jsou ale všechny obrázky víc z dálky a u prvního vůbec nejde o portrét. Detaily jsou špičkové, o tom nelze debatovat, jen jakoby služba rozuměla promptům jinak než dřív.

Je to opravdu tak. Midjourney v informacích k novému modelu výslovně uvádí, že prompty se výrazně liší od modelu v5. A že se budeme muset znovu naučit, jak je sestavovat.

V6 je prý mnohem citlivější na to, co v zadání napíšeme. Je například potřeba vyhnout se požadavkům typu award winning, photorealistic, 4k, 8k… To byly finty, jak v předchozích modelech dosáhnout třeba fotorealistického výsledku. Nyní už tato zadání mohou obrázky naopak dostat tam, kam je nechceme.

Midjourney radí: „Řekněte jasně, co chcete. Pokud budete explicitní, AI vám bude nyní mnohem lépe rozumět. Pokud chcete něco více fotografického a přesného, měli byste pravděpodobně standardně používat parametr --style raw.“

Všech více než třicet scén, na kterých Midjourney pravidelně testujeme, najdete v galerii nad článkem. Do textu vytahujeme jen některé z nich. Třeba tady A girl listening to music… Na první čtveřici je varianta bez parametru raw a obrázek je takový zvláštně vyhlazený. Zasáhla do něj estetika Midjourney, ze které asi poznáte, že se nedíváte na fotku

Když použijete parametr raw, výstup je skutečně realističtější.

Je třeba přiznat, že s prsty AI stále bojuje. Je to nesrovnatelně lepší než dřív, ale od páté verze se toho moc nezměnilo.

Všimli jsme si ještě detailu, který možná přichází s šestkou: zubů. Jsou mnohem víc realistické, často nerovné, zažloutlé; na některých výstupech by si objekt doslova zasloužil zubaře. Na jinak krásných, profesionálních výstupech, to někdy až ruší. Možná bude častěji potřeba výslovně žádat nice teeth. Anebo jde zatím o náhodu v několika obrázcích, jev bude potřeba ještě prozkoumat.

Tady je další ukázka velmi pěkně prokresleného obrázku. Všimněte si detailů, světla, hloubky ostrosti. A samozřejmě také nesmyslu u prvního návrhu.

U tohoto obrázku Midjourney v6 zklamalo. Detaily jsou opět dechberoucí, ale my jsme přece stejně jako dřív chtěli veselého, chechtajícího se oslíka. Ani jeden!

Zatímco Emmu Watson Midjourney v nových verzích spíš zapomíná, Elon Musk je stále perfektní. Opět ukazujeme standardní nastavení a pod ním variantu s parametrem raw, která by měla být přirozenější, ještě víc fotorealistická.

Nemůžeme pochopitelně zapomenout na benchmark všech benchmarků, našeho oblíbeného Ježíše ve Fabii. Právě u takových nesmyslných zadání, kdy AI nemůže úplně vyjít z natrénovaných dat, se totiž nejlépe ukáže, co umí.

Tady ale stále neumí. Dříve se Midjourney aspoň pokoušelo smíchat auto podobné Fabii s Ježíšem, teď na škodovku úplně rezignovalo. Ježíš je vykreslený pěkně, ale poslední obrázek rozhodně nemá s Fabií nic společného.

Mimochodem DALL-E byl u Ježíše s Fabií mnohem úspěšnější. Tuto konkurenční službu jsme s Midjourney srovnávali v tomto článku:

Velkou výhodou Midjourney ve srovnání s DALL-E je menší citlivost na závadná slova. Zatím se stále nebrání promtům, které obsahují jména známých osobností, a celkově snese víc než DALL-E. Ten uživatele vyhání i s nevinnými výrazy, které by třeba jen mohly narazit na nějaké ochranné známky.

Alfa verzi v6 chybí ještě některé funkce. Nedá se využít třeba odzoomování, protahování obrázku do určitého směru nebo inpainting. Většina běžných parametrů a funkcí je ale už implementovaná včetně pro nás nejdůležitějšího: přesného nastavení poměru stran.

Jednou z novinek Midjourney v6 má být Mírná schopnost kreslit text. Doposud totiž byl velký problém přinutit obrázkové umělé inteligence, aby do výstupů dostaly přesně zadaný text. Ani DALL-E, kde se tato schopnost po úvodní prezentaci očekávala, texty nezvládá.

U Midjourney je to teď lepší než dřív, ale do cíle je stále velmi daleko. Podívejte se na srovnání. Na první čtveřici je starší model v5.2, který zadání metal door with the words "NEVSTUPOVAT!" úplně ignoroval. Novinka v6 se snaží prompt respektovat, ale většinou nepříliš úspěšně.

Oživeno: David Grudl na X přesně popsal, proč má AI s textem takový problém. Nemá, přistupuje k němu stejně jako k jiným prvkům scény. Ten problém máme my.

Půjde to i bez Discordu

Tato novinka z minulého týdne nemá s novým modelem v6 nic společného, ale zmíníme ji. Midjourney už bude možné používat přímo z webu, bez nutnosti ovládat ho prostřednictvím komunikační služby Discord.

Na webu alpha.midjourney.com to zatím mohou zkoušet jen účty, které vygenerovaly alespoň deset tisíc snímků. Zadání se píše do řádku, výstup je možné upřesňovat dopsanými parametry, nebo jejich naklikáním v panelu.



Panel pro upřesnění zadání



Vygenerované obrázky

Je to určitě dobrá změna směrem k pohodlnému ovládání Midjourney. V redakci bychom ale asi byli rádi, kdyby možnost práce přes Discord neskončila. Částečně i kvůli zvyku, ale hlavně kvůli možnostem této služby, kdy máme Midjourney na vlastním založeném serveru, kde je práce přehledně rozdělená do kanálů.