DALL-E umí inpainting. Část obrázku změní či dokreslí na váš povel | Ilustrace: AI DALL-E

Ilustrace: AI DALL-E

DALL-E umí inpainting. Část obrázku změní či dokreslí na váš povel

Kromě novinek, o kterých se mluvilo v pondělní prezentaci, pro nás OpenAI v ChatuGPT přichystala i několik dalších překvapení. Týkají se generátoru obrázků DALL-E.

Změnil se limit počtu generovaných obrázků. Původní omezení na jeden obrázek je pryč a podařilo se nám jich vygenerovat i pět najednou. Negenerují se současně jako u některých konkurenčních aplikací, ale postupně. Vygenerování každého trvá asi 15 sekund.

Nový DALL-E stále neumí česky

OpenAI se ani u předchozích verzí nijak netajilo tím, že jejich generátor obrázků umí jen anglicky. Když dáváte chatbotovi instrukce ke kreslení jiným jazykem, dojde nejdříve k překladu jazykovým modelem a až překlad dostane DALL-E. Může tak dojít k různým chybám v kontextu. Je proto dobré být hodně konkrétní, anebo chybu zkusit napravit dalším příkazem ve vlákně.

scr1.jpgscr2.jpg 
Někdy to stroje prostě špatně pochopí • Jednou větou šla situace napravit. Někdy je ale lepší přepsat celý vstup, aby byl jasnější

Počet vygenerovaných obrázků je teď limitován časem a vytížením serverů. Asi po desátém obrázku, který jsme připravili během pěti minut, model odepsal, že jsou přetížené servery. A že další obrázky vygeneruje až za dvě minuty.

scr3.jpg 
Forma, jakou to model napsal, zaváněla halucinací

V novém vlákně chatbot napsal totožnou chybovou hlášku. Po uplynutí času fungoval zase bezchybně, nešlo tedy o halucinaci.

scr4.png 
Ostatní chyby a omezení hlásí ChatGPT jiným způsobem. Tento formát snad do budoucna změní

Intuitivní inpainting a nové UI

Další překvapení přišlo po kliknutí na vygenerovaný obrázek. Pomocí kurzoru označíte prostor, kde chcete provést změny a ty popíšete do textového pole chatu, které se posunulo do pozice podél pravé strany obrazovky. Tato funkce běžela, možná omylem, někomu již před měsícem. Pak ale zase zmizela.

scr5.jpg 
Po kliknutí na náhled v chatu se obrázek zvětší a v pravém horním rohu ikonou palety zvolíte nástroj k označení prostoru k editaci
scr6.jpgscr7.jpg 
V opačném rohu volíte velikost štětce, označená plocha je tmavě modrá • V postranním panelu se pod instrukcí vygeneroval nový obrázek s vloženým trpaslíkem

Pro inpainting nemusíte používat jen text. Pomocí ikony kancelářské sponky můžete nahrát vlastní obrázek. Ten ale model nezkopíruje dokonale. Jenom ho použije pro inspiraci.

scr8.png Scr9.jpg 
Stejně jako vkládáte do chatu například textové soubory, můžete nahrát i obrázky • Tohoto trpaslíka DALL-E vygeneroval v jiném vlákně, použijeme ho pro inspiraci
scr10.jpg 
Na rozdíl od původního trpaslíka má nový dle nahraného vzoru vygenerované housle. Nic jiného však model netrefil. Ani dost znatelné vousy. Generovat jsem nechal zadání s obrázkem několikrát, a popsat to textovým promptem by bylo snazší.

Velkým oříškem bývá generovat obrázky se stejně vypadajícími postavami. Nový DALL-E s tím ale nemá větší problémy. Zkoušeli jsme jednotlivé postavy a pokrok proti předchozím verzím je tam znát. Na jednu-dvě regenerace dosáhnete velmi podobných postav. A s novým nastavením limitů můžete regenerovat, aniž byste nad počtem museli výrazně přemýšlet.

trpaslici.jpg
Ve stejném vlákně jsem u zdrojového trpaslíka zadal vstupy: make him play basketball, make him jump a make him row a boat. Postavy zůstaly dost podobné a lze je ještě doladit inpaintingem

Na tiskovku to není

Neoznámení těchto změn vcelku dává smysl. Nejedná se o nic přelomového a někomu tyto funkce chvíli běžely už před měsícem. Konkurence to umí lépe, texty modelu stále moc nejdou a české znaky už vůbec. Ale je hezké mít za stejné peníze něco málo navíc. Na vytváření memů a dokreslování slunečních brýlí domácím mazlíčkům je to dostatečné.

Smysl ale nedává, že vygenerované obrázky můžete stále stáhnout jen ve formátu webp, který není podporován coby nahratelný soubor do chatbotu.

Určitě si přečtěte

Články odjinud