Kromě novinek, o kterých se mluvilo v pondělní prezentaci, pro nás OpenAI v ChatuGPT přichystala i několik dalších překvapení. Týkají se generátoru obrázků DALL-E.
Změnil se limit počtu generovaných obrázků. Původní omezení na jeden obrázek je pryč a podařilo se nám jich vygenerovat i pět najednou. Negenerují se současně jako u některých konkurenčních aplikací, ale postupně. Vygenerování každého trvá asi 15 sekund.
Nový DALL-E stále neumí česky
OpenAI se ani u předchozích verzí nijak netajilo tím, že jejich generátor obrázků umí jen anglicky. Když dáváte chatbotovi instrukce ke kreslení jiným jazykem, dojde nejdříve k překladu jazykovým modelem a až překlad dostane DALL-E. Může tak dojít k různým chybám v kontextu. Je proto dobré být hodně konkrétní, anebo chybu zkusit napravit dalším příkazem ve vlákně.

Někdy to stroje prostě špatně pochopí • Jednou větou šla situace napravit. Někdy je ale lepší přepsat celý vstup, aby byl jasnější
Počet vygenerovaných obrázků je teď limitován časem a vytížením serverů. Asi po desátém obrázku, který jsme připravili během pěti minut, model odepsal, že jsou přetížené servery. A že další obrázky vygeneruje až za dvě minuty.
Forma, jakou to model napsal, zaváněla halucinací
V novém vlákně chatbot napsal totožnou chybovou hlášku. Po uplynutí času fungoval zase bezchybně, nešlo tedy o halucinaci.
Ostatní chyby a omezení hlásí ChatGPT jiným způsobem. Tento formát snad do budoucna změní
Intuitivní inpainting a nové UI
Další překvapení přišlo po kliknutí na vygenerovaný obrázek. Pomocí kurzoru označíte prostor, kde chcete provést změny a ty popíšete do textového pole chatu, které se posunulo do pozice podél pravé strany obrazovky. Tato funkce běžela, možná omylem, někomu již před měsícem. Pak ale zase zmizela.
Po kliknutí na náhled v chatu se obrázek zvětší a v pravém horním rohu ikonou palety zvolíte nástroj k označení prostoru k editaci

V opačném rohu volíte velikost štětce, označená plocha je tmavě modrá • V postranním panelu se pod instrukcí vygeneroval nový obrázek s vloženým trpaslíkem
Pro inpainting nemusíte používat jen text. Pomocí ikony kancelářské sponky můžete nahrát vlastní obrázek. Ten ale model nezkopíruje dokonale. Jenom ho použije pro inspiraci.
Stejně jako vkládáte do chatu například textové soubory, můžete nahrát i obrázky • Tohoto trpaslíka DALL-E vygeneroval v jiném vlákně, použijeme ho pro inspiraci
Na rozdíl od původního trpaslíka má nový dle nahraného vzoru vygenerované housle. Nic jiného však model netrefil. Ani dost znatelné vousy. Generovat jsem nechal zadání s obrázkem několikrát, a popsat to textovým promptem by bylo snazší.
Velkým oříškem bývá generovat obrázky se stejně vypadajícími postavami. Nový DALL-E s tím ale nemá větší problémy. Zkoušeli jsme jednotlivé postavy a pokrok proti předchozím verzím je tam znát. Na jednu-dvě regenerace dosáhnete velmi podobných postav. A s novým nastavením limitů můžete regenerovat, aniž byste nad počtem museli výrazně přemýšlet.

Ve stejném vlákně jsem u zdrojového trpaslíka zadal vstupy: make him play basketball, make him jump a make him row a boat. Postavy zůstaly dost podobné a lze je ještě doladit inpaintingem
Na tiskovku to není
Neoznámení těchto změn vcelku dává smysl. Nejedná se o nic přelomového a někomu tyto funkce chvíli běžely už před měsícem. Konkurence to umí lépe, texty modelu stále moc nejdou a české znaky už vůbec. Ale je hezké mít za stejné peníze něco málo navíc. Na vytváření memů a dokreslování slunečních brýlí domácím mazlíčkům je to dostatečné.
Smysl ale nedává, že vygenerované obrázky můžete stále stáhnout jen ve formátu webp, který není podporován coby nahratelný soubor do chatbotu.