Pokud jste někdy zkusili generovat obrázky pomocí umělé inteligence, pak jste určitě zaznamenali, že jejich vytvoření nějakou dobu trvá. Je to fakt, se kterým se – s ohledem na složitost procesů na pozadí – musíme smířit, nebo to jde dělat jinak a rychleji? Možná právě tak zněla otázka, kterou si položili experti z Massachusettského technologického institutu (MIT) a Adobe Research, než se pustili do bádání.

Nakonec vyvinuli potenciální řešení tohoto problému pomocí nové extrémně rychlé metody generování obrazu s minimálním dopadem na jeho výslednou kvalitu. S použitím této techniky je možné generovat až neuvěřitelných dvacet obrázků za sekundu. Podrobnosti přináší magazín TechSpot.

DMS versus Stable Diffusion

Stávající algoritmy umělé inteligence zpravidla používají proces označovaný jako difúze. Během něj je vytvořený obrázek postupně zpřesňován a po několika krocích vznikne jeho finální podoba, která by měla co možná nejvíce odpovídat zadání. Dle odborníků tento způsob sice může generovat velmi kvalitní výsledky, nicméně vyžaduje až několik desítek průchodů.

Přehled metody DMD

Odborníci z MIT a Adobe Research proto spojili síly a přišli s novou technikou distribution matching distillation (DMD). Ta se od stávající difúze, sestávající z více kroků, liší především v tom, že celý proces generování obrázku redukuje na jeden jediný krok.

Nový model dokáže generovat obrázky srovnatelné s tradičními modely, ale je řádově rychlejší. Na vlastní oči to můžete posoudit z následujícího videa, ve kterém proti sobě stojí Stable Diffusion 1.5 a DMD. Zatímco časy na vytvoření jednoho obrázku se u Stable Diffusion pohybují mezi 1,4 a 1,5 sekundami, v případě DMD je to pouhých 0,05 sekund. Nová metoda je tak až 30× rychlejší.

Rychlé, ale s kompromisy

Objektivně vzato je nutné konstatovat, že obrázky produkované novým modelem mají určité rezervy a občas jsou viditelné jisté kompromisy mezi kvalitou a rychlostí. Na druhou stranu pro většinu běžných uživatelů je lze označit jako uspokojivé.

Na webu o nové metodě generování obrázků můžete najít další příklady rozdílů mezi oběma modely, včetně promptů, na jejichž základě byly obrázky vytvořené. Posouzení, který algoritmus přináší povedenější výsledky, si však dovolíme nechat na vás.

Zbývá dodat, že DMD není první jednokrokovou metodou, která byla navržena pro generování obrazů pomocí AI. Stability AI vyvinula techniku známou jako Adversarial Diffusion Distillation (ADD) pro generování obrázků v rozlišení 1 Mpx reálném čase. Pomocí ADD vycvičila svůj model SDXL Turbo a dosáhla rychlosti generování obrazu 207 milisekund na jediném GPU akcelerátoru Nvidia A100 AI.