Studio Stability.ai se činí a po nedávném představení umělé inteligence pro tvorbu krátkých animací Stable Video Diffusion se pochlubilo dalším obrázkovým generátorem SDXL Turbo.
Pět obrázků za sekundu, Midjourney to ale není
Jak už název napovídá, tentokrát bude hlavním lákadlem rychlost – ovšem na úkor obrazové kvality. SDXL Turbo totiž dokáže vytvářet malůvky podle textového promptu prakticky okamžitě. Klasické velké modely k tomu potřebují dlouhé sekundy času.
Nutno podotknout, že k tomu ale budete potřebovat superpočítač, Stability.ai se totiž chlubí, že SDXL Turbo sice dokáže vytvořit obrázek v rozměrech 512×512 pixelů za 207 milisekund, ale leda tak na serverovém akcelerátoru Nvidia A100.
Jen pro představu, cena této dnes už vlastně překonané AI karty (máme novější H100) se pohybuje ve vyšších stovkách tisíc za kus. Tedy pokud bude vůbec skladem.
Naše experimenty:
K čemu by to mohlo být dobré?
Generátor SDXL Turbo by se mohl hodit třeba pro asistovanou přípravu nějaké scény, kterou si navolíte základním promptem, doladíte posuvníky s okamžitou reakcí, no a HD obrázek v plné kvalitě by pak už vyrobil třeba velký SDXL. Takhle to ale zatím úplně nefunguje.
Další možností využití je něco podobného, co jsme si ukázali v článku, ve kterém jsme propojili GPT-4 Vision s DALL-E 3 a webkamerou. SDXL Turbo by tedy mohl převádět velmi rychle vstupní video (nebo textový scénář) na kreslený film.
Teprve čas ukáže, k čemu všemu by mohlo být něco podobného dobré, přičemž Twitter se už plní prvními experimenty.
Vývojáři najdou model na skladišti AI Hugging Face. Tam je k mání i demo, které použil autor vloženého tweetu výše. Vstupem totiž nemusí být pouze textový prompt, ale i obrázek. Ať už nahraný z PC, nebo právě webkamery.
SDXL Turbo a generování obrázku podle vstupních grafických dat
SDXL Turbo a generování obrázku podle vstupních grafických dat