Jak by vypadal Titanic, kdyby byl Leo uplácaný z plastelíny a Kate kreslená tužkou v kubistickém stylu? Nevím, ale brzy si to možná vyzkouším. Společnost Runway AI totiž prezentuje Gen-1, novou neuronku určenou pro generování videa na základě textového zadání. Něco jako Dall-E, Midjourney nebo Stable Diffusion, avšak pro pohyblivé obrázky.
Gen-1 ale negeneruje zcela od píky, potřebuje vzorové video, které následně upraví, když mu předáte vhodný textový popis či obrázek. Runway mluví o čtyřech hlavních funkcích:
- Stylizace – video upraví do stylu předloženého obrázku.
- Storyboard – místo maket a jiných zástupných objektů vygeneruje něco jiného.
- Maskování – rozpozná na videu objekty a ty upraví.
- Renderování – doplní textury, světla a stíny na základní 3D model.
Zatím nevíme, kdy Gen-1 dorazí. Na webu tvůrců se zatím můžete zapsat na čekací listinu, na stejném místě je také pár ukázek, co nová AI dovede. Titíž lidé již s úpravou videa pomocí nástrojů založených na strojovém učení mají bohaté zkušenosti. Dokážou jimi zpomalovat video, kolorovat, cenzurovat obličeje, odstranit pozadí i bez zeleného plátna, generovat titulky, čistit zvuk apod. Gen-1 ale bude zatím jejich nejpokročilejší pomůckou.
Ukázka Gen-1: