OpenAI

Sora vytvoří video z textového zadání. Pusťte si nové ukázky, jak OpenAI znovu předběhlo konkurenci

Oživeno v pondělí 19. února | Přestože Sora ještě není otevřená služba, kterou může kdokoli využít, na internetu se objevují nové klipy, které vygenerovala. Často je posílají členové týmu, který Soru připravuje. Podívejte se na další video se záběry, které AI připravila z textového zadání:

Hodně se nám líbí mravenec. Asi díky tomu, že to není dokonalé, umělé video. Kdybychom nevěděli, snadno bychom uvěřili, že jde o záběr z přírodovědného dokumentu. U vodního muže v galerii si zase všimněte, jak se obrazy v pozadí ani nehnou, když před nimi projde postava.


Původní článek z 15. února | Nejdůležitější je video, které najdete o kousek níž. Pusťte si ho, nastavte větší formát a kvalitu. A zkuste si představit, jak by na vás zapůsobilo, kdybyste nečetli titulek článku a netušili, o co jde.

OpenAI, tvůrce známého ChatGPT, připravil AI model nazvaný Sora. Je to nástroj typu text-to-video, který z napsaného zadání dokáže vygenerovat videoklip. Jak jste už viděli v ukázce, výsledky jsou na úplné jiné úrovni, než jsme doposud u služeb tohoto charakteru mohli vídat.

Že jsou klipy pečlivě vybrané a třeba i upravené? OpenAI tvrdí, že jde přímo o výstup modelu Sora bez jakékoli další editace. Můžete se také podívat na X, kde CEO Sam Altman generuje další klipy z promptů, které mu lidé posílají.

Sora je difúzní model, který generuje video podobně, jako to DALL-E nebo Midjourney dělá u obrázků. Začíná s úvodním pokusem, který vypadá jako statický šum, a postupně ho transformuje – šum v mnoha krocích odstraňuje. V současnosti Sora zvládne vytvořit minutové video, kde má delší strana velikost 1920 px.

image.png Princip generování videa

OpenAI ve svém materiálu píše: Trénink systémů pro generování textu na video vyžaduje velké množství videí s odpovídajícím textovým popisem. Na videa aplikujeme techniku popisování scény, která byla představena v DALL-E. Nejprve jsme trénovali podrobný titulkovací model a poté jej použili k vytvoření popisů pro všechna videa v naší trénovací sadě.

Sora používá podobný princip uživatelského generování jako DALL-E. Ze stručných zadání od uživatelů, které vidíte třeba nahoře ve videu, napřed vytvoří podrobný, velmi popisný prompt. Teprve ten použije pro samotné generování videa.

Vstupem pro generování videa ale nemusí být jen text. Sora dokáže rozpohybovat i statický obrázek, zvládne spojit scény ze dvou vstupních videí do jednoho. Umí také zdrojové video prodloužit, ať už pokračováním, nebo vygenerováním úvodních sekvencí. Na požádání vytvoří plynulou smyčku, scénu z vloženého videa dokáže upravit textovým zadáním. Sora umí také generovat statické obrázky a z ukázek se nám zdá, že to zvládá lépe než DALL-E.

Různé možnosti modelu Sora si můžete prohlédnout na této stránce.

Sora je v testovací fázi a kromě spolupracovníků OpenAI k ní má přístup jen omezený počet lidí. Víc než jinde je tady důležitá bezpečnost, bude nutné zajistit, aby tento nástroj nesloužil pro přípravu dezinformačních materiálů. OpenAI prý také vyvíjí nástroje, které dokážou rozpoznat, jestli bylo video vygenerováno Sorou.

Další informace a ukázky najdete na webu Sora a na této stránce, která popisuje princip funkčnosti modelu.


Proč jsme z výstupů Sora tak na větvi? Ještě to nejsou ani dva roky, co nejlepší modely pro generování obrázků z textového zadání dokázaly vytvořit nanejvýš tohle. Konkrétně jde o Midjourney z března 2022. Za pouhé dva roky jsme se dostali k videu v úvodu článku…

image.png 
Výstupy Midjourney z března 2022
Diskuze (66) Další článek: Evropská komise začala vyšetřovat TikTok. Je to první velký test legislativy DSA

Témata článku: , , , ,