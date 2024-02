Na sklonku loňského roku se čínská Alibaba pochlubila generativní AI Animate Anyone, která dokáže rozpohybovat libovolnou statickou postavu. Teď se inženýři z Asie vrhli na tvář, mimiku a hlas.

Jejich nová technologie EMO (Emote Portrait Alive) už podle svého názvu animuje libovolný portrét podle hlasové nahrávky.

Audrey Hepburn a další ukázky nové technologie EMO:

Audrey Hepburn díky tomu začne i tři dekády po své smrti zpívat hlasem Samanthy Harvey a fiktivní Mona Lisa syntetizovaná v generátoru DreamShaper XL se zase promění v Miley Cirrus.

Docela realistická mimika

Technologie si poradí jak s reálnými fotografiemi, tak komiksovými ilustracemi. Protože vědci svoji komplexní technologii na bázi difuzních modelů trénovali na detailních videích lidské tváře, samozřejmostí je i docela obstojná synchronizace rtů a celková uvěřitelnost všech dílčích pohybů.

Mona Lisa z generátoru a hlas Miley Cirus

Alibaba je čínské monstrum, které v sobě kloubí vše, co v naší kulturní oblasti provádí Google, eBay a sociální sítě. Technologie tedy může najít celé spektrum užití počínaje marketingem a konče zábavním průmyslem všeho druhu.

Ještě uvěřitelnější deepfake

Ano, něco takového jistě poslouží ke tvorbě ještě uvěřitelnějších deep fake videí. Na stranu druhou, soudě dle toho, že lidé jsou schopni uvěřit i naprostým pitomostem, několik dalších mluvících fiktivních hlav to už nezhorší.

Jokerův monolog z fotografie:

Zájemci se mohou podívat na pár videí a experti nahlédnout do obecného článku na Arxivu. Samotný model a obslužné zdrojové kódy si zatím nestáhnete, a pokud to Alibaba vůbec plánuje, bude to trvat nějaký čas. Ostatně, slíbili to i v případě v úvodu zmíněné technologie AnimateAnyone, která je i čtvrt roku po představení stále v nedohlednu.,