Asijská pobočka Microsoft Research zveřejnila svůj framework VASA-1, který z jediné fotografie či klidně jen nakresleného obrázku a audio stopy vytvoří reálně působící video mluvící postavy.
Hlavní inovací jsou pokročilé možnosti animace přenášející emoce a pohyby hlavy pro přirozeně působící video. Microsoft pro své ukázky nevyužil žádné reálné osoby, jen pomocí AI vygenerované neexistující tváře:
Hned úvodem je třeba říci, že Microsoft nemá s tímto projektem žádné komerční plány, nehodlá ani vypustit veřejné demo nebo nějaké API. Jde čistě o interní výzkum, který z obav ze zneužití nechce dát volně ani za úplatu k dispozici.
Nedávno jsme psali o AI EMO od Alibaby, které se snaží o něco podobného, tam ale podobně příkré stanovisko nezaznělo a do komerčního nasazení se možná dostane.
Z ukázek Microsoftu, ač působí velmi realisticky, ale dokážete stále poznat, že jde o uměle generované video. Zuby se různě vlní spolu s tváří, i když pochopitelně nejsou v realitě pružné. Neunikne vám ani podezřele zafixovaná vzdálenost očí, která se nezmenšuje ani při mírném natočení obličeje. Nejvíce je to vidět v předposledním bloku zde vložené ukázky s tváří na zeleném pozadí, která se pohybuje velmi nerealisticky. Zde Microsoftu usnadňuje generování i to, že generátory AI obličejů právě používají fixní rozteč očí. Další video ukázky včetně rapující Mona Lisy najdete na stránce projektu.

Animovat můžete i nerealisticky působící tváře
Výhodou řešení Microsoftu je ale schopnost generování přímo v reálném čase, aktuálně v dokumentu udávají, že na RTX 4090 zvládají 40 FPS. Tedy nejsme ještě ve fázi, kdy by to zvládal lehký notebook v kavárně, ale důraz na realtime tady naznačuje plánované nasazení.
V případě Microsoftu by se nabízelo reálné využití například v rámci Teams, kde jen animovaná fotografie a přenos hlasu může klidně stačit pro přenos emocí ve videochatu navíc s výraznou úsporou přenosového pásma při zachování kvality obrazu. Do konference byste se tak dokázali připojit i jen s hlasovým hovorem a vaše fotografie uložená na firemní síti by se postarala o přenesení podoby do videa.
Určitě to najde i využití v animované tvorbě, kdy to dokáže ve stylu animovaného filmu rozanimovat tváře a zajistit synchronizaci pusy s namluvenou stopou. Usnadní to i případné doladění pro různé jazykové verze dabingu.
Ale zveřejnění jen ukázek a nikoli samotného enginu tady podtrhuje nový trend, kdy si výzkumníci dostatečně uvědomují hrozby zneužití, a ač je to nezabrzdí v dalším zkoumání, poukazují na děravý legislativní rámec, který s něčím takovým zatím nepočítá.