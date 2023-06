Meta se na svém blogu pochlubila novou generativní AI Voicebox (PDF). Jak už název napovídá, tentokrát se jedná o převodník textu na hlas (TTS), ovšem poněkud zdatnější než ten, který známe třeba z chytrých reproduktorů vyzbrojených hlasovou asistentkou.

Voicebox totiž umí nejen generovat hlas z textové předlohy, ale také přenášet styl mluvčího napříč šesti podporovanými jazyky (angličtina, němčina, španělština, francouzština, portugalština a polština).

Představení schopností Voiceboxu:

Když tedy budeme mít krátkou nahrávku třeba hypotetického Jacka Nowaka z Poznaně a budeme chtít, aby Jacek namísto své rodilé polštiny sebevědomě prohlásil: „Your flowers are beautiful,“ Voicebox použije jeho nahrávku jako zdroj stylu, který přenese na generátor TTS.

Údajně nejpokročilejší svého druhu

Podle zveřejněných ukázek to funguje velmi dobře a Meta se prsí, že je Voicebox v tuto chvíli nejpokročilejší technologií svého druhu. Podle testů hravě strčí do kapsy i konkurenční VALL-E od Microsoftu, se kterým autoři vyrukovali zkraje letošního roku.

Jelikož v Metě Voicebox trénovali co nejširším způsobem a je to tedy univerzální zvukový procesor, který může provádět v podstatě jakékoliv editace (stejně jako si třeba ChatGPT zase dokáže povídat na libovolné téma), technologie by si měla poradit také s editací a filtrováním – třeba dokáže z nahrávky odstranit rušivé prvky jako zvuk klaksonu a podobně.



Meta se chlubí velmi věrným přenosem zvukového stylu, který je lepší než u konkurence

Autoři doufají, že by mohl Voicebox v budoucnosti pomoci třeba zvukovým střihačům. Osud technologie ale není zřejmý, zatím jej totiž nijak neuvolnili širší veřejnosti.

Stejně jako v ostatních případech se totiž obávají snadného zneužití ze strany tvůrců fake news, kteří by mohli dát do úst nejrůznějším celebrit slova, která nikdy nevyřkly.