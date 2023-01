Představte si, že na mikrofon řeknete jednu jedinou krátkou větu, která bude stačit k tomu, aby se hlasový generátor naučil mluvit vaším hlasem.

Přesně to prý zvládne experimentální technologie VALL-E od Microsoftu, se kterou se jeho experti pochlubili na Arxivu a v několika ukázkách na GitHubu. Strojovému učení stačí pouhé tři sekundy záznamu, přičemž poté dokáže odhadovat, jak by osoba mluvila i pod tlakem různých emocí.



Na GitHubu najdete ukázky, co dokáže VALL-E. Speaker Prompt: krátká učební nahrávka osoby, Ground Truth: kontrolní nahrávka skutečné osoby, Baseline: výstup z klasického TTS generátoru, VALL-E: Výstup z AI TTS generátoru

Aby to VALL-E dokázal, musel se nejprve naučit, jak na digitální úrovni vypadá lidský hlas. K tomu mu pomohla databáze 60 000 hodin nahrávek v angličtině LibriLight a speciální zvukový neurální kodek EnCodec. Za oběma technologiemi stojí inženýři z Facebooku.

Další zbraň pro fake news, ale i „mírové“ využití

Ačkoliv mohou technologie jako VALL-E budit etické otázky, protože by je mohl kdokoliv zneužít třeba pro tvorbu fake news a vkládat lidem do úst něco, co vůbec neřekli, Microsoft naopak poukazuje na to, že to samé lze využít i pro dobrou věc.



Osoba nahraje 3 sekundy dlouhou nahrávku a text-to-speech generátor VALL-E se naučí celý její hlas. Vše ostatní se totiž naučil na 60 000 hodinách obecných hlasových záznamů

Představte si například, že by váš oblíbený herec namluvil novou audioknihu, aniž by musel dorazit do studia. Jednoduše pro tyto účely poskytne jen licenci na svůj hlas a o zbytek se už postará automat.

Anebo si představte nějakého dalšího Stephena Hawkinga, kterému technologie zachová jeho původní hlas i poté, co o něj kvůli nemoci nadobro přijde. Bude stačit jediná kratičká nahrávka z minulosti.

Strojová oprava přeřeknutí

Dalším praktickým využitím je pak podle Microsoftu třeba dodatečná (a autorizovaná) zvuková editace třeba v médiích, kdy je třeba opravit přeřeknutí aj. Zvuková střižna by jednoduše úsek strojově a věrohodně dopočítala.

V každém případě, VALL-E je v tuto chvíli pouze studie z Arxivu s několika ukázkami na GitHubu. Jestli se někdy promění v nějaký skutečný a široce použitelný produkt, jak se to loni podařilo zástupu obrazových a textových generativních AI, zůstává otázkou.

Směr je ale daný a podobných novinek jako je tato bude přibývat. Je třeba se připravit na to, že dost možná ještě v této dekádě dokáže generativní AI simulovat prakticky jakákoliv digitální data.