Google | Neuronová síť | Slovensko

Neuronová síť WaveNet už mluví i slovensky. Google se bojí falšování reality

  • Brzy nerozpoznáme hlasovou syntézu od skutečnosti
  • Ruku v ruce s tím se objeví i pokusy o manipulaci reality
  • Google před tím nyní varuje
Neuronová síť WaveNet už mluví i slovensky. Google se bojí falšování reality

Když dojdete na nejbližší ozvučenou železniční stanici, možná uslyšíte něco podobného: „Na druhou kolej přijel rychlík z Kozojed.“ Zpravidla se jedná o tu nejprimitivnější podobu konkatenativní syntézy řeči, která jen skládá krátké zvukové nahrávky za sebe a tvoří z nich celé věty.

Konkatenativní hlasový generátor může znít velmi realisticky, ale jeho slabinou je prakticky nulová tvárnost. Jinými slovy, z ženského hlasu neuděláte mužský, nepřidáte mu emoce, nezvýšíte hlas při otazníku na konci věty a tak dále.

Nehledě na to, že musíte nahrát všechna možná slova, anebo budete věty skládat z mnohem menších částeček – tzv. fonémů, ze kterých sice sestrojíte naprosto cokoliv, ale za cenu toho, že hlas už přeci jen ztratí na věrohodnosti.

Parametrický hlasový syntetizátor

Mnohá z těchto úskalí dnes řeší další technologie hlasové syntézy – parametrická, jejíž historie sahá do meziválečných let minulého století. Namísto skládání reálných nahrávek za sebe podle potřeby má syntetizátor k dispozici pevně stanovený matematický model, který vstupní informaci převede na zvukovou vlnu. Stačí tedy zjistit, jakému hlasovému projevu odpovídají jaký charakter zvuku a sestrojit převodník.

Parametrický syntetizátor je mnohem tvárnější, jelikož je to však stále jen model, tedy zjednodušený matematický obraz reality, má i své mouchy – hlas zní příliš strojově.

Hlas generovaný neuronovou sítí

Posledních několik let se proto pracuje na další úrovni syntézy řeči, která se principiálně podobá té parametrické, hlasový model si ale tentokrát vytváří softwarová neuronová síť pomocí strojového učení – posloucháním tisíců a tisíců hlasových nahrávek a jejich porovnáváním s textovým přepisem.

Výsledkem je pravděpodobnostní model, který představuje rovnici:

Právě takovému vstupnímu textu odpovídá s největší pravděpodobností právě takový sled zvukových vln

Čím propracovanější strojové učení a čím rozsáhlejší a kvalitnější studijní data, tím může být výsledný model realističtější, až se dostane na úroveň, kdy budeme mít vážný problém rozpoznat, jestli se ještě jedná o výstup hlasového syntetizátoru, anebo skutečnou nahrávku někoho, koho velmi dobře známe.

Lyrebird a Trump

Právě na to před lety vsadil malý kanadský startup Lyrebird, který se pochlubil docela věrohodnou nahrávkou amerického prezidenta, ačkoliv se ve skutečnosti jednalo pouze o syntézu pomocí strojového učení.

Fiktivní Donald Trump a Barack Obama:

V Lyrebirdu si jednoduše stáhli všechny jeho veřejné nahrávky a jejich přepisy, kterých bylo díky jeho funkci opravdu hodně, vycvičili na nich neuronovou síť, no a ta pak hlasem exprezidenta řekla, cokoliv jste ji předložili. Kdyby vám takový fiktivní Donald Trump zatelefonoval a nabízel levnější elektřinu, možná byste mu i uvěřili.

Lyrebird se může naučit i váš hlas

A co víc, Lyrebird později nabídl tzv. Vocal Avatar – hlasový model vlastního Já. Stačí si na jeho webu vytvořit účet a přímo z prohlížeče přečíst několik desítek vět v angličtině.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Stačí přečíst pár desítek vět v angličtině a Lyrebird vytvoří model podle vašeho hlasu. Servery služby jsou ale dlouhodobě silně přetížené.

Své fiktivní Já pak můžete nechat přečíst libovolný text (opět v angličtině). Má to jen jedno úskalí, tedy dvě. Zaprvé, servery Lyrebirdu bývají dosti přetížené. No a zadruhé, těch pár desítek vět je nutností k tomu, aby Lyrebird mohl vytvořit alespoň nějaký model, nicméně jestli chcete, aby vás alespoň trochu připomínal, budete mu toho muset v angličtině přečíst mnohem, opravdu mnohem více. Spíše stovky vět, než pouhé desítky.

Fiktivní anglický Jakub Čížek po učení na pouhých 31 větách. Abych se vůbec poznal, byly by jich potřeba stovky:

WaveNet už je k dispozici jako komerční služba

Lyrebird přitom nebyl jediný, podobnou technologii totiž tou dobou vyvíjela i britská laboratoř DeepMind, která dnes spadá pod americký Alphabet. Výsledkem byla neuronová síť WaveNet, která dokáže syntetizovat nejen hlas, ale vlastně jakýkoliv zvuk. Předložte ji nahrávky klavírních koncertů, trošku si pohrajte v Pythonu a výsledkem nebude model lidského hlasu, ale… Klavíru.

Takto mluví jeden z ženských hlasů WaveNetu:

Co je však podstatnější, Google dnes pomocí WaveNetu nehodlá syntetizovat ani tak klavír, jako onen lidský hlas a technologii už nabízí jako komerční službu v rámci svého cloudového hostingu. Hlasový syntetizátor má k dispozici jak klasické parametrické modely, tak právě ty vycvičené na WaveNetu a třeba v takové angličtině je to opravdu znát a syntetický hlas zní skvěle.

WaveNet mluví i slovensky

Ostatně, vyzkoušejte si to sami přímo na webu služby, kde si můžete vybrat z několika nabízených jazykových verzí a mluvčích. Čeština zatím na veřejném seznamu chybí, ale můžete otestovat příbuznou slovenštinu!

Klepněte pro větší obrázek
Model Slovenky zatím působí poněkud prkenně, ale existuje

Ani ta sice není na seznamu podporovaných jazyků, ale služba ji i tak nabízí, čili se nejspíše jedná o testovací provoz (anebo možná jen formu A/B testu dostupnou jen pro některé uživatele; uvidíte sami).

Takto mluví slovenský ženský hlas WaveNetu:

Nutno podotknout, že slovenský model vycvičený pomocí WaveNetu zatím nedosahuje kvalit toho anglického, a když jej srovnáme s běžnou parametrickou technologií TTS, syntetická Slovenka sice bude alespoň místy znít o trošičku lépe, bez zaváhání ale poznáte, že je to stále robot, který nemá zcela věrohodnou intonaci a další atributy přirozené řeči.

Kdy se dočkáme syntetizovaného Babiše?

Přesto, přítomnost slovenštiny napovídá, že se Google soustředí na všechny jazykové mutace. A že zatím nedosahují kvalit srovnatelných s americkou angličtinou? To je jen otázkou času.

To nás vede ke klíčové otázce: Kdy hlasová syntéza dosáhne takové kvality, že ji nerozpoznáme od člověka? WaveNet a Lyrebird k tomu mají opravdu našlápnuto, podle testů totiž alespoň v případě angličtiny, kterou mají nastudovanou zdaleka nejlépe, dosahují téměř srovnatelných výsledků jako člověk.

Z toho plyne další otázka? Kdy se hlasová syntéza uplatní v informační manipulaci a propagandě? Vzpomeňme třeba na medializovaný případ tajných nahrávek Andreje Babiše, které se v roce 2017 objevily na twitterovém účtu fiktivního Julia Šumana.

Nahrávky zněly věrohodně a Babiše v nich jistě každý okamžitě rozpoznal.

Jenže… jenže čistě teoreticky už dnes máme technologii, která by mohla vytvořit zcela fiktivní nahrávku, ve které reálný Babiš vůbec nefiguruje. Kdyby si jej vzali do parády v Lyrebirdu nebo DeepMindu, výsledek by mohl být zajímavý a to i s ohledem na to, že sám premiér občas lehce komolí češtinu.

Google: Pojďme vyvinout detektor hlasových botů

Google proto na svém blogu oznámil, že poskytl ohromný balík dat výzkumníkům ze soutěžního projektu ASVspoof 2019, který si klade za cíl rozpoznat nahrávku skutečného člověka a hlasového bota.

Jedná se tak vlastně o jistou paralelu k slavnému Turingovu testu. Google se do celé akce zapojil jako dodavatel dat a poskytl několik desítek syntetických hlasů různého pohlaví, dialektu, stáří a dalších charakteristik, protože je sám autorem mnoha hlasových modelů zveřejněných v různých studiích a na GitHubu, které by mohl leckdo zneužít.

Dlouhodobým cílem je pak vývoj jakési obranné technologie, která nejen v akademických podmínkách rozliší hlas skutečného člověka od stroje. Dnes se to může jevit jako okrajový experiment, v éře hybridního vedení boje zítřka, ve kterém budou hrát techniky z rodiny A.I. stále větší roli, to však může být nutná forma obrany proti masivní manipulaci na internetu.

A tak zatímco jedni cvičí neuronové sítě, aby generovaly hlas, který se bude co nejvíce podobat tomu lidskému, druzí vyvíjejí neuronové sítě, které naopak poslouchají ty první a učí se na nich, jak je odhalit.

Vítejte v lehce schizofrenním světě strojového učení.

Diskuze (18) Další článek: Intel začal prodávat 28jádrový procesor pro nejnáročnější uživatele. Jeho cena atakuje 100 tisíc korun

Témata článku: Technologie, Google, Umělá inteligence, Roboti, Neuronová síť, Strojové učení, Alphabet, GitHub, Barack Obama, Python, DeepMind, Donald Trump, Slovensko, TTS, Andrej Babiš, Model, Syntetizátor, Syntéza, WaveNetu, Kozojedy, WaveNet, Věta, Angličtina, Alan Turing, Jakub Čížek


Určitě si přečtěte

Na čem běží Seznam.cz: Běžný standard už nestačí, přechází na vlastní cloud i servery

Na čem běží Seznam.cz: Běžný standard už nestačí, přechází na vlastní cloud i servery

** Seznam nám prozradil detaily k jeho nové platformě SCIF ** V rámci jednoho privátního cloudu sjednocuje většinu služeb ** Vedle softwaru vyvíjí i vlastní hardware

Karel Javůrek | 14

AMD vs. Intel+Nvidia: Stejný herní notebook, stejná cena. Který je lepší?

AMD vs. Intel+Nvidia: Stejný herní notebook, stejná cena. Který je lepší?

** Acer Predator Helios 500 je poctivý velký herní notebook ** platforma AMD zdatně konkuruje tandemu Intel+Nvidia ** Srovnání nevyznívá jednoznačně

Tomáš Holčík | 36