Umělá inteligence | Google | Strojové učení

Další průlom: Neuronová síť Googlu začala mluvit, mlaskat a funět

Jakub Čížek 13. září 2016

Další
článek John McAfee vrací úder, jeho nová společnost prý znamená konec Dropboxu a dalších cloudových služeb SDÍLET NA FACEBOOKU TWEETNOUT

Nejprve začala snít
Pak nás porazila v náročné strategické hře
Teď hravě překonala hlasové syntetizátory

Zatímco ještě před deseti lety byl termín strojové učení pro širší veřejnost prakticky neznámý, dnes je vše jinak a po hromadě experimentů Googlu, Microsoftu, Facebooku, IBM a výzkumných týmů z celého světa se zdá, že se skutečně blíží chvíle, kdy se software v některých oblastech opravdu přiblíží tomu, jak funguje lidská mysl.

Neuronové sítě nejprve začaly snít, pak porazily člověka v náročné hře Go, kterou vzhledem k její komplexnosti nelze jen tak jednoduše simulovat klasickými výpočetními algoritmy, no a nakonec získaly i předvídavost a pochopily, co se stane na fotografii, která znázorňuje nějaký děj.

Nyní se docela možná blíží chvíle, kdy začnou i samostatně mluvit, věhlasná britská laboratoř Google DeepMind se totiž pochlubila novým dítětem – konvoluční neuronovou sítí WaveNet, která se specializuje na generování zvuku. Jakéhokoliv zvuku, který se naučí.

Jak mluví Siri

Leckdo by mohl namítnout, že počítače přeci mluví už dlouhá léta – stačí na mobilním telefonu použít některý ze systému TTS (Text-To-Speech), hlasovou čtečku pro nevidomé na počítači, anebo prostě spustit jakoukoliv automobilovou navigaci, to však není žádné univerzální mluvení.

Ve všech těchto případech používají autoři dvě základní technologie pro generování umělého hlasu: konkatenativní a parametrickou. Obě na vlastní uši dobře znáte v nejrůznějších podobách a hlavně kvalitách. Ta první vytváří robotický hlas kombinováním skutečných hlasových úryvků člověka do jednoho celku, a tak se velmi přibližuje reálnému hlasu.

Nejjednodušší formou je třeba hlášení v MHD a na nádražích, kde se jen za sebe skládají nahrávky jednotlivých slov. Tou nejpokročilejší podobou jsou pak hlasoví asistenti včetně Apple Siri, kteří kombinují mnohem menší zvukové drobky – fonémy, a tak dokážou vyloudit prakticky cokoliv.

Konkatenativní TTS však má jednu podstatnou nevýhodu. Jelikož se syntetický hlasový projev skládá z nahrávek nějakého skutečného mluvčího, není příliš tvárný. Z ženského hlasu asi těžko uděláte mužský a tak dále. Pokud by měla asistentka Apple Siri mluvit jako osmileté dítě, musel by nejdříve její výrobce dodat hlasovou databázi pro osmileté dítě.

Proto je tu ještě onen druhý přístup a to parametrická technologie TTS. V tomto případě se již skutečně jedná o kompletní hlasový model, který s pomocí dalších komponent generuje zcela umělý zvuk. Problém spočívá v tom, že je to zvuk často až příliš robotický, protože model je prostě model – jen zjednodušený obraz reality. Parametrický TTS je tedy sice tvárnější, ale každý pozná, že s ním mluví robot a nikoliv člověk.

WaveNet mluví, mlaská, dýchá a zvládne i klavírní koncert

A teď zpět k WaveNetu. Vědci z DeepMindu mají bohaté zkušenosti se strojovým generováním obrázků na úrovni jednotlivých pixelů, a neuronová síť tak může s pomocí strojového učení nakreslit třeba kočku. Tak, jak si myslí, že kočka vypadá. Naučila se to analýzou tisíců a tisíců videí koťátek nejen na YouTube.

Výzkumníky tedy napadlo, že to samé zkusí se zvukem. Namísto pixelů začali neuronovou síť učit poslouchat hlasové a hudební nahrávky (16 kHz), a pak ji dali za úkol, ať sama něco řekne. Prezentované výsledky jsou bez nadsázky dechberoucí a neuronová síť v mnoha testech hravě překonala jak konkatenativní, tak parametrickou technologii TTS.

Poslechněte si ukázky (HTML5 audio)

Skóre (standardizovaný test MOS) pro konkatenativní a parametrickou TTS, neuronovou síť WaveNet a ještě skóre skutečného lidského hlasu pro lepší srovnání. K tomu, aby posluchač nerozeznal rozdíl mezi WaveNetem a lidským hlasem, chybí už opravdu málo.

Konkatenativní technologie TTS (systém generuje syntetický hlas z drobných nahrávek skutečného lidského hlasu)

Parametrická technologie TTS (systém generuje syntetický hlas pomoci počítačového modelu a zvukového generátoru)

Neuronová síť WaveNet (systém generuje jakýkoliv 16 kHz zvuk, který se naučí)

Jak se to DeepMindu a její síti podařilo? Šla až na samotnou dřeň zvuku. Nejde totiž o žádný další software na převod textu do řeči, ale o program, který generuje jakoukoliv zvukovou vlnu. Jestli to bude hlas, anebo klavírní koncert, bude záležet jen na tom, jestli takové zvuky už někdy slyšela.

Jelikož je WaveNet neuronová síť se strojovým učením, která se postupným sběrem informací neustále zdokonaluje, nemá pevná pravidla „od výroby“, a tak na rozdíl od ostatních TTS dokáže vygenerovat i takové speciality jak lidský dech a mlaskání. Jednoduše proto, že stejné zvuky slyšela, když se učila. Každý výstup může být zároveň trošku jiný a tedy i do jisté míry unikátní, čímž se opět přibližuje člověku.

WaveNet dokáže mluvit i smyšlenými jazyky

Ačkoliv systém WaveNet dokáže generovat jakýkoliv zvuk, který zná, musí mu také někdo vysvětlit, co který zvuk vlastně představuje a jak zní angličtina. To ale vědci WaveNetu řekli až v druhém kole. V tom prvním dostal příkaz mluvit, aniž by věděl, co to vlastně je, a výsledkem je něco unikátního – přesně to žvatlání v neexistujících jazycích, jak by mluvilo i dítě, pokud by angličtinu neovládalo a jen si ji představovalo třeba z poslechu v kině.

Všimněte si mlaskání a výrazného dechu. Přesto je vše syntetické – neuronová síť jednoduše při učení slyšela mluvčího dýchat, a tak dýchá také, protože si myslí, že to k tomu patří.

Tím nejpodstatnějším průlomem je však to, že se jedná o naprosto tvárný systém generování syntetického zvuku. Pokud by si WaveNet poslechl všechny typické lidské hlasy a dokázal je s pomocí dalších softwarových systémů klasifikovat, může je posléze i interpretovat. Až vám tedy jednou zazvoní telefon a promluví na vás vám dobře známý hlas, možná bude vše jinak.

Ze strojového učení se díky překotnému vývoji v několika posledních letech stává stále slibnější vědecký obor, do kterého mnozí vkládají naděje. A i když se zatím stále jedná spíše o dílčí a mnohdy spíše efektní experimenty, demonstrují kousky, které existovaly ještě na počátku století leda na papíře a v hlavách autorů sci-fi.

Pětipalcový mobilní telefon, který na baterii vydrží měsíc, tedy sice ještě vyrobit nedokážeme, ale chvíle, kdy počítač v lidském slova smyslu uvidí, uslyší, promluví a pochopí, je možná blíž, než si mnozí myslí.

Chcete mužský, ženský či jiný hlas? Anebo klavírní koncert? Žádný problém!

Jedna věta, jedna databáze a čtyři různí syntetičtí mluvčí. To by bylo pro klasické technologie TTS složité – parametrické TTS by potřebovalo ženský a mužský model a konkatenativní TTS pak nahrávky pro ženu a muže.