Google | Umělá inteligence | Strojové učení

Další průlom: Neuronová síť Googlu začala mluvit, mlaskat a funět

  • Nejprve začala snít
  • Pak nás porazila v náročné strategické hře
  • Teď hravě překonala hlasové syntetizátory
Další průlom: Neuronová síť Googlu začala mluvit, mlaskat a funět

Zatímco ještě před deseti lety byl termín strojové učení pro širší veřejnost prakticky neznámý, dnes je vše jinak a po hromadě experimentů Googlu, Microsoftu, Facebooku, IBM a výzkumných týmů z celého světa se zdá, že se skutečně blíží chvíle, kdy se software v některých oblastech opravdu přiblíží tomu, jak funguje lidská mysl.

Neuronové sítě nejprve začaly snít, pak porazily člověka v náročné hře Go, kterou vzhledem k její komplexnosti nelze jen tak jednoduše simulovat klasickými výpočetními algoritmy, no a nakonec získaly i předvídavost a pochopily, co se stane na fotografii, která znázorňuje nějaký děj.

Nyní se docela možná blíží chvíle, kdy začnou i samostatně mluvit, věhlasná britská laboratoř Google DeepMind se totiž pochlubila novým dítětem – konvoluční neuronovou sítí WaveNet, která se specializuje na generování zvuku. Jakéhokoliv zvuku, který se naučí.

Jak mluví Siri

Leckdo by mohl namítnout, že počítače přeci mluví už dlouhá léta – stačí na mobilním telefonu použít některý ze systému TTS (Text-To-Speech), hlasovou čtečku pro nevidomé na počítači, anebo prostě spustit jakoukoliv automobilovou navigaci, to však není žádné univerzální mluvení.

Ve všech těchto případech používají autoři dvě základní technologie pro generování umělého hlasu: konkatenativní a parametrickou. Obě na vlastní uši dobře znáte v nejrůznějších podobách a hlavně kvalitách. Ta první vytváří robotický hlas kombinováním skutečných hlasových úryvků člověka do jednoho celku, a tak se velmi přibližuje reálnému hlasu.

Nejjednodušší formou je třeba hlášení v MHD a na nádražích, kde se jen za sebe skládají nahrávky jednotlivých slov. Tou nejpokročilejší podobou jsou pak hlasoví asistenti včetně Apple Siri, kteří kombinují mnohem menší zvukové drobky – fonémy, a tak dokážou vyloudit prakticky cokoliv.

Konkatenativní TTS však má jednu podstatnou nevýhodu. Jelikož se syntetický hlasový projev skládá z nahrávek nějakého skutečného mluvčího, není příliš tvárný. Z ženského hlasu asi těžko uděláte mužský a tak dále. Pokud by měla asistentka Apple Siri mluvit jako osmileté dítě, musel by nejdříve její výrobce dodat hlasovou databázi pro osmileté dítě.

Proto je tu ještě onen druhý přístup a to parametrická technologie TTS. V tomto případě se již skutečně jedná o kompletní hlasový model, který s pomocí dalších komponent generuje zcela umělý zvuk. Problém spočívá v tom, že je to zvuk často až příliš robotický, protože model je prostě model – jen zjednodušený obraz reality. Parametrický TTS je tedy sice tvárnější, ale každý pozná, že s ním mluví robot a nikoliv člověk.

WaveNet mluví, mlaská, dýchá a zvládne i klavírní koncert

A teď zpět k WaveNetu. Vědci z DeepMindu mají bohaté zkušenosti se strojovým generováním obrázků na úrovni jednotlivých pixelů, a neuronová síť tak může s pomocí strojového učení nakreslit třeba kočku. Tak, jak si myslí, že kočka vypadá. Naučila se to analýzou tisíců a tisíců videí koťátek nejen na YouTube.

Výzkumníky tedy napadlo, že to samé zkusí se zvukem. Namísto pixelů začali neuronovou síť učit poslouchat hlasové a hudební nahrávky (16 kHz), a pak ji dali za úkol, ať sama něco řekne. Prezentované výsledky jsou bez nadsázky dechberoucí a neuronová síť v mnoha testech hravě překonala jak konkatenativní, tak parametrickou technologii TTS.

Poslechněte si ukázky (HTML5 audio)

Klepněte pro větší obrázek
Skóre (standardizovaný test MOS) pro konkatenativní a parametrickou TTS, neuronovou síť WaveNet a ještě skóre skutečného lidského hlasu pro lepší srovnání. K tomu, aby posluchač nerozeznal rozdíl mezi WaveNetem a lidským hlasem, chybí už opravdu málo.

Konkatenativní technologie TTS (systém generuje syntetický hlas z drobných nahrávek skutečného lidského hlasu)

Parametrická technologie TTS (systém generuje syntetický hlas pomoci počítačového modelu a zvukového generátoru)

Neuronová síť WaveNet (systém generuje jakýkoliv 16 kHz zvuk, který se naučí)

Jak se to DeepMindu a její síti podařilo? Šla až na samotnou dřeň zvuku. Nejde totiž o žádný další software na převod textu do řeči, ale o program, který generuje jakoukoliv zvukovou vlnu. Jestli to bude hlas, anebo klavírní koncert, bude záležet jen na tom, jestli takové zvuky už někdy slyšela.

Jelikož je WaveNet neuronová síť se strojovým učením, která se postupným sběrem informací neustále zdokonaluje, nemá pevná pravidla „od výroby“, a tak na rozdíl od ostatních TTS dokáže vygenerovat i takové speciality jak lidský dech a mlaskání. Jednoduše proto, že stejné zvuky slyšela, když se učila. Každý výstup může být zároveň trošku jiný a tedy i do jisté míry unikátní, čímž se opět přibližuje člověku.

WaveNet dokáže mluvit i smyšlenými jazyky

Ačkoliv systém WaveNet dokáže generovat jakýkoliv zvuk, který zná, musí mu také někdo vysvětlit, co který zvuk vlastně představuje a jak zní angličtina. To ale vědci WaveNetu řekli až v druhém kole. V tom prvním dostal příkaz mluvit, aniž by věděl, co to vlastně je, a výsledkem je něco unikátního – přesně to žvatlání v neexistujících jazycích, jak by mluvilo i dítě, pokud by angličtinu neovládalo a jen si ji představovalo třeba z poslechu v kině.

Všimněte si mlaskání a výrazného dechu. Přesto je vše syntetické – neuronová síť jednoduše při učení slyšela mluvčího dýchat, a tak dýchá také, protože si myslí, že to k tomu patří.

Tím nejpodstatnějším průlomem je však to, že se jedná o naprosto tvárný systém generování syntetického zvuku. Pokud by si WaveNet poslechl všechny typické lidské hlasy a dokázal je s pomocí dalších softwarových systémů klasifikovat, může je posléze i interpretovat. Až vám tedy jednou zazvoní telefon a promluví na vás vám dobře známý hlas, možná bude vše jinak.

Ze strojového učení se díky překotnému vývoji v několika posledních letech stává stále slibnější vědecký obor, do kterého mnozí vkládají naděje. A i když se zatím stále jedná spíše o dílčí a mnohdy spíše efektní experimenty, demonstrují kousky, které existovaly ještě na počátku století leda na papíře a v hlavách autorů sci-fi.

Pětipalcový mobilní telefon, který na baterii vydrží měsíc, tedy sice ještě vyrobit nedokážeme, ale chvíle, kdy počítač v lidském slova smyslu uvidí, uslyší, promluví a pochopí, je možná blíž, než si mnozí myslí.

Chcete mužský, ženský či jiný hlas? Anebo klavírní koncert? Žádný problém!

Jedna věta, jedna databáze a čtyři různí syntetičtí mluvčí. To by bylo pro klasické technologie TTS složité – parametrické TTS by potřebovalo ženský a mužský model a konkatenativní TTS pak nahrávky pro ženu a muže.

Dost bylo hlasu, chceme klavírní koncert. WaveNet si jich pár poslechl a začal krátce skládat. Poslechněte si, jak to dopadlo.

Diskuze (37) Další článek: John McAfee vrací úder, jeho nová společnost prý znamená konec Dropboxu a dalších cloudových služeb

Témata článku: Technologie, Software, Google, Umělá inteligence, Počítače, Roboti, Strojové učení, Superpočítače, Síť, DeepMind, Britská laboratoř, HTML, Lidský hlas, Jednotlivé pixely, WaveNetu, Kočka, Standardizovaný test, WaveNet, MHD, DAL, Lidská mysl, Pixie, Softwarový systém, Umělý zvuk, Vědecký obor, Software na Heureka.cz



Sex manželských párů? Jen výjimečně. Ložnice ovládnou roboti s umělou inteligencí

Sex manželských párů? Jen výjimečně. Ložnice ovládnou roboti s umělou inteligencí

** Sex manželských párů jen při zvláštních příležitostech. ** Ložnice ovládnou sexuální roboti s umělou inteligencí. ** I to je jeden ze závěrů Mezinárodní robotické konference.

Filip KůželJiří Liebreich
RobotiSexUmělá inteligence
Hry zadarmo, nebo se slevou: oslavy QuakeConu 2022 a Doom 64 zdarma

Hry zadarmo, nebo se slevou: oslavy QuakeConu 2022 a Doom 64 zdarma

Na všech herních platformách je každou chvíli nějaká slevová akce. Každý týden proto vybíráme ty nejatraktivnější, které by vám neměly uniknout. Pokud chcete získat hry zdarma nebo s výhodnou slevou, podívejte se na aktuální přehled akcí!

Martin Nahodil
Hry zdarmaSlevové akce
Nastal pravý čas na výměnu telefonu. Jak poznat, že ten váš už dosluhuje?

Nastal pravý čas na výměnu telefonu. Jak poznat, že ten váš už dosluhuje?

** Jak poznat, že váš telefon má nejlepší dny za sebou? ** Vypadá potlučeně, má pavučinu nebo nedostává aktualizace? ** Ukážeme si, kdy má smysl jeho oprava, a kdy už jen koupě nového

Martin Chroust
Prasklý displejVysloužilý mobilSmartphony
15 praktických tipů a triků pro Mapy.cz, které možná neznáte

15 praktických tipů a triků pro Mapy.cz, které možná neznáte

** Mapy.cz neslouží jen k zobrazení podkladů a plánování tras ** Nabízejí celou řadu dalších praktických funkcí a možností ** Vybrali jsme 15 tipů a triků, o kterých možná nevíte

Karel Kilián
Mapy.czMapyTipy
Jak poznat, že máte možná hacknutý telefon? Toto je devět symptomů, které můžete pozorovat

Jak poznat, že máte možná hacknutý telefon? Toto je devět symptomů, které můžete pozorovat

** Jak poznat, že je váš smartphone hacknutý? ** Hledejte známky po nestandardním chování telefonu ** Stačí když telefon vydrží méně nebo topí i v klidovém režimu...

Martin Chroust
Jak...Malware
Kurvítka v základní výbavě, výrobci mají umělé zastarávání v malíku. Začalo to bateriemi, pokračuje softwarem

Kurvítka v základní výbavě, výrobci mají umělé zastarávání v malíku. Začalo to bateriemi, pokračuje softwarem

** Nejen mobilní výrobci jsou naučeni rok od roku prodávat stále více telefonů ** Tento trend se však zákonitě musí někdy zastavit ** Jenže, co naplat, když jsou starší zařízení „uměle“ nepoužitelná?

Martin Chroust
Prasklý displejBaterieAktualizace softwaru
Jak zrcadlit obrazovku mobilu a počítače do televize

Jak zrcadlit obrazovku mobilu a počítače do televize

Ať už se chcete pochlubit fotkami z dovolené na velké obrazovce, nebo si přehrát video uložené na disku počítače, neobejdete se bez zrcadlení obrazovky. Ve výchozím stavu jej podporuje Windows i Android.

Stanislav Janů
NávodyTelevizeWindows