Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Ovládání hlasem a jeho přepis do psaného textu je cílem již několik desetiletí. Technologie je stále lepší a Microsoft oznámil významný pokrok v úspěšnosti porozumění.
Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Když v roce 1982 představil Kurzweil AI a Dragon Systems první systém, který byl schopen ve velmi malém rozsahu (pouze 1 000 slov o tři roky později) a nepříliš dobře rozeznat některá mluvená slova a spojit je s uloženými vzorky v databázi, bylo jasné, že hlasové ovládání jednou bude realitou.

Zatímco ve vědeckofantastických filmech se hlasové ovládání používá takřka vždy a funguje bez nejmenších problémů, v případě reálného nasazení tato technologie trápí vědce a inženýry již více než třicet let. S rostoucím výkonem se podařilo již v roce 1987 dosáhnout databáze s 20 000 slovy, posléze až s 150 000 slovy. Problémem je ale především chybovost a přesnost rozpoznání, která byla i v roce 1993 stále na hranici 10 %.

Tento trend příliš nezlepšila ani databáze Brown s milionem slov, ani samotný Google, který představil databázi o několik řádů větší. Hlavním a důležitým prvkem jsou totiž učící se algoritmy, a jak Microsoft ukázal v případě zařízení Kinect, na tuto technologii má k dispozici poměrně kvalitní tým inženýrů.

Klepněte pro větší obrázek
Microsoft si před pěti lety udělal ostudu v oblasti rozpoznávání hlasu v operačním systému Windows Vista, jak ale ukazuje celé video z prezentace, problém byl pouze při hlasitém okolí a na druhý pokus již přepis fungoval dobře.

A právě Microsoft před pár dny oficiálně oznámil významný pokrok a zlepšení v oblasti technologie rozpoznávání řeči.

Bez umělé inteligence a neuronové sítě to nejde

Tak jako u všech technologií ve kterých vyniká člověk a jeho neuronová síť v mozku, je nutné i v tomto případě napodobit miliony let vylepšovaný systém učení organické hmoty. Pro srovnání, typickému lidskému mozku trvá naučení rozpoznávání hlasu a slov několik let. Za tu dobu je jedinec vystaven neustálému opakování slov v různých variacích, kombinacích a tónech od rodičů, dalších dětí a osob v okolí.

V případě umělé inteligence a její neuronové sítě však máme výhodu toho, že tyto procesy lze zrychlit, přičemž vše je samozřejmě závislé na výkonu zpracování takových dat a složitosti neuronové sítě. Základní principy umělých neuronových sítí a spojených matematických modelů jednodušších částí mozku byly zkoumány již od roku 1950, stejný systém se tak používá i u strojového rozpoznávání hlasu.

Klepněte pro větší obrázek
Umělé neuronové sítě se používají i při rozpoznávání obrazů a dalších technologiích

V devadesátých letech se objevil takzvaný ANN-HMM model (Artificial Neural Networks- Hidden Markov Model), který byl přizpůsoben na velké databáze slov. V té době ale nebyl k dispozici takový výkon, aby bylo možné tuto techniku používat. Začaly se tak používat CD-GMM-HMM modely (Context-Dependent Gaussian Mixture Hidden Markov Model), které byly v té době méně náročné na výpočetní výkon a pro základní používání stačily.

Tento systém má však řadu omezení a tak se i Microsoft začal zajímat o opětovné používání pokročilejších umělých neuronových sítí, které slouží pro učení a zlepšování systému. S příchodem mobilních zařízení je totiž zapotřebí, aby byl takový systém schopen rozumět řeči a převést ji do podoby textu již od prvního spuštění a dokázal se přizpůsobit velké spoustě uživatelů pokud možno co nejrychleji.

Microsoft vyvinul pokročilejší systém CD-DNN-HMM (CD-Deep Neural Networks-HMM), který poskytuje výrazně lepší výsledky v rámci základního učení velkého počtu slov při jeho vývoji. Microsoftu se proces učení navíc podařilo velmi urychlit díky využití moderních grafických čipů, které mají obrovský paralelní výkon. Algoritmy a výpočty jsou totiž podobné zpracování trojrozměrné grafiky, grafický čip (konkrétně grafická karta Nvidia Tesla C1060 ) tak zvládne i 500 takových výpočtů současně. A výpočtů je v učící fázi opravdu hodně. Inženýři vytvořili největší umělou neuronovou síť pro rozpoznávání hlasu, kterou tvoří 66 milionů umělých neuronových spojení.

Zlepšení až o třetinu

Nové modely byly testovány na benchmarku Switchboard, který slouží pro měření chybovosti a tím i úspěšnosti daného systému. S 309 hodinami hlasových dat se jim podařilo nečekané – chyby v rozpoznávání slov klesly na hodnotu 18,5 %, což přestavuje o 33 % lepší výsledek než při použití konvenčních systémů.

Klepněte pro větší obrázek
Diagram hybridní architektury systému CD-DNN-HMM

Do současné doby zatím nebyl v oblasti rozpoznávání hlasu učiněn tak velký pokrok ve snížení chyb, jako v tomto případě. Své nadšení neskrývá ani jeden z vývojářů - Frank Seide: „Když jsme začali s benchmarkem, jehož součástí je i učení a celý zabere 20 dní výpočtů na našem zkušebním počítači, čekali jsme zlepšení mezi 16 až 20 %. Při kontrole modelů v průběhu učení a testů bylo však obrovským překvapením, že již přesáhl 20 % a nakonec se dostal přes 30 %“.

Podrobné informace a výsledky si můžete prohlédnout v tomto PDF.

Použitelný přepis řeči brzy realitou

Tento pokrok znamená další velký milník v oblasti kvalitní a skutečně použitelné technologie pro rozpoznávání hlasu, a její využití nejen na jednoduché příkazy, které Microsoft již částečně využívá například u Xboxu 360 ve s pojení s Kinectem, ale také přepisem mluvené řeči, a to v různých jazycích.

V dnešní době navíc nejsou problémem databáze slov, kterých je dostatek, a to i včetně nahraných vzorků jednotlivých slov. Důležitým prvkem jsou právě tyto učící se modely spoléhající na pokročilé umělé neuronové sítě. Ty lze totiž již ve výrobě naučit porozumění řeči a uživatel tak nemusí procházet žádným dodatečným učením a přizpůsobováním, které je navíc spojeno s řadou negativních vlivů.

Klepněte pro větší obrázek
Budeme si budoucí auta bez řidiče přivolávat hlasem?

Jak bylo zmíněno, v současnosti byly tyto systémy vystaveny stovkám hodin trénovacích dat, které obsahují namluvená slova v různé kvalitě i variacích. To je však pouze z důvodu prvotního zkoušení. Další fází je totiž přizpůsobení systému na mnohem větší objemy dat k učení, které budou obsahovat desítky tisíc hodin nahraného hlasu. Stejně jako u člověka, více dat povede k lepšímu výsledku a lepšími rozpoznávání.

Stejně jako u jiných technologií, dokonalosti nelze dosáhnout okamžitě, jak ale ukazuje i tento významný pokrok, vše je pouze otázku času. Možnosti využití této technologii jsou obrovské, a kdo ví, třeba se možná jednou dočkáme i jisté podoby Babylonské rybky do ucha, která zajistí okamžitý překlad mluvené slova v reálném čase do řeči, které rozumíte zrovna vy.

Témata článku: Hardware, Microsoft, Technologie, Velký výkon, Reálné využití, Průlom, Frank, Hidden, Hlas, Dragon, Obrovské překvapení, Strojové rozpoznávání, Jedinec, Model Tesla, Základní prvek, Tesla Model S, Anno, Tesla Model X, Neural networks, Nejmenší problém, Část mozku, Tesla Model 3, Rozpoznávání, Trojrozměrný model, Matematický model

Určitě si přečtěte

Tesla chce změnit nákladní dopravu. Její elektrický náklaďák má ohromující parametry

Tesla chce změnit nákladní dopravu. Její elektrický náklaďák má ohromující parametry

** Tesla představila elektrický kamion ** Má obdivuhodný výkon i dojezd ** Prodávat by se měl už za dva roky

Včera | Vojtěch Malý | 137

30 počítačových brzd, které vám zpomalí Windows

30 počítačových brzd, které vám zpomalí Windows

Na webu najdete hromadu rad, jak zrychlit počítač a Windows. My jsme na to šli opačně a naopak jsme hledali činnosti, které ho nejvíce zpomalují. Toto je třicítka těch základních.

12.  11.  2017 | Jakub Čížek | 90

Elektronika, která nepotřebuje kabel ani baterii. Živí se rádiovým šumem

Elektronika, která nepotřebuje kabel ani baterii. Živí se rádiovým šumem

** Každá elektrická krabička má konektor pro napájení nebo baterii ** Jenže pozor, jednou by to tak nemuselo být ** Drobná elektronika se může živit rádiovými vlnami

14.  11.  2017 | Jakub Čížek | 15


Aktuální číslo časopisu Computer

Otestovali jsme 5 HDR 4K televizorů

Jak natáčet video zrcadlovkou

Vytvořte si chytrou domácnost

Radíme s koupí počítačového zdroje