Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Ovládání hlasem a jeho přepis do psaného textu je cílem již několik desetiletí. Technologie je stále lepší a Microsoft oznámil významný pokrok v úspěšnosti porozumění.
Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Když v roce 1982 představil Kurzweil AI a Dragon Systems první systém, který byl schopen ve velmi malém rozsahu (pouze 1 000 slov o tři roky později) a nepříliš dobře rozeznat některá mluvená slova a spojit je s uloženými vzorky v databázi, bylo jasné, že hlasové ovládání jednou bude realitou.

Zatímco ve vědeckofantastických filmech se hlasové ovládání používá takřka vždy a funguje bez nejmenších problémů, v případě reálného nasazení tato technologie trápí vědce a inženýry již více než třicet let. S rostoucím výkonem se podařilo již v roce 1987 dosáhnout databáze s 20 000 slovy, posléze až s 150 000 slovy. Problémem je ale především chybovost a přesnost rozpoznání, která byla i v roce 1993 stále na hranici 10 %.

Tento trend příliš nezlepšila ani databáze Brown s milionem slov, ani samotný Google, který představil databázi o několik řádů větší. Hlavním a důležitým prvkem jsou totiž učící se algoritmy, a jak Microsoft ukázal v případě zařízení Kinect, na tuto technologii má k dispozici poměrně kvalitní tým inženýrů.

Klepněte pro větší obrázek
Microsoft si před pěti lety udělal ostudu v oblasti rozpoznávání hlasu v operačním systému Windows Vista, jak ale ukazuje celé video z prezentace, problém byl pouze při hlasitém okolí a na druhý pokus již přepis fungoval dobře.

A právě Microsoft před pár dny oficiálně oznámil významný pokrok a zlepšení v oblasti technologie rozpoznávání řeči.

Bez umělé inteligence a neuronové sítě to nejde

Tak jako u všech technologií ve kterých vyniká člověk a jeho neuronová síť v mozku, je nutné i v tomto případě napodobit miliony let vylepšovaný systém učení organické hmoty. Pro srovnání, typickému lidskému mozku trvá naučení rozpoznávání hlasu a slov několik let. Za tu dobu je jedinec vystaven neustálému opakování slov v různých variacích, kombinacích a tónech od rodičů, dalších dětí a osob v okolí.

V případě umělé inteligence a její neuronové sítě však máme výhodu toho, že tyto procesy lze zrychlit, přičemž vše je samozřejmě závislé na výkonu zpracování takových dat a složitosti neuronové sítě. Základní principy umělých neuronových sítí a spojených matematických modelů jednodušších částí mozku byly zkoumány již od roku 1950, stejný systém se tak používá i u strojového rozpoznávání hlasu.

Klepněte pro větší obrázek
Umělé neuronové sítě se používají i při rozpoznávání obrazů a dalších technologiích

V devadesátých letech se objevil takzvaný ANN-HMM model (Artificial Neural Networks- Hidden Markov Model), který byl přizpůsoben na velké databáze slov. V té době ale nebyl k dispozici takový výkon, aby bylo možné tuto techniku používat. Začaly se tak používat CD-GMM-HMM modely (Context-Dependent Gaussian Mixture Hidden Markov Model), které byly v té době méně náročné na výpočetní výkon a pro základní používání stačily.

Tento systém má však řadu omezení a tak se i Microsoft začal zajímat o opětovné používání pokročilejších umělých neuronových sítí, které slouží pro učení a zlepšování systému. S příchodem mobilních zařízení je totiž zapotřebí, aby byl takový systém schopen rozumět řeči a převést ji do podoby textu již od prvního spuštění a dokázal se přizpůsobit velké spoustě uživatelů pokud možno co nejrychleji.

Microsoft vyvinul pokročilejší systém CD-DNN-HMM (CD-Deep Neural Networks-HMM), který poskytuje výrazně lepší výsledky v rámci základního učení velkého počtu slov při jeho vývoji. Microsoftu se proces učení navíc podařilo velmi urychlit díky využití moderních grafických čipů, které mají obrovský paralelní výkon. Algoritmy a výpočty jsou totiž podobné zpracování trojrozměrné grafiky, grafický čip (konkrétně grafická karta Nvidia Tesla C1060 ) tak zvládne i 500 takových výpočtů současně. A výpočtů je v učící fázi opravdu hodně. Inženýři vytvořili největší umělou neuronovou síť pro rozpoznávání hlasu, kterou tvoří 66 milionů umělých neuronových spojení.

Zlepšení až o třetinu

Nové modely byly testovány na benchmarku Switchboard, který slouží pro měření chybovosti a tím i úspěšnosti daného systému. S 309 hodinami hlasových dat se jim podařilo nečekané – chyby v rozpoznávání slov klesly na hodnotu 18,5 %, což přestavuje o 33 % lepší výsledek než při použití konvenčních systémů.

Klepněte pro větší obrázek
Diagram hybridní architektury systému CD-DNN-HMM

Do současné doby zatím nebyl v oblasti rozpoznávání hlasu učiněn tak velký pokrok ve snížení chyb, jako v tomto případě. Své nadšení neskrývá ani jeden z vývojářů - Frank Seide: „Když jsme začali s benchmarkem, jehož součástí je i učení a celý zabere 20 dní výpočtů na našem zkušebním počítači, čekali jsme zlepšení mezi 16 až 20 %. Při kontrole modelů v průběhu učení a testů bylo však obrovským překvapením, že již přesáhl 20 % a nakonec se dostal přes 30 %“.

Podrobné informace a výsledky si můžete prohlédnout v tomto PDF.

Použitelný přepis řeči brzy realitou

Tento pokrok znamená další velký milník v oblasti kvalitní a skutečně použitelné technologie pro rozpoznávání hlasu, a její využití nejen na jednoduché příkazy, které Microsoft již částečně využívá například u Xboxu 360 ve s pojení s Kinectem, ale také přepisem mluvené řeči, a to v různých jazycích.

V dnešní době navíc nejsou problémem databáze slov, kterých je dostatek, a to i včetně nahraných vzorků jednotlivých slov. Důležitým prvkem jsou právě tyto učící se modely spoléhající na pokročilé umělé neuronové sítě. Ty lze totiž již ve výrobě naučit porozumění řeči a uživatel tak nemusí procházet žádným dodatečným učením a přizpůsobováním, které je navíc spojeno s řadou negativních vlivů.

Klepněte pro větší obrázek
Budeme si budoucí auta bez řidiče přivolávat hlasem?

Jak bylo zmíněno, v současnosti byly tyto systémy vystaveny stovkám hodin trénovacích dat, které obsahují namluvená slova v různé kvalitě i variacích. To je však pouze z důvodu prvotního zkoušení. Další fází je totiž přizpůsobení systému na mnohem větší objemy dat k učení, které budou obsahovat desítky tisíc hodin nahraného hlasu. Stejně jako u člověka, více dat povede k lepšímu výsledku a lepšími rozpoznávání.

Stejně jako u jiných technologií, dokonalosti nelze dosáhnout okamžitě, jak ale ukazuje i tento významný pokrok, vše je pouze otázku času. Možnosti využití této technologii jsou obrovské, a kdo ví, třeba se možná jednou dočkáme i jisté podoby Babylonské rybky do ucha, která zajistí okamžitý překlad mluvené slova v reálném čase do řeči, které rozumíte zrovna vy.

Diskuze (60) Další článek: Samsung Slate PC: tenký tablet s Core i5 a Windows

Témata článku: Technologie, Hardware, Microsoft, Významný pokrok, Reálné využití, Velký milník, Tesla Model 3, Část mozku, Mluvené slovo, Frank, Hlas, Velký výkon, Průlom, Kurzweil, Velký problém, Tesla Model X, Trojrozměrný model, DNN, Obrovské překvapení, Strojové rozpoznávání, Rozpoznávání, Nejmenší problém, Jedinec, Model Tesla, Tesla Model S


Určitě si přečtěte

Windows 10 podle našich čtenářů: Poslali jste nám skoro 300 nápadů, jak je vylepšit

Windows 10 podle našich čtenářů: Poslali jste nám skoro 300 nápadů, jak je vylepšit

** Microsoft aktualizuje Windows 10 dvakrát ročně ** Jenže praktických novinek už není tolik jako dříve ** Poslali jste nám skoro 300 tipů, co by se měly Desítky ještě naučit

Jakub Čížek | 139

Kdyby měli železničáři tento superpočítač za 99 dolarů, nepotřebovali by lasery

Kdyby měli železničáři tento superpočítač za 99 dolarů, nepotřebovali by lasery

** Nejmodernější český železniční tunel je prošpikovaný technologiemi ** Za tři tisíce koupíte počítač, který je překoná ** Seznamte se s Nvidia Jetson Nano

Jakub Čížek | 50

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

** Za neúspěchem Microsoftu v mobilech stojí i Windows 8 ** Microsoft pozdě naskočil do rozjetého vlaku ** Uživatelé neměli zásadní důvody, proč přejít

Karel Kilián | 138

10 novinek Androidu 10, které vás budou bavit

10 novinek Androidu 10, které vás budou bavit

Jan Láska, Vladislav Kluska | 27

Že by konečně revoluce? Nové chytré hodinky od Garminu mají průhledný solární panel

Že by konečně revoluce? Nové chytré hodinky od Garminu mají průhledný solární panel

** Chytré hodinky mají relativně malou výdrž ** Sportovní fénixy od Garminu jsou na tom ale lépe ** Poslední verze nabízí dokonce transparentní solární panel

Jakub Čížek | 56


Aktuální číslo časopisu Computer

Megatest 20 procesorů

Srovnání 15 True Wireless sluchátek

Vyplatí se tisknout fotografie doma?

Vybíráme nejlepší základní desky