Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Ovládání hlasem a jeho přepis do psaného textu je cílem již několik desetiletí. Technologie je stále lepší a Microsoft oznámil významný pokrok v úspěšnosti porozumění.
Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Když v roce 1982 představil Kurzweil AI a Dragon Systems první systém, který byl schopen ve velmi malém rozsahu (pouze 1 000 slov o tři roky později) a nepříliš dobře rozeznat některá mluvená slova a spojit je s uloženými vzorky v databázi, bylo jasné, že hlasové ovládání jednou bude realitou.

Zatímco ve vědeckofantastických filmech se hlasové ovládání používá takřka vždy a funguje bez nejmenších problémů, v případě reálného nasazení tato technologie trápí vědce a inženýry již více než třicet let. S rostoucím výkonem se podařilo již v roce 1987 dosáhnout databáze s 20 000 slovy, posléze až s 150 000 slovy. Problémem je ale především chybovost a přesnost rozpoznání, která byla i v roce 1993 stále na hranici 10 %.

Tento trend příliš nezlepšila ani databáze Brown s milionem slov, ani samotný Google, který představil databázi o několik řádů větší. Hlavním a důležitým prvkem jsou totiž učící se algoritmy, a jak Microsoft ukázal v případě zařízení Kinect, na tuto technologii má k dispozici poměrně kvalitní tým inženýrů.

Klepněte pro větší obrázek
Microsoft si před pěti lety udělal ostudu v oblasti rozpoznávání hlasu v operačním systému Windows Vista, jak ale ukazuje celé video z prezentace, problém byl pouze při hlasitém okolí a na druhý pokus již přepis fungoval dobře.

A právě Microsoft před pár dny oficiálně oznámil významný pokrok a zlepšení v oblasti technologie rozpoznávání řeči.

Bez umělé inteligence a neuronové sítě to nejde

Tak jako u všech technologií ve kterých vyniká člověk a jeho neuronová síť v mozku, je nutné i v tomto případě napodobit miliony let vylepšovaný systém učení organické hmoty. Pro srovnání, typickému lidskému mozku trvá naučení rozpoznávání hlasu a slov několik let. Za tu dobu je jedinec vystaven neustálému opakování slov v různých variacích, kombinacích a tónech od rodičů, dalších dětí a osob v okolí.

V případě umělé inteligence a její neuronové sítě však máme výhodu toho, že tyto procesy lze zrychlit, přičemž vše je samozřejmě závislé na výkonu zpracování takových dat a složitosti neuronové sítě. Základní principy umělých neuronových sítí a spojených matematických modelů jednodušších částí mozku byly zkoumány již od roku 1950, stejný systém se tak používá i u strojového rozpoznávání hlasu.

Klepněte pro větší obrázek
Umělé neuronové sítě se používají i při rozpoznávání obrazů a dalších technologiích

V devadesátých letech se objevil takzvaný ANN-HMM model (Artificial Neural Networks- Hidden Markov Model), který byl přizpůsoben na velké databáze slov. V té době ale nebyl k dispozici takový výkon, aby bylo možné tuto techniku používat. Začaly se tak používat CD-GMM-HMM modely (Context-Dependent Gaussian Mixture Hidden Markov Model), které byly v té době méně náročné na výpočetní výkon a pro základní používání stačily.

Tento systém má však řadu omezení a tak se i Microsoft začal zajímat o opětovné používání pokročilejších umělých neuronových sítí, které slouží pro učení a zlepšování systému. S příchodem mobilních zařízení je totiž zapotřebí, aby byl takový systém schopen rozumět řeči a převést ji do podoby textu již od prvního spuštění a dokázal se přizpůsobit velké spoustě uživatelů pokud možno co nejrychleji.

Microsoft vyvinul pokročilejší systém CD-DNN-HMM (CD-Deep Neural Networks-HMM), který poskytuje výrazně lepší výsledky v rámci základního učení velkého počtu slov při jeho vývoji. Microsoftu se proces učení navíc podařilo velmi urychlit díky využití moderních grafických čipů, které mají obrovský paralelní výkon. Algoritmy a výpočty jsou totiž podobné zpracování trojrozměrné grafiky, grafický čip (konkrétně grafická karta Nvidia Tesla C1060 ) tak zvládne i 500 takových výpočtů současně. A výpočtů je v učící fázi opravdu hodně. Inženýři vytvořili největší umělou neuronovou síť pro rozpoznávání hlasu, kterou tvoří 66 milionů umělých neuronových spojení.

Zlepšení až o třetinu

Nové modely byly testovány na benchmarku Switchboard, který slouží pro měření chybovosti a tím i úspěšnosti daného systému. S 309 hodinami hlasových dat se jim podařilo nečekané – chyby v rozpoznávání slov klesly na hodnotu 18,5 %, což přestavuje o 33 % lepší výsledek než při použití konvenčních systémů.

Klepněte pro větší obrázek
Diagram hybridní architektury systému CD-DNN-HMM

Do současné doby zatím nebyl v oblasti rozpoznávání hlasu učiněn tak velký pokrok ve snížení chyb, jako v tomto případě. Své nadšení neskrývá ani jeden z vývojářů - Frank Seide: „Když jsme začali s benchmarkem, jehož součástí je i učení a celý zabere 20 dní výpočtů na našem zkušebním počítači, čekali jsme zlepšení mezi 16 až 20 %. Při kontrole modelů v průběhu učení a testů bylo však obrovským překvapením, že již přesáhl 20 % a nakonec se dostal přes 30 %“.

Podrobné informace a výsledky si můžete prohlédnout v tomto PDF.

Použitelný přepis řeči brzy realitou

Tento pokrok znamená další velký milník v oblasti kvalitní a skutečně použitelné technologie pro rozpoznávání hlasu, a její využití nejen na jednoduché příkazy, které Microsoft již částečně využívá například u Xboxu 360 ve s pojení s Kinectem, ale také přepisem mluvené řeči, a to v různých jazycích.

V dnešní době navíc nejsou problémem databáze slov, kterých je dostatek, a to i včetně nahraných vzorků jednotlivých slov. Důležitým prvkem jsou právě tyto učící se modely spoléhající na pokročilé umělé neuronové sítě. Ty lze totiž již ve výrobě naučit porozumění řeči a uživatel tak nemusí procházet žádným dodatečným učením a přizpůsobováním, které je navíc spojeno s řadou negativních vlivů.

Klepněte pro větší obrázek
Budeme si budoucí auta bez řidiče přivolávat hlasem?

Jak bylo zmíněno, v současnosti byly tyto systémy vystaveny stovkám hodin trénovacích dat, které obsahují namluvená slova v různé kvalitě i variacích. To je však pouze z důvodu prvotního zkoušení. Další fází je totiž přizpůsobení systému na mnohem větší objemy dat k učení, které budou obsahovat desítky tisíc hodin nahraného hlasu. Stejně jako u člověka, více dat povede k lepšímu výsledku a lepšími rozpoznávání.

Stejně jako u jiných technologií, dokonalosti nelze dosáhnout okamžitě, jak ale ukazuje i tento významný pokrok, vše je pouze otázku času. Možnosti využití této technologii jsou obrovské, a kdo ví, třeba se možná jednou dočkáme i jisté podoby Babylonské rybky do ucha, která zajistí okamžitý překlad mluvené slova v reálném čase do řeči, které rozumíte zrovna vy.

Diskuze (60) Další článek: Samsung Slate PC: tenký tablet s Core i5 a Windows

Témata článku: Technologie, Microsoft, Hardware, Neural networks, Reálné využití, Velký výkon, Anno, Hlas, Tesla Model X, Oblast, Strojové rozpoznávání, Dragon, Frank, Mluvené slovo, Průlom, DNN, Anna, Obrovské překvapení, Základní prvek, Část mozku, Tesla Model S, Trojrozměrný model, Velký milník, Velký problém, Velká data



Vědci z NASA odhalili, co by se stalo, kdyby lidstvo v 80. letech nepřestalo používat freony

Vědci z NASA odhalili, co by se stalo, kdyby lidstvo v 80. letech nepřestalo používat freony

** V roce 1987 byl podepsán Montrealský protokol ** Jeho cílem bylo ukončení používání freonů ** Vědci zkoumali, co by se stalo, kdyby lidstvo s freony neskončilo

Karel Kilián
OzonGlobální oteplováníNASA
Musk v e-mailu varuje před bankrotem SpaceX. Ohroženy mohou být starty raket i Starlink

Musk v e-mailu varuje před bankrotem SpaceX. Ohroženy mohou být starty raket i Starlink

** Elon Musk popsal v e-mailu kritickou situaci kolem motorů Raptor ** Pokud se potíže nevyřeší, může firmě hrozit bankrot ** Sám Musk zrušil dovolenou a šel pracovat na výrobní linku

Karel Kilián
StarshipSpaceXElon Musk
Lék proti depresi za stokorunu snižuje riziko těžkého průběhu i úmrtí na onemocnění covid-19

Lék proti depresi za stokorunu snižuje riziko těžkého průběhu i úmrtí na onemocnění covid-19

** Klinická studie zkoumala vliv antidepresiva fluvoxamin na covid-19 ** Počet úmrtí souvisejících s covidem-19 klesl zhruba o 90 % ** Potřeba intenzivní lékařské péče se snížila zhruba o 65 %

Karel Kilián
COVID-19LékyDepreseMedicína
Miyazaki je fanda oldschoolovek. Bez ICO by prý Dark Souls nikdy nevzniklo

Miyazaki je fanda oldschoolovek. Bez ICO by prý Dark Souls nikdy nevzniklo

V Japonsku se slavilo 20. výročí od vydání PS2 legendy.

Radek Wunderlich
PlayStationFromSoftware
Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

** Nelibí se vám, když cizí lidé okukují váš dům? ** Všechny mapové aplikace nabízejí možnost rozmazání snímku ** Máme návod pro Apple Maps, Bing Maps, Mapy Google a Mapy.cz

Karel Kilián
SoukromíNávodyMapy
Recenze Windows 11. Microsoft nás opíjí rohlíkem a omezuje použitelnost

Recenze Windows 11. Microsoft nás opíjí rohlíkem a omezuje použitelnost

** Oproti Desítkám významně stouply hardwarové požadavky ** Windows 11 mají nový vzhled, ale výrazně narušují workflow. ** Potěší vyhledávání, multitasking i rychlejší aktualizace

Petr Urban
Windows 11Testy