NovaVoice: diktujte počítači česky

Nechce se vám psát texty na klávesnici? Spásou by pro vás mohl být program pro převod mluvené češtiny na psanou. Jeden takový jsme vyzkoušeli.

Systémů pro rozpoznávání řeči je v současné době k dispozici poměrně hodně a jejich vývoj, datující se již desítky let, dále pokračuje. Je to celkem pochopitelný trend, protože jejich praktické uplatnění je nesmírně široké a má jistou budoucnost. Klávesnice a myš jsou sice prezentovány jako „human interfaces“, ale je jasné, že bez těchto rozhraní bychom se klidně obešli, kdybychom si s počítači mohli tak nějak „normálně“ povídat.

Složitá čeština brzdou pokroku

Základem všech těchto systémů jsou algoritmy umožňující přiřazení zvuku konkrétnímu výrazu ze slovníku, který bývá jejich součástí. Tato činnost je náročná na indexaci mnoha vstupů od mnoha řečníků a hledání společných prvků, na jejichž základě tato transformace probíhá. Jedná se o činnost nesmírně náročnou na strojový výkon, což vynikne především u našeho mateřského jazyka. Uvádí se, že tam, kde angličtina vystačí se slovníkem 50 tisíc slov, je nutné pro češtinu mít kolem milionu slov a jejich tvarů. Čeština navíc obsahuje velké množství dalších specialit, jako je časování sloves či skloňování jmen (jen příjmení prezentují ve všech tvarech 2,5 milionu výrazů ve slovníku). Díky tomu neumožňuje náš jazyk prosté převzetí již existujících řešení, ale vlastní vědeckou činnost. Tu v Česku provádí, díky nesmírné náročnosti, výhradně výzkumné univerzitní týmy. Ty pak výsledky své práce poskytují komerčním subjektům, které výsledky výzkumu přenášejí do praktického života.

Systémy rozpoznání řeči lze využít v mnoha oblastech. Prostým ovládáním počítače spočívajícím v přiřazení jednoduchých povelů příkazům systému, až po identifikaci osob, která využívá toho, že hlas je vlastně dalším biometrickým prvkem. Nepřekvapí proto, že systémy rozpoznávání hlasu používají bezpečnostní složky pro identifikaci odposlouchávaných osob nebo vyhledávání klíčových slov v indexovaných databázích odposlechů. Komerční využití je také zřejmé: Např. T-Mobile již má v ČR v provozu virtuální Týnu, která nahrazuje nepopulární komunikaci s automatem call centra a jistě není daleko ani využití v zábavním průmyslu. Ve výčtu samozřejmě nesmíme zapomenout na pomoc hendikepovaným, kterým umožňuje plnohodnotnou práci s počítačem.

Počítač porozumí s NovaVoice

Testovaný program NovaVoice si můžete pamatovat z Invexu, kde byl prezentován. Slouží k diktování a převodu řeči, což je další typické využití, a to především tam, kde tato činnost výrazně zvyšuje efektivitu práce, jako je tomu u soudů, lékařů, vědců v laboratořích a podobně.

Systém využívá technologie spojitého diktování do počítače, která se při rozpoznání slova využívá také jeho návaznost na předchozí rozpoznané slovo a predikci následujícího. To je v samotném průběhu diktátu velmi výhodné a funkční – což lze vizuálně sledovat v průběhu samotného převodu na obrazovce, kde se mnohdy nesprávně rozeznané slovo automaticky koriguje v návaznosti na okolní text.

Čeština obsahuje nesmírné množství slov a jejich opisů – hovoří se o počtu kolem 2 milionů beze jmen, přičemž za úplný základ pro rozlišení spisovné řeči se považuje zhruba čtvrtina. A právě v tomto množství je v současné době největší problém. Aby běžné PC bylo schopno pracovat v reálném čase s takovým množstvím dat, je bohužel nereálné. A proto se musí dělat kompromisy. Ten základní spočívá ve vybrání správné podmnožiny dat pro konkrétní skupinu uživatelů.

NovaVoice 4.bmp 
NovaVoice poslouchá a píše

Testovaná aplikace měla odborný slovník určený pro soudce Krajského soudu v Praze. Tento justiční slovník obsahuje necelých 130 tisíc slov. Pro zajímavost databáze slov určená pro přepis parlamentních zasedání vystačí pro úspěšnost nad 90% se 180 tisíci slov. Vezmeme-li v úvahu, že za základ spisovné češtiny bez jmen považuje výrobce 600 tisíc slov, je optimalizace kvalitně provedena.

TIP: podívejte se na video, jak probíhá převod mluvené řeči na psanou

Slovníky NovaVoice pochází z Katedry kybernetiky Západočeské univerzity v Plzni, která je také autorem rozpoznávacího enginu. Justiční slovník byl sestaven a optimalizován na základě rozsáhlé analýzy slov soudních textů a doplněním místopisných názvů daného teritoria (ulice, obce, náměstí ve všech pádech kromě pátého).

Diktáty umí psát bez chyb

Během instalace programu dojde k nahrání slovníku a také probíhá základní nastavení uživatele, které spočívá především ve výběru, zda diktujícím uživatelem bude muž či žena. To je pro vyhodnocování velmi podstatné, protože použité mužský a ženský hlas se svými charakteristikami zásadně liší a nesprávné nastavení by výrazně ovlivnilo výslednou úspěšnost transformace diktátu v text.

Dalším krokem je nastavení mikrofonu sestávající ze dvou rychlých částí: Nastavení hladiny ticha (tj. běžného šumu prostředí, ke kterému se bude mluvená řeč zvukově vztahovat) a citlivosti mikrofonu při řeči.

NovaVoice 3.bmp
Možnosti nastavení programu

Nastavení je věnováno pouhé jedno okno, kde lze nastavit i server pro odeslání výsledků elektronickou poštou nebo adresu textového editoru pro odeslání výsledků diktátů jedním kliknutím.

Samotné ovládání aplikace je jednoduché a přehledně uspořádané. Obsahuje základní a obecně známé prvky, takže by se nikdo neměl v nabídce ztratit. Při samotném diktování jsou okamžitě vidět výhody inteligentního spojitého diktátu v souvislosti s gramatikou. Diktuji-li například větu „Děti odešly do školy.“ je software schopen na základě vyhodnocování předchozího slova a predikce následujících možností nejen správně větu rozpoznat, ale napsat ji i gramaticky správně.

Slovníky na míru

Správnost rozpoznávání se v konkrétním po pilotním projektu pro Krajský soud v Praze pohybovala, podle údajů výrobce, mezi 91-94%. Při vyhodnocení, spočívajícím v porovnání audiozáznamu s výsledným textem bylo navíc odhaleno, že 2-3% byla dána chybou při diktátu, resp. nedodržením pokynů pro diktování (je rozdíl řeknete-li „tisícdevětsetdevadesátsedm“ a „devatenáctsetdevadesátsedm“).

Diktát sám o sobě je velmi jednoduchý. Diktuje se například „vynechat text“ nebo „tři tečky“. Veškeré pokyny pro diktování značek, interpunkcí a dalších povelů zabírají v uživatelské příručce 2 stránky a jejich osvojení není žádný problém.

Rozpoznávání funguje pro jakýkoliv hlas, adaptace na uživatele není nutná, ale tuto výrobce nabízí možnost upravit algoritmus na míru konkrétního uživatele. Stačí, když zmiňovaný přečte libovolný text v rozsahu cca. 15 minut a během několika dnů mu přijde nový slovník upravený na míru. Program se tak vyrovná i s drobnými vadami řeči, jako je ráčkování, špatná výslovnost některých slabik a podobně. Z osobní zkušenosti mohu každopádně doporučit použití kvalitního mikrofonu, jaký nabízí i samotný výrobce společně se software.

Systém funguje i jako elektronický diktafon – součástí záznamu je zvuková stopa, která významně pomůže při následné korektuře textu, přičemž při přehrávání zvuku se označují jednotlivá slova. A mluvíme-li o diktafonu – samozřejmě lze importovat i libovolné zvukové záznamy, třeba zrovna z diktafonu.

Výkon budoucích počítačů se bude hodit

Doba každodenního používání rozpoznávání řeči v češtině je sice ještě poměrně vzdálená, ale s růstem výpočetní síly počítačů na ni jistě dojde. I proto je zajímavé, že i dnes lze využívat plně funkční aplikace, byť s omezenými možnosti detekce slov. NovaVoice je také výborným příkladem spolupráce akademické a soukromé sféry.

NovaVoice 2.jpg 
Rozpoznávání řeči má více možností uplatnění, například pro indexaci a následné vyhledávání ve videích. Na obázku ukázka vyhledávání projevů o radaru.

výrobce: Consulting Company Novasoft a.s.
web: www.novavoice.cz
cena: přesně nestanovena

fsc.jpg

Diskuze (23) Další článek: Ke stažení: vlastní diskusní fórum

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , , ,