Živě T-10: Microsoft MiPad vám rozumět

V roce 2000 Microsoft představil nadějný projekt pro budoucí PDA a další zařízení, který by spojoval výhody ovládání dotykem i hlasem.
Živě T-10: Microsoft MiPad vám rozumět

Xuedong Huang je jedním z nejlepších odborníků přes rozpoznávání hlasu v počítačovém světě, za které získal několik ocenění, především pak za pokrok v této oblasti. Již od svého nástupu do společnosti Microsoft byl označován pod přezdívkou „Mr. Speech“ a nyní pracuje jako generální manažer vývojového komunikačního centra, které stojí například za systémem „Microsoft Response Point“, který je takovou inteligentní telefonní ústřednou s rozpoznáváním hlasu.

Před více než 10 lety se však podílel na vývoji mnohem zajímavějšího projektu, který nás v určité podobě v budoucnu jistě čeká a nemine.

Projekt MiPad

Microsoft MiPad (Multimodal interactive notepad) je systém rozpoznávání hlasu, který pracoval na nové koncepci. Standardní rozeznávání hlasu pracuje tak, že na lokálním přístroji je uložena příslušná databáze možných příkazů a slov, program tak z hlasu podle frekvenční analýzy porovná vyslovené slovo a jakmile nalezne shodu s největší pravděpodobností, pokračuje daným příkazem či dále pracuje s textem.

Tento systém je dnes velmi běžně používaný a zmodernizovaný, dokonce i v mobilních telefonech a dalších zařízení. Přesnost se v posledních letech stále zlepšuje, ale jak jsme mohli vidět na známém videu při představování hlasového ovládání Windows Vista, tvorba složitějších vět a jejich případný přepis na text je stále hudbou budoucnosti.

Klepněte pro větší obrázek

MiPad však mířil mnohem dál, zabýval se totiž i sémantickou složkou rozpoznávání textu, která je počítačům velmi cizí. Stejně jako v běžné řeči, kterou náš mozek zpracovává dnes a denně, provádíme nejen rozpoznávání každého slova a jeho význam (což člověku trvá několik dětských let učení, respektive ukládání a přiřazování daných významů), ale také smysl celé věty jako takové.

Tato složitá interakce patří mezi ty nejtěžší úkoly, které je pravděpodobně možné programovat, protože to vyžaduje specializované lingvisty a další odborníky přes jazyk, o odlišnosti různých jazyků či větného seskupení ani nemluvě. Vzhledem k tehdejšímu malému výkonu mobilních zařízení, pro které měl být systém určen především, nebylo možné takto složité operace zpracovávat lokálně.

Jak je vidět z obrázku, koncept rozhraní obsahoval tlačítko „Tap & Talk“, které bylo určeno pro zadávání příkazů. Systém tak pracoval nejdříve lokálně pro snímání „zvuku“, který byl následně odeslán v komprimované podobě na vzdálený server, pod kterým si sice dnes představíme samozřejmě nějaký „Cloud“, u tehdejšího prototypu to byl obyčejný počítač v síti s operačním systémem Windows 2000, kde běžel software pro rozpoznávání slov z databáze o přibližně 64 000 slovech (technologie „Dr. Who“), přičemž následovala celková sémantická analýza příkazu.

Klepněte pro větší obrázek

Po zpracování byl rozpoznaný příkaz poslán zpátky do přístroje, kde se následná operace vykonala. Myšlenka byla taková, že jednoduché akce a pohyb v menu přístroje by byly samozřejmě vykonávány dotykovým perem či prstem, složitější příkazy, které vyžadovaly několik úkonů, měly být řešeny pomocí hlasu. Zdánlivě jednoduchý, ale z hlediska programu velmi složitý příkaz - „Sejít se v pátek s Honzou“ (neberte v úvahu složitější češtinu, angličtina je jednodušší – „Meet with John on Friday“) tak měl otevřít kalendář, otevřít nejbližší odpovídající den, tedy pátek a připravit kurzor na políčko pro zadání času nebo předmětu. Po následném vyslovení názvu předmětu či času provést analýzu a přepis s možností opravy. Delší věta s různými příkazy a s mnoha proměnnými tak byla alespoň částečně rozdělena, aby se snížil počet falešných či špatně „pochopených“ příkazů.

Oproti běžnému desktopu, kde se dá například zachytit běžný šum a snadno ho tak odfiltrovat, se s mobilními přístroji nacházíme pokaždé na jiném místě, filtrování šumu a jeho rozpoznání ve frekvenční křivce je tak o to složitější.

Ani vidu, ani slechu

Projekt nebyl oficiálně nikdy uveden a vzhledem k žádným dostupným informacím ze současné doby lze předpokládat, že jako takový už neexistuje. Technologie rozpoznávání hlasu však samozřejmě žije dál, což můžeme vidět na stále nových verzích hlasového rozhraní v operačních systémech od Microsoftu.

Hlasové ovládání začíná být díky stále většímu výkonu mobilních zařízení, rychlé síti a rozmachu cloud computingu více „vidět“, mezi nejlepší příklad patří jistě rozpoznávání hlasu na přístroji iPhone 3GS nebo zmíněné „sémantické“ řešení od Googlu. Zatímco například Voice Control na mobilním přístroji od Applu slouží pro jednoduché příkazy pro přehrávání hudby nebo vytočení kontaktu z adresáře, které jsou porovnávány s lokálně vytvořenou databází, systém Google Voice je mnohem propracovanější.

Google si hraje s rozpoznáváním hlasu již delší dobu (můžete vyzkoušet u některých videí na Youtube), čemuž ještě napomáhá obrovská databáze hledaných slov a výrazů z jeho vyhledávače, které usnadňují opravu a zpřesňují konečné „správné“ slovo a výraz.

Sémantický význam celé věty je také jednou z oblastí, ve které pravděpodobně bude Google díky databázi z hledaných slov a naindexovaných textů v budoucnu těžit a konkurence bude díky menší „databázi“ slov a vět, která podobně jako v případě hledaní nabízí menší relevanci a nelze ji už sebelepším algoritmem vylepšit, stále pozadu.

Video

Ukázku Google Voice v případě hledání a jeho některých možností si můžete prohlédnout na tomto videu:

Diskuze (6) Další článek: Gmail začal upozorňovat na podezřelé aktivity vaší schránky

Témata článku: Historie, Rozpoznávání, Vide, Význam, Voice, Běžný šum, Cizí video, Relevance, Běžný set, Vytočení, Obrovský rozmach, iPhone 3Gs, Nejlepší příklad, Jednoduchá oprava, Hlasový příkaz, Nejtěžší úkol, Obrovská databáze


Určitě si přečtěte

Vyzkoušeli jsme eObčanku a přihlásili se s ní na weby úřadů. Vážně to funguje!

Vyzkoušeli jsme eObčanku a přihlásili se s ní na weby úřadů. Vážně to funguje!

** Máme eObčanku, máme čtečku, vyzkoušeli jsme přihlášení na weby úřadů. ** Objevily se drobné problémy, podařilo se nám je vyřešit. ** Používání eObčanky pro online identifikaci je velmi pohodlné.

Marek Lutonský | 35

Nvidia představila nové grafické karty GeForce RTX. Nastavila šílené ceny a chce přesvědčit ray tracingem

Nvidia představila nové grafické karty GeForce RTX. Nastavila šílené ceny a chce přesvědčit ray tracingem

** Nvidia představila nové desktopové herní grafické karty GeForce RTX ** Tři modely se pyšní masivním výkonem pouze ve spojení s ray tracingem ** Ceny jsou mnohem vyšší než u předchozích generací

Karel Javůrek | 106

Do kanceláře to nejlepší: Test notebooku HP Elitebook 830 G5

Do kanceláře to nejlepší: Test notebooku HP Elitebook 830 G5

** HP se u nového Elitebooku snaží o nadstandardní výbavu ** Notebook klade důraz na videokonference ve firemním prostředí ** Unikátní displej umí omezit čitelnost z boku

Tomáš Holčík | 57

Pojďme programovat elektroniku: Blikající potvory i legendární displeje starých Nokií

Pojďme programovat elektroniku: Blikající potvory i legendární displeje starých Nokií

** Skoro každý kutil si koupí maličký levný OLED ** A také segmentový a znakový displej ** Pojďme se na některé z nich podívat

Jakub Čížek | 9

Užijte si poslední změny času: Už od března 2019 můžeme mít trvale letní čas

Užijte si poslední změny času: Už od března 2019 můžeme mít trvale letní čas

** Evropská komise přijala legislativní návrh na zrušení střídaní času ** Možná tak v březnu 2019 přesuneme ručičky hodinek naposledy ** Od toho okamžiku bude permanentně platit letní čas

Karel Kilián | 96

Xiaomi Yeelight: Wi-Fi LED žárovka za pár stovek, kterou můžete ovládat i hlasem

Xiaomi Yeelight: Wi-Fi LED žárovka za pár stovek, kterou můžete ovládat i hlasem

** Na eBayi aspol. ji koupíte za čtyři stovky ** Má Wi-Fi a povedenou appku ** Spojíte ji s Googlem, Amazonem, IFTTT i vlastním systémem

Jakub Čížek | 42

Jak horko bude ve vašem městě, až vám bude 80 let? Podívejte se, jak se projeví klimatické změny!

Jak horko bude ve vašem městě, až vám bude 80 let? Podívejte se, jak se projeví klimatické změny!

** Srpen byl třetí nejteplejší za posledních více než sto let ** Bude to ale daleko horší, jak ukazuje aplikace NYT ** V Praze vzroste počet horkých dní na čtyřnásobek

Karel Kilián | 21


Aktuální číslo časopisu Computer

Megatest: 13 grafických karet

Srovnání 7 dokovacích stanic s USB-C

Jak na perfektní noční fotografie

Kvalitní zdroje informací pro sebevzdělávání