V roce 2000 Microsoft představil nadějný projekt pro budoucí PDA a další zařízení, který by spojoval výhody ovládání dotykem i hlasem.
Xuedong Huang je jedním z nejlepších odborníků přes rozpoznávání hlasu v počítačovém světě, za které získal několik ocenění, především pak za pokrok v této oblasti. Již od svého nástupu do společnosti Microsoft byl označován pod přezdívkou „Mr. Speech“ a nyní pracuje jako generální manažer vývojového komunikačního centra, které stojí například za systémem „Microsoft Response Point“, který je takovou inteligentní telefonní ústřednou s rozpoznáváním hlasu.
Před více než 10 lety se však podílel na vývoji mnohem zajímavějšího projektu, který nás v určité podobě v budoucnu jistě čeká a nemine.
Projekt MiPad
Microsoft MiPad (Multimodal interactive notepad) je systém rozpoznávání hlasu, který pracoval na nové koncepci. Standardní rozeznávání hlasu pracuje tak, že na lokálním přístroji je uložena příslušná databáze možných příkazů a slov, program tak z hlasu podle frekvenční analýzy porovná vyslovené slovo a jakmile nalezne shodu s největší pravděpodobností, pokračuje daným příkazem či dále pracuje s textem.
Tento systém je dnes velmi běžně používaný a zmodernizovaný, dokonce i v mobilních telefonech a dalších zařízení. Přesnost se v posledních letech stále zlepšuje, ale jak jsme mohli vidět na známém videu při představování hlasového ovládání Windows Vista, tvorba složitějších vět a jejich případný přepis na text je stále hudbou budoucnosti.

MiPad však mířil mnohem dál, zabýval se totiž i sémantickou složkou rozpoznávání textu, která je počítačům velmi cizí. Stejně jako v běžné řeči, kterou náš mozek zpracovává dnes a denně, provádíme nejen rozpoznávání každého slova a jeho význam (což člověku trvá několik dětských let učení, respektive ukládání a přiřazování daných významů), ale také smysl celé věty jako takové.
Tato složitá interakce patří mezi ty nejtěžší úkoly, které je pravděpodobně možné programovat, protože to vyžaduje specializované lingvisty a další odborníky přes jazyk, o odlišnosti různých jazyků či větného seskupení ani nemluvě. Vzhledem k tehdejšímu malému výkonu mobilních zařízení, pro které měl být systém určen především, nebylo možné takto složité operace zpracovávat lokálně.
Jak je vidět z obrázku, koncept rozhraní obsahoval tlačítko „Tap & Talk“, které bylo určeno pro zadávání příkazů. Systém tak pracoval nejdříve lokálně pro snímání „zvuku“, který byl následně odeslán v komprimované podobě na vzdálený server, pod kterým si sice dnes představíme samozřejmě nějaký „Cloud“, u tehdejšího prototypu to byl obyčejný počítač v síti s operačním systémem Windows 2000, kde běžel software pro rozpoznávání slov z databáze o přibližně 64 000 slovech (technologie „Dr. Who“), přičemž následovala celková sémantická analýza příkazu.

Po zpracování byl rozpoznaný příkaz poslán zpátky do přístroje, kde se následná operace vykonala. Myšlenka byla taková, že jednoduché akce a pohyb v menu přístroje by byly samozřejmě vykonávány dotykovým perem či prstem, složitější příkazy, které vyžadovaly několik úkonů, měly být řešeny pomocí hlasu. Zdánlivě jednoduchý, ale z hlediska programu velmi složitý příkaz - „Sejít se v pátek s Honzou“ (neberte v úvahu složitější češtinu, angličtina je jednodušší – „Meet with John on Friday“) tak měl otevřít kalendář, otevřít nejbližší odpovídající den, tedy pátek a připravit kurzor na políčko pro zadání času nebo předmětu. Po následném vyslovení názvu předmětu či času provést analýzu a přepis s možností opravy. Delší věta s různými příkazy a s mnoha proměnnými tak byla alespoň částečně rozdělena, aby se snížil počet falešných či špatně „pochopených“ příkazů.
Oproti běžnému desktopu, kde se dá například zachytit běžný šum a snadno ho tak odfiltrovat, se s mobilními přístroji nacházíme pokaždé na jiném místě, filtrování šumu a jeho rozpoznání ve frekvenční křivce je tak o to složitější.
Ani vidu, ani slechu
Projekt nebyl oficiálně nikdy uveden a vzhledem k žádným dostupným informacím ze současné doby lze předpokládat, že jako takový už neexistuje. Technologie rozpoznávání hlasu však samozřejmě žije dál, což můžeme vidět na stále nových verzích hlasového rozhraní v operačních systémech od Microsoftu.
Hlasové ovládání začíná být díky stále většímu výkonu mobilních zařízení, rychlé síti a rozmachu cloud computingu více „vidět“, mezi nejlepší příklad patří jistě rozpoznávání hlasu na přístroji iPhone 3GS nebo zmíněné „sémantické“ řešení od Googlu. Zatímco například Voice Control na mobilním přístroji od Applu slouží pro jednoduché příkazy pro přehrávání hudby nebo vytočení kontaktu z adresáře, které jsou porovnávány s lokálně vytvořenou databází, systém Google Voice je mnohem propracovanější.
Google si hraje s rozpoznáváním hlasu již delší dobu (můžete vyzkoušet u některých videí na Youtube), čemuž ještě napomáhá obrovská databáze hledaných slov a výrazů z jeho vyhledávače, které usnadňují opravu a zpřesňují konečné „správné“ slovo a výraz.
Sémantický význam celé věty je také jednou z oblastí, ve které pravděpodobně bude Google díky databázi z hledaných slov a naindexovaných textů v budoucnu těžit a konkurence bude díky menší „databázi“ slov a vět, která podobně jako v případě hledaní nabízí menší relevanci a nelze ji už sebelepším algoritmem vylepšit, stále pozadu.
Video
Ukázku Google Voice v případě hledání a jeho některých možností si můžete prohlédnout na tomto videu: