Živě T-10: Microsoft MiPad vám rozumět

V roce 2000 Microsoft představil nadějný projekt pro budoucí PDA a další zařízení, který by spojoval výhody ovládání dotykem i hlasem.
Živě T-10: Microsoft MiPad vám rozumět

Xuedong Huang je jedním z nejlepších odborníků přes rozpoznávání hlasu v počítačovém světě, za které získal několik ocenění, především pak za pokrok v této oblasti. Již od svého nástupu do společnosti Microsoft byl označován pod přezdívkou „Mr. Speech“ a nyní pracuje jako generální manažer vývojového komunikačního centra, které stojí například za systémem „Microsoft Response Point“, který je takovou inteligentní telefonní ústřednou s rozpoznáváním hlasu.

Před více než 10 lety se však podílel na vývoji mnohem zajímavějšího projektu, který nás v určité podobě v budoucnu jistě čeká a nemine.

Projekt MiPad

Microsoft MiPad (Multimodal interactive notepad) je systém rozpoznávání hlasu, který pracoval na nové koncepci. Standardní rozeznávání hlasu pracuje tak, že na lokálním přístroji je uložena příslušná databáze možných příkazů a slov, program tak z hlasu podle frekvenční analýzy porovná vyslovené slovo a jakmile nalezne shodu s největší pravděpodobností, pokračuje daným příkazem či dále pracuje s textem.

Tento systém je dnes velmi běžně používaný a zmodernizovaný, dokonce i v mobilních telefonech a dalších zařízení. Přesnost se v posledních letech stále zlepšuje, ale jak jsme mohli vidět na známém videu při představování hlasového ovládání Windows Vista, tvorba složitějších vět a jejich případný přepis na text je stále hudbou budoucnosti.

Klepněte pro větší obrázek

MiPad však mířil mnohem dál, zabýval se totiž i sémantickou složkou rozpoznávání textu, která je počítačům velmi cizí. Stejně jako v běžné řeči, kterou náš mozek zpracovává dnes a denně, provádíme nejen rozpoznávání každého slova a jeho význam (což člověku trvá několik dětských let učení, respektive ukládání a přiřazování daných významů), ale také smysl celé věty jako takové.

Tato složitá interakce patří mezi ty nejtěžší úkoly, které je pravděpodobně možné programovat, protože to vyžaduje specializované lingvisty a další odborníky přes jazyk, o odlišnosti různých jazyků či větného seskupení ani nemluvě. Vzhledem k tehdejšímu malému výkonu mobilních zařízení, pro které měl být systém určen především, nebylo možné takto složité operace zpracovávat lokálně.

Jak je vidět z obrázku, koncept rozhraní obsahoval tlačítko „Tap & Talk“, které bylo určeno pro zadávání příkazů. Systém tak pracoval nejdříve lokálně pro snímání „zvuku“, který byl následně odeslán v komprimované podobě na vzdálený server, pod kterým si sice dnes představíme samozřejmě nějaký „Cloud“, u tehdejšího prototypu to byl obyčejný počítač v síti s operačním systémem Windows 2000, kde běžel software pro rozpoznávání slov z databáze o přibližně 64 000 slovech (technologie „Dr. Who“), přičemž následovala celková sémantická analýza příkazu.

Klepněte pro větší obrázek

Po zpracování byl rozpoznaný příkaz poslán zpátky do přístroje, kde se následná operace vykonala. Myšlenka byla taková, že jednoduché akce a pohyb v menu přístroje by byly samozřejmě vykonávány dotykovým perem či prstem, složitější příkazy, které vyžadovaly několik úkonů, měly být řešeny pomocí hlasu. Zdánlivě jednoduchý, ale z hlediska programu velmi složitý příkaz - „Sejít se v pátek s Honzou“ (neberte v úvahu složitější češtinu, angličtina je jednodušší – „Meet with John on Friday“) tak měl otevřít kalendář, otevřít nejbližší odpovídající den, tedy pátek a připravit kurzor na políčko pro zadání času nebo předmětu. Po následném vyslovení názvu předmětu či času provést analýzu a přepis s možností opravy. Delší věta s různými příkazy a s mnoha proměnnými tak byla alespoň částečně rozdělena, aby se snížil počet falešných či špatně „pochopených“ příkazů.

Oproti běžnému desktopu, kde se dá například zachytit běžný šum a snadno ho tak odfiltrovat, se s mobilními přístroji nacházíme pokaždé na jiném místě, filtrování šumu a jeho rozpoznání ve frekvenční křivce je tak o to složitější.

Ani vidu, ani slechu

Projekt nebyl oficiálně nikdy uveden a vzhledem k žádným dostupným informacím ze současné doby lze předpokládat, že jako takový už neexistuje. Technologie rozpoznávání hlasu však samozřejmě žije dál, což můžeme vidět na stále nových verzích hlasového rozhraní v operačních systémech od Microsoftu.

Hlasové ovládání začíná být díky stále většímu výkonu mobilních zařízení, rychlé síti a rozmachu cloud computingu více „vidět“, mezi nejlepší příklad patří jistě rozpoznávání hlasu na přístroji iPhone 3GS nebo zmíněné „sémantické“ řešení od Googlu. Zatímco například Voice Control na mobilním přístroji od Applu slouží pro jednoduché příkazy pro přehrávání hudby nebo vytočení kontaktu z adresáře, které jsou porovnávány s lokálně vytvořenou databází, systém Google Voice je mnohem propracovanější.

Google si hraje s rozpoznáváním hlasu již delší dobu (můžete vyzkoušet u některých videí na Youtube), čemuž ještě napomáhá obrovská databáze hledaných slov a výrazů z jeho vyhledávače, které usnadňují opravu a zpřesňují konečné „správné“ slovo a výraz.

Sémantický význam celé věty je také jednou z oblastí, ve které pravděpodobně bude Google díky databázi z hledaných slov a naindexovaných textů v budoucnu těžit a konkurence bude díky menší „databázi“ slov a vět, která podobně jako v případě hledaní nabízí menší relevanci a nelze ji už sebelepším algoritmem vylepšit, stále pozadu.

Video

Ukázku Google Voice v případě hledání a jeho některých možností si můžete prohlédnout na tomto videu:

Diskuze (6) Další článek: Gmail začal upozorňovat na podezřelé aktivity vaší schránky

Témata článku: Historie, Běžný šum, Nejlepší příklad, Vytočení, Vide, iPhone 3Gs, Cizí video, Obrovský rozmach, Význam, Běžný set, Jednoduchá oprava, Rozpoznávání, Relevance, Obrovská databáze, Voice, Hlasový příkaz


Určitě si přečtěte

Šéf amerického Red Hatu: Odpojte Brno od internetu a zhroutíme se

Šéf amerického Red Hatu: Odpojte Brno od internetu a zhroutíme se

** V Česku najdete hromadu skvělých vývojářů ** Mnozí z nich přispívají do open-source ** Třeba v brněnském Red Hatu

Jakub Čížek | 51

Jak dopadl velký den Applu s náloží novinek: Sledujte, co letos připravil

Jak dopadl velký den Applu s náloží novinek: Sledujte, co letos připravil

** Apple večer představil novinky ** Ukáže nové operační systémy, ale čekala se i nová zařízení ** Začíná vývojářská konference Applu WWDC 2018

Karel Javůrek | 86

Alan Turing: Genius, který matematicky stvořil počítač

Alan Turing: Genius, který matematicky stvořil počítač

Řešením matematického problému se dostal k modelu teoretického stroje, který nese jeho jméno a je základem logiky univerzálních počítačů.

Pavel Tronner | 56

Velká jarní aktualizace Windows 10: Co přináší April 2018 Update

Velká jarní aktualizace Windows 10: Co přináší April 2018 Update

** Po necelém půl roce je tu další aktualizace Windows ** Přináší časovou osu nebo sdílení souborů jako na mobilu ** A také Application Guard, který umí virtualizovat Edge

Jakub Čížek | 143


Aktuální číslo časopisu Computer

Kdy necháme řídit chytrá auta?

6 Wi-Fi Mesh systémů ve velkém testu

Srovnali jsme 7 sportovních kamer

Znáte pravidla pro létání s drony?