Živě T-10: Microsoft MiPad vám rozumět

V roce 2000 Microsoft představil nadějný projekt pro budoucí PDA a další zařízení, který by spojoval výhody ovládání dotykem i hlasem.
Živě T-10: Microsoft MiPad vám rozumět

Xuedong Huang je jedním z nejlepších odborníků přes rozpoznávání hlasu v počítačovém světě, za které získal několik ocenění, především pak za pokrok v této oblasti. Již od svého nástupu do společnosti Microsoft byl označován pod přezdívkou „Mr. Speech“ a nyní pracuje jako generální manažer vývojového komunikačního centra, které stojí například za systémem „Microsoft Response Point“, který je takovou inteligentní telefonní ústřednou s rozpoznáváním hlasu.

Před více než 10 lety se však podílel na vývoji mnohem zajímavějšího projektu, který nás v určité podobě v budoucnu jistě čeká a nemine.

Projekt MiPad

Microsoft MiPad (Multimodal interactive notepad) je systém rozpoznávání hlasu, který pracoval na nové koncepci. Standardní rozeznávání hlasu pracuje tak, že na lokálním přístroji je uložena příslušná databáze možných příkazů a slov, program tak z hlasu podle frekvenční analýzy porovná vyslovené slovo a jakmile nalezne shodu s největší pravděpodobností, pokračuje daným příkazem či dále pracuje s textem.

Tento systém je dnes velmi běžně používaný a zmodernizovaný, dokonce i v mobilních telefonech a dalších zařízení. Přesnost se v posledních letech stále zlepšuje, ale jak jsme mohli vidět na známém videu při představování hlasového ovládání Windows Vista, tvorba složitějších vět a jejich případný přepis na text je stále hudbou budoucnosti.

Klepněte pro větší obrázek

MiPad však mířil mnohem dál, zabýval se totiž i sémantickou složkou rozpoznávání textu, která je počítačům velmi cizí. Stejně jako v běžné řeči, kterou náš mozek zpracovává dnes a denně, provádíme nejen rozpoznávání každého slova a jeho význam (což člověku trvá několik dětských let učení, respektive ukládání a přiřazování daných významů), ale také smysl celé věty jako takové.

Tato složitá interakce patří mezi ty nejtěžší úkoly, které je pravděpodobně možné programovat, protože to vyžaduje specializované lingvisty a další odborníky přes jazyk, o odlišnosti různých jazyků či větného seskupení ani nemluvě. Vzhledem k tehdejšímu malému výkonu mobilních zařízení, pro které měl být systém určen především, nebylo možné takto složité operace zpracovávat lokálně.

Jak je vidět z obrázku, koncept rozhraní obsahoval tlačítko „Tap & Talk“, které bylo určeno pro zadávání příkazů. Systém tak pracoval nejdříve lokálně pro snímání „zvuku“, který byl následně odeslán v komprimované podobě na vzdálený server, pod kterým si sice dnes představíme samozřejmě nějaký „Cloud“, u tehdejšího prototypu to byl obyčejný počítač v síti s operačním systémem Windows 2000, kde běžel software pro rozpoznávání slov z databáze o přibližně 64 000 slovech (technologie „Dr. Who“), přičemž následovala celková sémantická analýza příkazu.

Klepněte pro větší obrázek

Po zpracování byl rozpoznaný příkaz poslán zpátky do přístroje, kde se následná operace vykonala. Myšlenka byla taková, že jednoduché akce a pohyb v menu přístroje by byly samozřejmě vykonávány dotykovým perem či prstem, složitější příkazy, které vyžadovaly několik úkonů, měly být řešeny pomocí hlasu. Zdánlivě jednoduchý, ale z hlediska programu velmi složitý příkaz - „Sejít se v pátek s Honzou“ (neberte v úvahu složitější češtinu, angličtina je jednodušší – „Meet with John on Friday“) tak měl otevřít kalendář, otevřít nejbližší odpovídající den, tedy pátek a připravit kurzor na políčko pro zadání času nebo předmětu. Po následném vyslovení názvu předmětu či času provést analýzu a přepis s možností opravy. Delší věta s různými příkazy a s mnoha proměnnými tak byla alespoň částečně rozdělena, aby se snížil počet falešných či špatně „pochopených“ příkazů.

Oproti běžnému desktopu, kde se dá například zachytit běžný šum a snadno ho tak odfiltrovat, se s mobilními přístroji nacházíme pokaždé na jiném místě, filtrování šumu a jeho rozpoznání ve frekvenční křivce je tak o to složitější.

Ani vidu, ani slechu

Projekt nebyl oficiálně nikdy uveden a vzhledem k žádným dostupným informacím ze současné doby lze předpokládat, že jako takový už neexistuje. Technologie rozpoznávání hlasu však samozřejmě žije dál, což můžeme vidět na stále nových verzích hlasového rozhraní v operačních systémech od Microsoftu.

Hlasové ovládání začíná být díky stále většímu výkonu mobilních zařízení, rychlé síti a rozmachu cloud computingu více „vidět“, mezi nejlepší příklad patří jistě rozpoznávání hlasu na přístroji iPhone 3GS nebo zmíněné „sémantické“ řešení od Googlu. Zatímco například Voice Control na mobilním přístroji od Applu slouží pro jednoduché příkazy pro přehrávání hudby nebo vytočení kontaktu z adresáře, které jsou porovnávány s lokálně vytvořenou databází, systém Google Voice je mnohem propracovanější.

Google si hraje s rozpoznáváním hlasu již delší dobu (můžete vyzkoušet u některých videí na Youtube), čemuž ještě napomáhá obrovská databáze hledaných slov a výrazů z jeho vyhledávače, které usnadňují opravu a zpřesňují konečné „správné“ slovo a výraz.

Sémantický význam celé věty je také jednou z oblastí, ve které pravděpodobně bude Google díky databázi z hledaných slov a naindexovaných textů v budoucnu těžit a konkurence bude díky menší „databázi“ slov a vět, která podobně jako v případě hledaní nabízí menší relevanci a nelze ji už sebelepším algoritmem vylepšit, stále pozadu.

Video

Ukázku Google Voice v případě hledání a jeho některých možností si můžete prohlédnout na tomto videu:

Témata článku: Historie, Voice, Vide, Relevance, iPhone 3Gs

6 komentářů

Nejnovější komentáře

  • Karel Novák 25. 3. 2010 15:24:55
    Pevně věřím, že k použitelnosti to přívede opensource komunita.
  • Petko Kotov 25. 3. 2010 9:25:48
    skor este nebol na velkej. tak aspon takto.
  • Rover623 25. 3. 2010 7:26:18
    Je tedy pravda,že to co MS na poli rozpoznávání a reprodukce psaného textu...
Určitě si přečtěte

Nové úlovky kamer Googlu: Šmírovačka na Street View nepřestává bavit

Nové úlovky kamer Googlu: Šmírovačka na Street View nepřestává bavit

Google stále fotí celý svět do své služby Street View. A novodobou zábavou je hledat v mapách Googlu vtipné záběry. Podívejte se na výběr nejlepších!

19.  5.  2017 | redakce | 39

To tu ještě nebylo. Specialisté ukázali, že zavirované mohou být i titulky SRT

To tu ještě nebylo. Specialisté ukázali, že zavirované mohou být i titulky SRT

** Stáhnete si film a titulky třeba z OpenSubtitles.org ** A osud vás za ten warez záhy potrestá ** Specialisté totiž ukázali, že i v titulcích může být schovaný virus

24.  5.  2017 | Jakub Čížek | 57

WannaCry se neměl vůbec rozšířit. Stačilo, abychom používali Windows Update

WannaCry se neměl vůbec rozšířit. Stačilo, abychom používali Windows Update

** WannaCry se masivně rozšířil kvůli zranitelnosti ve Windows ** Ta mu umožnila, aby se pokusil sám napadnout další počítače ** Jenže ta chyba už je dva měsíce opravená!

22.  5.  2017 | Jakub Čížek | 95

Nastal čas znovu vynalézt klávesnici. Anebo vám ta současná opravdu vyhovuje?

Nastal čas znovu vynalézt klávesnici. Anebo vám ta současná opravdu vyhovuje?

**Měli bychom provést revoluci klávesnice? ** Anebo je její dnes už hodně zastaralý koncept prostě nejlepší? ** Budeme na klávesnici odkázaní už navždy?

20.  5.  2017 | Jakub Čížek | 60


Aktuální číslo časopisu Computer

Bojujeme proti Fake News

Dva velké testy: fotoaparáty a NASy

Co musíte vědět o změně evropského roamingu

Radíme s výběrem základní desky