Živě T-10: Microsoft MiPad vám rozumět

V roce 2000 Microsoft představil nadějný projekt pro budoucí PDA a další zařízení, který by spojoval výhody ovládání dotykem i hlasem.
Živě T-10: Microsoft MiPad vám rozumět

Xuedong Huang je jedním z nejlepších odborníků přes rozpoznávání hlasu v počítačovém světě, za které získal několik ocenění, především pak za pokrok v této oblasti. Již od svého nástupu do společnosti Microsoft byl označován pod přezdívkou „Mr. Speech“ a nyní pracuje jako generální manažer vývojového komunikačního centra, které stojí například za systémem „Microsoft Response Point“, který je takovou inteligentní telefonní ústřednou s rozpoznáváním hlasu.

Před více než 10 lety se však podílel na vývoji mnohem zajímavějšího projektu, který nás v určité podobě v budoucnu jistě čeká a nemine.

Projekt MiPad

Microsoft MiPad (Multimodal interactive notepad) je systém rozpoznávání hlasu, který pracoval na nové koncepci. Standardní rozeznávání hlasu pracuje tak, že na lokálním přístroji je uložena příslušná databáze možných příkazů a slov, program tak z hlasu podle frekvenční analýzy porovná vyslovené slovo a jakmile nalezne shodu s největší pravděpodobností, pokračuje daným příkazem či dále pracuje s textem.

Tento systém je dnes velmi běžně používaný a zmodernizovaný, dokonce i v mobilních telefonech a dalších zařízení. Přesnost se v posledních letech stále zlepšuje, ale jak jsme mohli vidět na známém videu při představování hlasového ovládání Windows Vista, tvorba složitějších vět a jejich případný přepis na text je stále hudbou budoucnosti.

Klepněte pro větší obrázek

MiPad však mířil mnohem dál, zabýval se totiž i sémantickou složkou rozpoznávání textu, která je počítačům velmi cizí. Stejně jako v běžné řeči, kterou náš mozek zpracovává dnes a denně, provádíme nejen rozpoznávání každého slova a jeho význam (což člověku trvá několik dětských let učení, respektive ukládání a přiřazování daných významů), ale také smysl celé věty jako takové.

Tato složitá interakce patří mezi ty nejtěžší úkoly, které je pravděpodobně možné programovat, protože to vyžaduje specializované lingvisty a další odborníky přes jazyk, o odlišnosti různých jazyků či větného seskupení ani nemluvě. Vzhledem k tehdejšímu malému výkonu mobilních zařízení, pro které měl být systém určen především, nebylo možné takto složité operace zpracovávat lokálně.

Jak je vidět z obrázku, koncept rozhraní obsahoval tlačítko „Tap & Talk“, které bylo určeno pro zadávání příkazů. Systém tak pracoval nejdříve lokálně pro snímání „zvuku“, který byl následně odeslán v komprimované podobě na vzdálený server, pod kterým si sice dnes představíme samozřejmě nějaký „Cloud“, u tehdejšího prototypu to byl obyčejný počítač v síti s operačním systémem Windows 2000, kde běžel software pro rozpoznávání slov z databáze o přibližně 64 000 slovech (technologie „Dr. Who“), přičemž následovala celková sémantická analýza příkazu.

Klepněte pro větší obrázek

Po zpracování byl rozpoznaný příkaz poslán zpátky do přístroje, kde se následná operace vykonala. Myšlenka byla taková, že jednoduché akce a pohyb v menu přístroje by byly samozřejmě vykonávány dotykovým perem či prstem, složitější příkazy, které vyžadovaly několik úkonů, měly být řešeny pomocí hlasu. Zdánlivě jednoduchý, ale z hlediska programu velmi složitý příkaz - „Sejít se v pátek s Honzou“ (neberte v úvahu složitější češtinu, angličtina je jednodušší – „Meet with John on Friday“) tak měl otevřít kalendář, otevřít nejbližší odpovídající den, tedy pátek a připravit kurzor na políčko pro zadání času nebo předmětu. Po následném vyslovení názvu předmětu či času provést analýzu a přepis s možností opravy. Delší věta s různými příkazy a s mnoha proměnnými tak byla alespoň částečně rozdělena, aby se snížil počet falešných či špatně „pochopených“ příkazů.

Oproti běžnému desktopu, kde se dá například zachytit běžný šum a snadno ho tak odfiltrovat, se s mobilními přístroji nacházíme pokaždé na jiném místě, filtrování šumu a jeho rozpoznání ve frekvenční křivce je tak o to složitější.

Ani vidu, ani slechu

Projekt nebyl oficiálně nikdy uveden a vzhledem k žádným dostupným informacím ze současné doby lze předpokládat, že jako takový už neexistuje. Technologie rozpoznávání hlasu však samozřejmě žije dál, což můžeme vidět na stále nových verzích hlasového rozhraní v operačních systémech od Microsoftu.

Hlasové ovládání začíná být díky stále většímu výkonu mobilních zařízení, rychlé síti a rozmachu cloud computingu více „vidět“, mezi nejlepší příklad patří jistě rozpoznávání hlasu na přístroji iPhone 3GS nebo zmíněné „sémantické“ řešení od Googlu. Zatímco například Voice Control na mobilním přístroji od Applu slouží pro jednoduché příkazy pro přehrávání hudby nebo vytočení kontaktu z adresáře, které jsou porovnávány s lokálně vytvořenou databází, systém Google Voice je mnohem propracovanější.

Google si hraje s rozpoznáváním hlasu již delší dobu (můžete vyzkoušet u některých videí na Youtube), čemuž ještě napomáhá obrovská databáze hledaných slov a výrazů z jeho vyhledávače, které usnadňují opravu a zpřesňují konečné „správné“ slovo a výraz.

Sémantický význam celé věty je také jednou z oblastí, ve které pravděpodobně bude Google díky databázi z hledaných slov a naindexovaných textů v budoucnu těžit a konkurence bude díky menší „databázi“ slov a vět, která podobně jako v případě hledaní nabízí menší relevanci a nelze ji už sebelepším algoritmem vylepšit, stále pozadu.

Video

Ukázku Google Voice v případě hledání a jeho některých možností si můžete prohlédnout na tomto videu:

Diskuze (6) Další článek: Gmail začal upozorňovat na podezřelé aktivity vaší schránky

Témata článku: Historie, iPhone 3Gs, Význam, Nejlepší příklad, Obrovský rozmach, Vide, Nejtěžší úkol, Běžný šum, Jednoduchá oprava, Relevance, Cizí video, Běžný set, Rozpoznávání, Voice, Hlasový příkaz, Vytočení, Obrovská databáze


Určitě si přečtěte

Nová 3D tiskárna je 10× rychlejší než současné modely pro domácí i komerční trh

Nová 3D tiskárna je 10× rychlejší než současné modely pro domácí i komerční trh

** Vědci vytvořili nový typ rychlé 3D tiskárny ** 3D tiskárna používá standardní materiál ** je 10× rychlejší než srovnatelné tiskárny a to i v porovnání s drahými komerčními modely

Karel Javůrek | 52

Apple ukázal novinky: iPad Pro má překonat notebooky a vrací se Mac mini!

Apple ukázal novinky: iPad Pro má překonat notebooky a vrací se Mac mini!

** Apple v New Yorku představoval počítačové novinky ** iPad Pro prý zatočí s notebooky ** Dočkali jsme se také návratu Mac mini

Jakub Čížek | 81

Kde se bere elektřina v zásuvce? Poznejte 10 tajemství venkovních stožárů s dráty

Kde se bere elektřina v zásuvce? Poznejte 10 tajemství venkovních stožárů s dráty

Elektřina se vyrábí v elektrárnách, ale do zásuvek v našich domovech to pak má ještě hodně daleko. Dnes se na tuhle dlouhou cestu podíváme.

David Polesný | 85

Vybrali jsme 16 programovatelných hraček a stavebnic pro děti. A vlastně i pro vás

Vybrali jsme 16 programovatelných hraček a stavebnic pro děti. A vlastně i pro vás

** Získejte děti pro matematiku a základy techniky ** Kupte jim hračku nebo stavebnici, které vdechnou vlastní život ** Vybrali jsme 16 stavebnic pro nejmenší caparty i vás samotné

Jakub Čížek | 12

Kvantový internet se blíží. Oproti tomu klasickému bude mnohem bezpečnější

Kvantový internet se blíží. Oproti tomu klasickému bude mnohem bezpečnější

** Jednotlivé bloky kvantového internetu už se pomalu vyvíjí a testují ** Kvantová síť už bude mít své uplatnění dříve, než bude všude dostupný kvantový internet ** Nejdříve půjde o doplněk ke klasickému internetu

Karel Javůrek | 15

Levný televizor místo drahého 4K HDR monitoru? Na co si musíte dát pozor

Levný televizor místo drahého 4K HDR monitoru? Na co si musíte dát pozor

** 43", 4K, 60 Hz a HDR k tomu za deset tisíc ** Televizor takových parametrů stojí téměř polovinu, co monitor ** Využití televize jako monitoru přináší řadu kompromisů, ale jde to

Tomáš Holčík | 59



Aktuální číslo časopisu Computer

Nejlepší programy pro úpravu fotek zdarma

Externí disky pro zálohu dat

Velký test: herní notebooky

Srovnání 12 batohů