Facebook slibuje: Díky našemu DeepTextu se umělé asistentky naučí všechny jazyky světa

  • Na scéně je celý zástup chytrých asistentů
  • Mají ale vážný problém – nerozumí jazykům
  • Facebook slibuje, že se je software brzy sám naučí

Poslední rok, dva se stále častěji mluví o softwarových botech, které budou žít uvnitř instantních komunikátorů jako každý jiný uživatel na druhé straně linky a budou odpovídat na naše dotazy. Podle některých vizí by se tak mohlo zcela proměnit celé UI a UX každodenních aplikací.

Namísto atraktivních webů s propracovaným designem a hromadou tlačítek, pomocí kterých objednáte pizzu, taxík nebo třeba zjistíte předpověď počasí, jednoduše položíte dotaz robotovi a ten vám odpoví, jako byste se zeptali svého známého.

Klepněte pro větší obrázek Klepněte pro větší obrázek
Podle Facebooku by se mohly v příštích letech proměnit klasické aplikace a weby v asistenty v IM – z jeho úhlu pohledu samozřejmě ideálně uvnitř Messengeru.

DeepText chápe text jako člověk a rovnou ve dvaceti jazycích

Aby se však podobná vize proměnila v praxi, na začátku toho všeho musí být systém, který perfektně rozluští váš dotaz v běžné lidské řeči, pochopí jeho obsah a kontext a vše předá konkrétní službě k vyřízení takovým způsobem, abyste opravdu nepoznali, že vlastně celou dobu komunikujete s kusem docela hloupého programu a nikoliv s atraktivní dívkou za přepážkou.

Facebook se dnes pochlubil na svém blogu, že je na velmi dobré cestě a jeho nová technologie DeepText pochopí téměř stejně dobře jako člověk obsahový kontext textu a to rovnou ve dvacítce světových jazyků.

Sociální síť sice nebyla příliš konkrétní, jaké jazyky to skutečně jsou, takže můžeme jen spekulovat, jestli se na seznam dostala i čeština, při pohledu na tyto žebříčky nejpoužívanějších jazyků ve světě (1, 2) jsem však spíše skeptický.

Ta zatracená angličtina

Právě malá jazyková podpora je poměrně symptomatická všem současným hlasovým asistentům. Za poslední měsíce jsme tedy sice viděli skvělé demoukázky technologií jako VIV, Alexa anebo asistenta Googlu, který umí vést smysluplný dialog, všichni do jednoho se ale soustřeďují na angličtinu a všichni surfaři si již zvykli a považují to za samozřejmost.

Jenže to by se mělo postupem času změnit. Jakmile počítačoví specialisté a lingvisté vyvinou dostatečně univerzální neuronové sítě pro strojové učení jazyků, investice do studia dalšího jazyka bude relativně nízká. Toto ve svém zápisku potvrzuje i Facebook.

Jazykově-agnostická neuronová síť

Zatímco doposud bylo každé takové učení vyvinuto prakticky pro konkrétní jazyk, a proto to byla zpravidla angličtina a posléze další velké světové jazyky, Facebook předpokládá, že nové technologie, které používá i DeepText, povedou k tomu, že se stroj naučí chápat jednotlivé jazyky, aniž by jej museli inženýři na začátku nějak výrazněji připravit.

Takový program se to naučí sám bez nutných vodítek prostě tak, že si prostuduje miliony a miliony komentářů na sociální síti Facebooku a začne se jednotlivé jazyky učit s rozlišením až na jednotlivá slova a znaky jako malé dítě, které také není vybaveno žádným počátečním slovníkem.

Klepněte pro větší obrázek
Na vstupu je věta v angličtině a na výstupu rozpoznání, že se jedná o nabídku židle k prodeji

Facebook má v tomto směru oproti ostatním tu výhodu, že na jeho platformě skutečně komunikují lidé prakticky všech kultur a to v takovém měřítku, že generují ohromné množství studijních dat, na kterých se mohou roboti učit.

Konkurenční Google schopnosti chápání textu vylepšuje zase tak, že dá svým robotům za úkol přelouskat třeba právní texty Evropské unie, které mají tu výhodu, že se jedná prakticky o identické spisy často ve všech úředních jazycích včetně češtiny, anebo třeba tisíce románů, aby dokázal konstruovat libozvučné odpovědi.

DeepText je postavený na technologii FBLearner

Facebook dále píše, že na rozdíl od tradičních technik NLP (neurolingvistické programování), kdy je každému slovu přidělený nějaký identifikátor, se kterým se pak pracuje v konkrétním matematickém algoritmu, počítá spíše vazbu mezi jednotlivými slovy. Stroj se tedy studiem textů učí, že některé slova tvoří často určité páry a skupiny. A právě to mu umožňuje, aby se učil i jazyky, o kterých vlastně nic neví. Facebook píše o tzv. jazykově-agnostických modelech učení.

Brno není Chicago

Ani tento přístup není nový a připomíná třeba statistické techniky, které používá strojový překladač Googlu, který nemusí zpočátku rozumět přesným významům slov, ale ví, že sekvenci slov v jazyku A odpovídá podle statistického modelu s velkou pravděpodobností zase jiná sekvence slov v jazyce B. Pokud se však překladač tyto souvislosti naučí na špatných vzorcích dat, vznikají z toho občas vtipné situace, kdy například název města v prvním jazyce vymění v druhém jazyce za něco úplně jiného. Před lety tak třeba překladač v určitých větných variantách zaměňoval Brno za Chicago.

Klepněte pro větší obrázek
Statistický model strojového překladače Googlu v minulosti čas od času vracel podobné vtipné výsledky. Stačilo použít Brno s malým počátečním písmenem a zaměnil jej za Chicago. Neznal totiž skutečný význam slova Brno, ale pouze nejpravděpodobnější textový řetězec v angličtině, který odpovídal vstupnímu textu.

Stroje se naučí všechny jazyky světa

Techniky strojového učení v pokročilých konvolučních neuronových sítích jsou však zase o něco dál než starší statistické pravděpodobnostní modely, a tak se už Facebook připravuje, na co všechno je nakonec použije.

Cíle jsou zatím… Realistické. Sociální síť začne tím, že se pokusí pochopit, o čem píšete a může vám nabídnout různé služby ještě dříve, než o ně požádáte. Anebo také reklamu. Budete-li psát o cestě na nějaké místo, může vyskočit pobídka k objednání taxíku, vyhledání spoje a tak dále.

Klepněte pro větší obrázek
Pochopení textu pomocí technologie DeepText. Jak vidno v ostrém nasazení je Facebook ještě na začátku.

S postupným učením se pak budou schopnosti takového stroje neustále zlepšovat a jednou možná nerozpoznáme automat od člověka. Nejpodstatnějším poselstvím podobných technologií je však to, že se jednou levou zadní naučí komunikovat i v dalších jazycích. Cílem technologického rozvoje je totiž usnadnit život živočišnému druhu Homo sapiens sapiens, který dnes komunikuje pomocí ohromného množství jazyků, z nichž angličtinu ovládá alespoň jako svůj druhý jazyk pouze 1,5 miliardy jedinců. Cílem přitom není naučit všechny anglicky, ale naopak naučit stroj, aby pochopil dotaz i v některém z jihoafrických kmenových dialektů.

17 komentářů

Nejnovější komentáře

  • BlokProtiSalámu 3. 6. 2016 13:17:51
    Brno je taková slepá ulice na Moravě, kdybys nevědl
  • dolph1888 3. 6. 2016 11:54:08
    Jihoafrické kmenové dialekty jsou kontraproduktivní, Afrika se stěhuje do...
  • Monogatari 3. 6. 2016 1:45:14
    Učit se jazyk na negramotných facebookových příspěvcích mi přijde trochu...

Určitě si přečtěte


Deset tipů, jak ovládnout Google: Vyhledávejte jako mistři

Deset tipů, jak ovládnout Google: Vyhledávejte jako mistři

** Vyhledávače jsou natolik dobré, že si poradí i s frází v běžné češtině ** Pokud to ale nebude stačit, můžete vyzkoušet pokročilé funkce ** Vybrali jsme ty nejzajímavější

25.  9.  2016 | Jakub Čížek | 19

9 nejlepších programů na úpravu fotek. Placené i zdarma

9 nejlepších programů na úpravu fotek. Placené i zdarma

** Pro běžné úpravy fotek nemusíte pirátit Photoshop, vystačíte si s levnějšími programy ** Ceny pokročilých editorů se většinou vejdou do dvou tisíc korun ** Mnohdy stačí i bezplatné nástroje

26.  9.  2016 | Stanislav Janů | 50

Aby byl signál a internet všude: jak fungují a kde jsou schované antény operátorů

Aby byl signál a internet všude: jak fungují a kde jsou schované antény operátorů

** Základnové stanice BTS mobilních operátorů zdaleka nejsou jen typické kovové stožáry ** Podívejte se na některé nevšední instalace ** Dozvíte se, z čeho se moderní BTS skládá a jak funguje

28.  9.  2016 | David Polesný | 32

Pojďme programovat elektroniku: Vyrobím si z drobných součástek vlastní mikropočítač za pár kaček

Pojďme programovat elektroniku: Vyrobím si z drobných součástek vlastní mikropočítač za pár kaček

** Můžete si koupit třeba desku Arduino Uno ** Anebo si složíte celý mikropočítač sami ** Je to snadné jako facka

27.  9.  2016 | Jakub Čížek | 27

Týden Živě: Zvyknou si Češi platit paušál za software?

Týden Živě: Zvyknou si Češi platit paušál za software?

** Zoner vypustil do světa nové Photo Studio. Je za paušál. ** HP nechce neoficiální inkoust ** Koutek časopisu Computer

25.  9.  2016 | Časopis Computer | 65