Proč mají strojové překladače stále daleko k dokonalosti

Vše začalo už před šedesáti lety na Georgetownské univerzitě. Za tu doby udělaly strojové překladače ohromný kus cesty vpřed, dodnes si ale vylámou zuby na kdejakém idiomu.

Jednoho chladného lednového rána roku 1954 se na půdě Georgetownské univerzity sešla skupina lingvistů a s pomocí elektronkové mašiny IBM 701 se zapsali do dějin, jako jedni z prvních totiž demonstrovali možnosti strojového překladače.

Takzvaný Georgetown-IBM experiment byl docela jednoduchý. Paměť počítače pojala pouhých 250 slov v angličtině a ruštině, stroji se ale přesto podařilo přeložit přes šedesát ruských vět z všemožných oborů.

Klepněte pro větší obrázek
Procesor počítače IBM 701 (Zdroj: Wikimedia, CC-BY-SA)

Následujících šedesát let pak lingvisté a matematici strávili hledáním té nejlepší metody, která by přeložila větu z jednoho jazyka do druhého, aniž by se změnil její význam.

Statistická metoda

Tou nejprostší metodou je prostá substituce – náhrada. Jednoduše půjdeme slovo od slova a přeložíme jej, jako bychom měli v rukou papírový slovníček. Tato metoda ale zdaleka nefunguje vždy, protože jedno slovo může mít více významů a záleží tedy na kontextu celé věty.

Krásným příkladem může být jednoduché sdělení Dejte mi pokoj!

Kdyby stroj postupoval slovo od slova, musel by se zákonitě zastavit u pokoje, který má více významů. Může to být místnost ale stejně tak klid a odpočinek. Substituční metoda tento rébus jednoduše nerozlouskne.

Klepněte pro větší obrázek
S tímto překladem by si primitivní substituční překladač neporadil, slovo pokoj má totiž v každé větě zcela odlišný význam

S příchodem moderních počítačů se začala prosazovat statistická metoda, jejímž základem jsou rozsáhlé databáze textů ve více jazykových verzích. Software může každý z textů projít slovo od slova a zkoumat vzájemnou korelaci pořadí slov v jednotlivých jazykových mutacích.

Když by pak strojový překladač dostal za úkol přeložit určitou posloupnost slov z jazyka A do jazyka B, prostě se pokusí pomocí předchozí analýzy zvolit posloupnost s nejlepší korelací – a tedy pravděpodobností, že se bude jednat o správný překlad.  Příkladem statistického strojového překladače je dnes především Google, i když samozřejmě kombinuje více technik.

Strojové překladače se zlepšují díky byrokracii

Aby mohla statistická metoda fungovat co nejlépe, potřebuje především jeden text přeložený do hromady jazyků, na kterém se může učit. Právě proto lidstvo s trochou nadsázky vytvořilo OSN, jejíž úřední materiál v minulosti posloužil mnoha statistickým strojovým překladačům.

Dalším zajímavým zdrojem dat může být pravděpodobně nejznámější literární dílo všech dob – Bible, protože především její evangelia byla přeložená do desítek jazyků.

Statistickým překladačům nakonec velkou měrou pomohlo i to, na co nadává každý druhý Čech – evropská byrokracie. Takový Evropský parlament a Evropská komise totiž produkují každý den hromadu materiálů a to často ve všech úředních jazycích unie.

Klepněte pro větší obrázek
Česko-anglický korpus Europarl. Vlevo jsou surové zápisy z jednání EP v češtině, vpravo v angličtině. Google a další se na podobných zdrojových datech mohou učit, že textu X odpovídá text Y. S využitím korelace, derivace a dalších technik pak může odhadovat nejpravděpodobnější textové páry, které mu předložíte.

Výsledkem je pak třeba dvojjazyčný jazykový korpus Europarl, který vždy porovnává anglickou verzi textu s dalšími jazyky. Jen pro představu, česko-anglický korpus z let 2007-2011 zabírá 190 MB surových dat a obsahuje 668 tisíc vět a 13 milionů slov. Data může použít každý zájemce, protože se jedná o úřední materiál a tedy volné dílo, na které se nevztahují autorská práva.

Potíže s idiomy

Úřední akta jsou sice pro strojové učení nepostradatelným zdrojem informací, ale nesou sebou i svá úskalí. Jedná se zpravidla o příliš formální text, stroj se tedy nedokáže dost dobře vypořádat se specifickými frázemi a idiomy jednotlivých jazyků, kde je třeba mnohem lépe pracovat s kontextem celé věty a třeba i celým odstavcem. Na idiomech si tedy i dnes vyláme zuby nejeden strojový překladač včetně Googlu a větu „František si vystřelil z Miloše“ v podstatě přeloží stejně špatně jako primitivní substituční strojový překladač, protože se v jeho vícejazyčných zdrojových korpusech tato fráze vůbec nevyskytuje.

Klepněte pro větší obrázek
Nad podobným překladem by asi Angličan jen nechápavě kroutil hlavou

Google se proto nespoléhá pouze na matematiku, ale již dříve do boje povolal to nejlepší, co mu mohla komunita nabídnout – lidský mozek. Pokud máte pocit, že jsou překlady od Googlu spíše bezedným zdrojem humoru než solidní lingvistické práce, věnujte svůj volný čas dobré věci a navštivte stránky Google Translate Community (Beta), kde se můžete zapojit přinejmenším do hodnocení kvality překladů. Google vám vždy nabídne dvojici textu třeba v češtině a angličtině a vy ohodnotíte, jestli se jedná o správný, nebo naopak špatný překlad. Právě tímto způsobem pak mohou Google a další zlepšovat především práci se zmíněnými idiomy a dalším specialitami jednotlivých jazyků.

Klepněte pro větší obrázek Klepněte pro větší obrázek
Translate Community, aneb vylepšujeme jazykový korpus Googlu

„Vymodelujte si ptáka“

Abychom ale Googlu nekřivdili, občas idiomy zná, ale naopak je neumí použít – respektive je preferuje i tam, kde nejsou nutné. Překladač si tak třeba před dvěma lety sice chytře, ale zcela špatně vyložil titulek našeho článku o modelovacím nástroji od Autodesku s názvem „Vymodelujte si vlastního ptáka přímo v prohlížeči.“

Češtinářská jazyková lahůdka dala zabrat i nejednomu čtenáři, Googlu se tedy nemůžeme moc divit, jaké však muselo být překvapení v San Francisku, když jsme dostali zprávu, že si lidé z Autodesku prohnali článek překladačem a na obrazovce se jim zobrazilo „(S)Hape your own dick in your browser.“

Klepněte pro větší obrázek
Ne, tentokrát nám opravdu nešlo o český slang, ale Google mu dal přesto přednost. Zdá se tedy, že se v jeho korpusu vyskytuje slovo pták především ve slangovém kontextu a statistický engine mu proto dává vyšší pravděpodobnost.

Ten překlad je zajímavý hned ze dvou důvodů. Namísto doslovného a v tomto případě opravdu správného „bird“ se v textu objevil slangový překlad „dick“ a namísto „Shape“ (vytvarovat) chybné slovíčko „Hape“, které naprosto nic neznamená ani podle Oxfordského slovníku a tedy se nejspíše jedná o překlep slova „shape“, který se objevil v některém ze zdrojových korpusů, podle kterých se překladač učí.

Specialitou každého statistického překladače je i určitá míra nahodilosti. Stačí pozměnit slovosled, smazat jedno nepodstatné slůvko a text má rázem zcela jinou matematickou reprezentaci a tedy i pravděpodobnost různé odpovědi.

Pokud bychom tedy z původní věty smazali nepodstatné „si“, věta „Vymodelujte vlastního ptáka přímo v prohlížeči“ se přeloží jako Model your own dick in your browser.“ Namísto patvaru Hape tedy nyní Google používá jiné slovo.

Pojďme ale ještě o kousek dál a ponechme ve zdrojovém textu pouze slůvko „Vymodelujte.“ Google jej pokaždé přeloží jako „Model your“ a této verze se drží jako klíště. Větu „Vymodelujte jeho dům“ tedy tvrdohlavě překládá jako „Model your house.“

Google bude více hovorový

Podobných šotků najdete v překladači tisíce a Google hledá cestu, jak nad nimi konečně vyzrát. Na svém blogu tak nyní oznámil, že se začal soustředit na hovorovou mluvu z diskuzí a chatů a bude konstruovat lepší překlady než dříve.

Klepněte pro větší obrázek
Překlady by měly být lepší, ale především u těch nejpoužívanějších jazyků, kde má Google dostatek zdrojových dat k analýze

Pomůže mu v tom komunita už samotným používáním překladače, z telemetrických dat lze totiž zjistit, jak jsou vlastně uživatelé s překladem spokojeni – jestli jim stačí první verze, nebo upravují text, dokud nejsou spokojeni. A překladatelé službu Translate opravdu náležitě vytěžují, Google totiž dnes každý den přeloží neskutečných 100 miliard slov.

O něčem podobném se lingvistům z projektu Georgetown-IBM před těmi šedesáti lety ani nesnilo.

Diskuze (44) Další článek: AMD podporuje výrobu vlastního krytu pro grafiky Radeon R9 Fury X

Témata článku: Technologie, Google, Překladač, Umělá inteligence, Vyhledávače, Překladače celých vět, Titulky, Význam, Dick, František, Moderní počítač, Dok, Klíště, M/s, Zajímavý zdroj, Překladače, Str, Překlad, Google Translate, Slůvko, Rozsáhlé data, Lahůdka, Literární dílo, Statistická metoda, Strojový překladač


Určitě si přečtěte

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

** Za neúspěchem Microsoftu v mobilech stojí i Windows 8 ** Microsoft pozdě naskočil do rozjetého vlaku ** Uživatelé neměli zásadní důvody, proč přejít

Karel Kilián | 133

Antivir zdarma: 8 bezplatných řešení, která zatočí s havětí v počítači

Antivir zdarma: 8 bezplatných řešení, která zatočí s havětí v počítači

** Součástí Windows 10 je integrovaný antivirový program. Stačí to? ** Představíme vám sedm aplikací na boj proti virům a malwaru ** Všechny jsou k dispozici zdarma a některé ani nemusíte instalovat

Karel Kilián | 26

Nové iPhony, hodinky a další novinky Applu: Zase bude za co utrácet

Nové iPhony, hodinky a další novinky Applu: Zase bude za co utrácet

Dnes proběhla další velká prezentační akce Applu, na které došlo k odhalení nových iPhonů a dalších novinek. Událost jsme sledovali online, a tak se můžete podívat na chronologický zápis těch nejdůležitějších informací.

David Polesný | 136

Windows 10 po čtyřech letech: Jsou populární, ale stále je to šílený kočkopes

Windows 10 po čtyřech letech: Jsou populární, ale stále je to šílený kočkopes

** Windows 10 tu jsou už čtyři roky, první verze dorazila 29. 7. 2015 ** Desítky měly nahradit neúspěšnou řadu Windows 8.x ** I po letech však systém budí emoce a zůstává kočkopsem

Jakub Čížek | 111

Jak doma vylepšit signál Wi-Fi: Pomůže repeater, více routerů, ale nejlépe systémy mesh

Jak doma vylepšit signál Wi-Fi: Pomůže repeater, více routerů, ale nejlépe systémy mesh

** Máte špatný signál Wi-Fi? Mesh systémy to vyřeší ** Už vás nezruinují, meziročně ceny příjemně spadly ** Jak systém funguje a čím je výjimečný?

Jiří Kuruc | 102



Aktuální číslo časopisu Computer

Speciál o přechodu na DVB-T2

Velký test herních myší

Super fotky i z levného mobilu

Jak snadno upravit PDF