Strojové překladače stále tragicky chybují. Bing nyní rozlítil Saudy. Překládal je jako Islámský stát

  • Strojové překladače používají statistický model
  • jenže ten má k dokonalosti daleko
  • Překládal Daesh jako Saudskou Arábii

Jedni je používají i pro vážně míněnou obchodní korespondenci, druzí si z jejich (ne)umu dělají roky legraci a ti ostatní doufají, že je jejich provozovatelé jednoho dne díky strojovému učení a neuronovým sítím vycepují k dokonalosti.

Řeč je samozřejmě o strojových překladačích v čele s Google Translate a Bing Translator, které mají i po letech problém smysluplně přeložit jen o něco složitější větu než „Dobrý den!“

Klepněte pro větší obrázek
Podobné věty přeloží strojové překladače na jedničku. U těch složitějších je to i po letech spíše ruská ruleta.

Obě služby používají techniku statistické analýzy, čili nepřekládají z jednoho jazyka do druhého na základě skutečné znalosti gramatiky a slovníku, ale jednoduše se přečtením hromady bilingválních textů naučily, že jednomu sledu slov s velkou pravděpodobností odpovídá jiný sled slov z druhého jazyka, a proto jej použijí.

Problém samozřejmě spočívá v tom, že se sice jedná o vysokou pravděpodobnost, nikoliv však o 100%, a jelikož jsou statistické soudy ze své podstaty zákeřné, občas se stane, že jeden z překladačů přeloží „brno“ na „Chicago,“ což byla jedna ze zábavných chyb Google Translate pár let nazpět. Už je ale samozřejmě opravená, protože dalším z pilířů strojových překladačů je komunita, která chybné překlady opravuje, a tak zdokonaluje celý systém.

Klepněte pro větší obrázek
Brno bývalo Chicago. Už bohužel není.

Velmi propracovanou komunitní výpomoc má právě Google, který vypustil do světa novou mobilní aplikaci Crowdsource, kde můžete zdokonalovat nejen jeho překladač, ale i mapy a další služby, protože i nadále platí, že jeden jediný lidský mozek je inteligentnější než všechny superpočítače světa dohromady.

Dáiš jako Saudská Arábie

Zpět ale k oněm chybám. Občas nezpůsobí jen pousmání jako v případě Brna s malým „b,“ které se měnil ona Chicago, ale i mezinárodní aféru. Aktuálně se to týká především slovíčka daesh a Saudské Arábie.

Slovíčko daesh (česky dáiš) vstoupilo ve veřejnou známost v souvislosti s tzv. Islámským státem, poněvadž je to jeho hanlivé označení, a tak jeho stoupenci vyhrožují, že každému, kdo jej používá vytrhnou jazyk. Podle slovního rozboru je přitom DAESH samotná zkratka Islámského státu v Iráku a Levantě, IS jej však nevidí rád, protože se příliš podobá dalším arabským slůvkům daes, dahes nebo třeba daw-aish, které mají zjevně negativní konotaci – je ironií osudu, že tato slůvka přitom IS popisují naprosto dokonale, poněvadž označují třeba toho, „který šlape po věcech,“ „vnucuje svůj pohled druhým,“ nebo třeba „rozsévá svár.“

Po malém slovním rozboru ovšem k věci. Jak už jsem napsal výše, statistický motor strojových překladačů se zdokonaluje mimo jiný díky práci komunity, která může navrhovat lepší překlady. A jelikož surfaři mají dokonalý smysl pro občasný trolling, začali v překladu do angličtiny masivně navrhovat, že slovíčko daesh vlastně neznamená hanlivé označení pro IS, ale že to je Saudská Arábie.

Brzy se to projevilo v praxi jako někdejší Google bomby a Microsoft začal skutečně daesh překládat na Saudskou Arábii, což mělo stejný efekt, jako by Bing Translator překládal třeba slovo „náckové“ na „Německo.“

Vlna odporu proti Microsoftu se rozšířila skrze sociální sítě, které se začaly plnit požadavky na bojkot všech produktů Microsoftu, takže se nakonec musel za neúmyslnou chybu omluvit i regionální šéf Microsoftu.

Moje ňadra (vlastně maminka) jsou krásná

Pojďme si připomenout několik vtipných chyb z minulosti. V samých začátcích měl Google třeba problém s překladem anglického mom (maminka) do španělštiny. Větu „My mom is nice and cool“ a tedy „Moje mamka je krásná a fajn“ přeložil do španělštiny ve smyslu „Moje ňadra jsou krásná a fajn.“

Pokud by tedy tehdy nějaký americký nápadník použil Google Translate pro sepsání dopisu rodičům své přítelkyně z Mexika, kterou žádá o ruku, mohlo by to také skončit návštěvou ostrých bratranců z Tijuany.

Klepněte pro větší obrázek
Takto se před pár lety v Google Translate proměňovalo spojení lorem ipsum

Další zajímavou chybou v překladači Gogolu byl třeba „Lorem ipsum,“ který se před dvěma lety měnil v překladači na „China“ nebo třeba „NATO“ podle velikosti písmen. Zatímco někteří se tehdy dokonce domnívali, že by se za tím vším mohl skrývat nějaký kód, nejspíše šlo jen o způsob používání textu „Lorem ipsum“ jako univerzální náhrady pro libovolný text třeba při ladění webových designů apod.

Zatímco u nás se měnilo Brno na Chicago a Ostrava na Seattle, geografická záměna byla samozřejmě rozšířená i ve světě. Sweden tedy Google překládal jako Canada, Amsterdam se z holandštiny měnil do anglický London, no a pak je tu zástup nejednoznačných termínů, které sice Google dodnes překládá špatně, ale je to v mnoha ohledech pochopitelné.

Není Kolín jako Kolín

Krásným příkladem je český Kolín. Kolín je prostě Kolín, nicméně Google se domnívá, že máme na mysli německý Kolín nad Rýnem, a tak jej přeloží do angličtiny jako Cologne. Pokud bychom tedy použili Google Translate pro překlad například informačních textů města v angličtině, mohl by se do nich dostat i zjevný místopisný nesmysl.

Klepněte pro větší obrázek
Český Kolín není Cologne

Google Translate a Bing Translator tu jsou již roky, nicméně svými překladovými chybami trpí dodnes a ani celková stylistická kvalita překladu se nelepší – spíše v čase mění. Když jsem tedy porovnal jeden z textů, který jsme Googlu předložil nejprve v roce 2008, poté v roce 2011 a konečně i nyní, zjistil jsem, že byl nakonec nejsrozumitelnější právě před osmi lety. Některé obraty se sice od té doby výrazně zlepšily a dávají smysl, stejně tak si ale překlad pohoršil u jiných vět.

Dokud se tedy zcela nepromění technologie překladu (zmíněné masivně nasazené strojové učení a neuronové sítě zítřka), překlady budou vždy kostrbaté, budící úsměv na tváří a občas i vlnu odboru na sociálních sítích jako aktuálně v Saudské Arábii.

29 komentářů

Nejnovější komentáře

  • dpcstb 1. 9. 2016 9:17:25
    ale ved saudi SU islamsky stat. ved ich financuju a posielaju im velke...
  • Jarda.abc 31. 8. 2016 9:45:43
    A co teprve v AJ speech to text a to bez překladu. Pustil jsem si youtube...
  • Michal Colesaw 31. 8. 2016 9:25:40
    i kdyby brno bylo ve velikosti chicage...

Určitě si přečtěte


Nejlepší programy pro střih videa na doma: 10 video editorů, ze kterých si vyberete

Nejlepší programy pro střih videa na doma: 10 video editorů, ze kterých si vyberete

** Adobe Premiere Pro ani Final Cut se pro běžné uživatele příliš nehodí ** Programy na domácí střih většinou stojí do dvou tisíc ** V desítce nejzajímavějších najdete i 3 videoeditory dostupné zdarma

19.  9.  2016 | Stanislav Janů | 37

Pojďme programovat elektroniku: Vyzkoušíme IR, ovládneme světýlko přes Bluetooth a vyšleme zprávu na sto metrů

Pojďme programovat elektroniku: Vyzkoušíme IR, ovládneme světýlko přes Bluetooth a vyšleme zprávu na sto metrů

** Budeme odposlouchávat IR ovladač klimatizace ** Vyrobíme laciný rádiový vysílač ** Vyzkoušíme komunikaci pomocí Bluetooth a v pásmu 433 MHz

21.  9.  2016 | Jakub Čížek | 18

Vymazat se z internetu není možné, velkou část osobního obsahu však odstranit můžete

Vymazat se z internetu není možné, velkou část osobního obsahu však odstranit můžete

** Online stopy i se svým jménem zanechá většina uživatelů internetu ** Jejich smazání nikdy nebude stoprocentní ** Poradíme, jak odstranit jejich větší část

20.  9.  2016 | Stanislav Janů | 21

Zoner Photo Studio X: Umí vrstvy, vyrobí fotoknihu a získáte jej za roční paušál

Zoner Photo Studio X: Umí vrstvy, vyrobí fotoknihu a získáte jej za roční paušál

** Je to největší aktualizace za poslední roky ** Konečně umí vrstvy, vyrobí fotoknihu i obraz ** Nově pouze jako předplatné s průběžnými upgrady

19.  9.  2016 | Jakub Čížek | 67


Aktuální číslo časopisu Computer

Srovnání výhodných 27" monitorů

Velký test levných rychlých routerů

Jak nastavit Android, aby vás nesledoval

45 podrobných testů a recenzí