reklama

Strojové překladače stále tragicky chybují. Bing nyní rozlítil Saudy. Překládal je jako Islámský stát

  • Strojové překladače používají statistický model
  • jenže ten má k dokonalosti daleko
  • Překládal Daesh jako Saudskou Arábii

Jedni je používají i pro vážně míněnou obchodní korespondenci, druzí si z jejich (ne)umu dělají roky legraci a ti ostatní doufají, že je jejich provozovatelé jednoho dne díky strojovému učení a neuronovým sítím vycepují k dokonalosti.

Řeč je samozřejmě o strojových překladačích v čele s Google Translate a Bing Translator, které mají i po letech problém smysluplně přeložit jen o něco složitější větu než „Dobrý den!“

Klepněte pro větší obrázek
Podobné věty přeloží strojové překladače na jedničku. U těch složitějších je to i po letech spíše ruská ruleta.

Obě služby používají techniku statistické analýzy, čili nepřekládají z jednoho jazyka do druhého na základě skutečné znalosti gramatiky a slovníku, ale jednoduše se přečtením hromady bilingválních textů naučily, že jednomu sledu slov s velkou pravděpodobností odpovídá jiný sled slov z druhého jazyka, a proto jej použijí.

Problém samozřejmě spočívá v tom, že se sice jedná o vysokou pravděpodobnost, nikoliv však o 100%, a jelikož jsou statistické soudy ze své podstaty zákeřné, občas se stane, že jeden z překladačů přeloží „brno“ na „Chicago,“ což byla jedna ze zábavných chyb Google Translate pár let nazpět. Už je ale samozřejmě opravená, protože dalším z pilířů strojových překladačů je komunita, která chybné překlady opravuje, a tak zdokonaluje celý systém.

Klepněte pro větší obrázek
Brno bývalo Chicago. Už bohužel není.

Velmi propracovanou komunitní výpomoc má právě Google, který vypustil do světa novou mobilní aplikaci Crowdsource, kde můžete zdokonalovat nejen jeho překladač, ale i mapy a další služby, protože i nadále platí, že jeden jediný lidský mozek je inteligentnější než všechny superpočítače světa dohromady.

Dáiš jako Saudská Arábie

Zpět ale k oněm chybám. Občas nezpůsobí jen pousmání jako v případě Brna s malým „b,“ které se měnil ona Chicago, ale i mezinárodní aféru. Aktuálně se to týká především slovíčka daesh a Saudské Arábie.

Slovíčko daesh (česky dáiš) vstoupilo ve veřejnou známost v souvislosti s tzv. Islámským státem, poněvadž je to jeho hanlivé označení, a tak jeho stoupenci vyhrožují, že každému, kdo jej používá vytrhnou jazyk. Podle slovního rozboru je přitom DAESH samotná zkratka Islámského státu v Iráku a Levantě, IS jej však nevidí rád, protože se příliš podobá dalším arabským slůvkům daes, dahes nebo třeba daw-aish, které mají zjevně negativní konotaci – je ironií osudu, že tato slůvka přitom IS popisují naprosto dokonale, poněvadž označují třeba toho, „který šlape po věcech,“ „vnucuje svůj pohled druhým,“ nebo třeba „rozsévá svár.“

Po malém slovním rozboru ovšem k věci. Jak už jsem napsal výše, statistický motor strojových překladačů se zdokonaluje mimo jiný díky práci komunity, která může navrhovat lepší překlady. A jelikož surfaři mají dokonalý smysl pro občasný trolling, začali v překladu do angličtiny masivně navrhovat, že slovíčko daesh vlastně neznamená hanlivé označení pro IS, ale že to je Saudská Arábie.

Brzy se to projevilo v praxi jako někdejší Google bomby a Microsoft začal skutečně daesh překládat na Saudskou Arábii, což mělo stejný efekt, jako by Bing Translator překládal třeba slovo „náckové“ na „Německo.“

Vlna odporu proti Microsoftu se rozšířila skrze sociální sítě, které se začaly plnit požadavky na bojkot všech produktů Microsoftu, takže se nakonec musel za neúmyslnou chybu omluvit i regionální šéf Microsoftu.

Moje ňadra (vlastně maminka) jsou krásná

Pojďme si připomenout několik vtipných chyb z minulosti. V samých začátcích měl Google třeba problém s překladem anglického mom (maminka) do španělštiny. Větu „My mom is nice and cool“ a tedy „Moje mamka je krásná a fajn“ přeložil do španělštiny ve smyslu „Moje ňadra jsou krásná a fajn.“

Pokud by tedy tehdy nějaký americký nápadník použil Google Translate pro sepsání dopisu rodičům své přítelkyně z Mexika, kterou žádá o ruku, mohlo by to také skončit návštěvou ostrých bratranců z Tijuany.

Klepněte pro větší obrázek
Takto se před pár lety v Google Translate proměňovalo spojení lorem ipsum

Další zajímavou chybou v překladači Gogolu byl třeba „Lorem ipsum,“ který se před dvěma lety měnil v překladači na „China“ nebo třeba „NATO“ podle velikosti písmen. Zatímco někteří se tehdy dokonce domnívali, že by se za tím vším mohl skrývat nějaký kód, nejspíše šlo jen o způsob používání textu „Lorem ipsum“ jako univerzální náhrady pro libovolný text třeba při ladění webových designů apod.

Zatímco u nás se měnilo Brno na Chicago a Ostrava na Seattle, geografická záměna byla samozřejmě rozšířená i ve světě. Sweden tedy Google překládal jako Canada, Amsterdam se z holandštiny měnil do anglický London, no a pak je tu zástup nejednoznačných termínů, které sice Google dodnes překládá špatně, ale je to v mnoha ohledech pochopitelné.

Není Kolín jako Kolín

Krásným příkladem je český Kolín. Kolín je prostě Kolín, nicméně Google se domnívá, že máme na mysli německý Kolín nad Rýnem, a tak jej přeloží do angličtiny jako Cologne. Pokud bychom tedy použili Google Translate pro překlad například informačních textů města v angličtině, mohl by se do nich dostat i zjevný místopisný nesmysl.

Klepněte pro větší obrázek
Český Kolín není Cologne

Google Translate a Bing Translator tu jsou již roky, nicméně svými překladovými chybami trpí dodnes a ani celková stylistická kvalita překladu se nelepší – spíše v čase mění. Když jsem tedy porovnal jeden z textů, který jsme Googlu předložil nejprve v roce 2008, poté v roce 2011 a konečně i nyní, zjistil jsem, že byl nakonec nejsrozumitelnější právě před osmi lety. Některé obraty se sice od té doby výrazně zlepšily a dávají smysl, stejně tak si ale překlad pohoršil u jiných vět.

Dokud se tedy zcela nepromění technologie překladu (zmíněné masivně nasazené strojové učení a neuronové sítě zítřka), překlady budou vždy kostrbaté, budící úsměv na tváří a občas i vlnu odboru na sociálních sítích jako aktuálně v Saudské Arábii.

Témata článku: Software, Microsoft, Google, Web, Technologie, Překladač, Internet, Umělá inteligence, Roboti, Superpočítače, Bing, Politika, Twitter.com, Translate, Google Translate

29 komentářů

Nejnovější komentáře

  • dpcstb 1. 9. 2016 9:17:25
    ale ved saudi SU islamsky stat. ved ich financuju a posielaju im velke...
  • Jarda.abc 31. 8. 2016 9:45:43
    A co teprve v AJ speech to text a to bez překladu. Pustil jsem si youtube...
  • Michal Colesaw 31. 8. 2016 9:25:40
    i kdyby brno bylo ve velikosti chicage...
reklama
Určitě si přečtěte

UPC překopli páteřní kabel. V Brně i druhý den nejede internet ani kabelovka

UPC překopli páteřní kabel. V Brně i druhý den nejede internet ani kabelovka

** V Brně byl velký výpadek služeb UPC ** Důvodem je překopnutý páteřní kabel ** V některých lokalitách služby stále nefungují

5.  12.  2016 | Jakub Čížek | 102

17 expertek Microsoftu předpovědělo rok 2027. Splní se alespoň něco?

17 expertek Microsoftu předpovědělo rok 2027. Splní se alespoň něco?

** Zmizí klasické vyhledávače ** Budeme programovat buňky ** Kvantové počítače překonají šifry

6.  12.  2016 | Jakub Čížek | 36

11 tipů na dobrý stolní počítač: od základu po herní mašiny

11 tipů na dobrý stolní počítač: od základu po herní mašiny

** Postavte si stolní počítač! Máme pro vás 11 vzorových sestav s rozpisem komponent ** Většina tipů cílí na hráče, věnujeme se ale i základnímu PC a počítačům na střih videa ** Nadělte si nový počítač třeba pod stromeček

5.  12.  2016 | Adam Kahánek | 74


reklama