reklama

Strojové překladače stále tragicky chybují. Bing nyní rozlítil Saudy. Překládal je jako Islámský stát

  • Strojové překladače používají statistický model
  • jenže ten má k dokonalosti daleko
  • Překládal Daesh jako Saudskou Arábii

Jedni je používají i pro vážně míněnou obchodní korespondenci, druzí si z jejich (ne)umu dělají roky legraci a ti ostatní doufají, že je jejich provozovatelé jednoho dne díky strojovému učení a neuronovým sítím vycepují k dokonalosti.

Řeč je samozřejmě o strojových překladačích v čele s Google Translate a Bing Translator, které mají i po letech problém smysluplně přeložit jen o něco složitější větu než „Dobrý den!“

Klepněte pro větší obrázek
Podobné věty přeloží strojové překladače na jedničku. U těch složitějších je to i po letech spíše ruská ruleta.

Obě služby používají techniku statistické analýzy, čili nepřekládají z jednoho jazyka do druhého na základě skutečné znalosti gramatiky a slovníku, ale jednoduše se přečtením hromady bilingválních textů naučily, že jednomu sledu slov s velkou pravděpodobností odpovídá jiný sled slov z druhého jazyka, a proto jej použijí.

Problém samozřejmě spočívá v tom, že se sice jedná o vysokou pravděpodobnost, nikoliv však o 100%, a jelikož jsou statistické soudy ze své podstaty zákeřné, občas se stane, že jeden z překladačů přeloží „brno“ na „Chicago,“ což byla jedna ze zábavných chyb Google Translate pár let nazpět. Už je ale samozřejmě opravená, protože dalším z pilířů strojových překladačů je komunita, která chybné překlady opravuje, a tak zdokonaluje celý systém.

Klepněte pro větší obrázek
Brno bývalo Chicago. Už bohužel není.

Velmi propracovanou komunitní výpomoc má právě Google, který vypustil do světa novou mobilní aplikaci Crowdsource, kde můžete zdokonalovat nejen jeho překladač, ale i mapy a další služby, protože i nadále platí, že jeden jediný lidský mozek je inteligentnější než všechny superpočítače světa dohromady.

Dáiš jako Saudská Arábie

Zpět ale k oněm chybám. Občas nezpůsobí jen pousmání jako v případě Brna s malým „b,“ které se měnil ona Chicago, ale i mezinárodní aféru. Aktuálně se to týká především slovíčka daesh a Saudské Arábie.

Slovíčko daesh (česky dáiš) vstoupilo ve veřejnou známost v souvislosti s tzv. Islámským státem, poněvadž je to jeho hanlivé označení, a tak jeho stoupenci vyhrožují, že každému, kdo jej používá vytrhnou jazyk. Podle slovního rozboru je přitom DAESH samotná zkratka Islámského státu v Iráku a Levantě, IS jej však nevidí rád, protože se příliš podobá dalším arabským slůvkům daes, dahes nebo třeba daw-aish, které mají zjevně negativní konotaci – je ironií osudu, že tato slůvka přitom IS popisují naprosto dokonale, poněvadž označují třeba toho, „který šlape po věcech,“ „vnucuje svůj pohled druhým,“ nebo třeba „rozsévá svár.“

Po malém slovním rozboru ovšem k věci. Jak už jsem napsal výše, statistický motor strojových překladačů se zdokonaluje mimo jiný díky práci komunity, která může navrhovat lepší překlady. A jelikož surfaři mají dokonalý smysl pro občasný trolling, začali v překladu do angličtiny masivně navrhovat, že slovíčko daesh vlastně neznamená hanlivé označení pro IS, ale že to je Saudská Arábie.

Brzy se to projevilo v praxi jako někdejší Google bomby a Microsoft začal skutečně daesh překládat na Saudskou Arábii, což mělo stejný efekt, jako by Bing Translator překládal třeba slovo „náckové“ na „Německo.“

Vlna odporu proti Microsoftu se rozšířila skrze sociální sítě, které se začaly plnit požadavky na bojkot všech produktů Microsoftu, takže se nakonec musel za neúmyslnou chybu omluvit i regionální šéf Microsoftu.

Moje ňadra (vlastně maminka) jsou krásná

Pojďme si připomenout několik vtipných chyb z minulosti. V samých začátcích měl Google třeba problém s překladem anglického mom (maminka) do španělštiny. Větu „My mom is nice and cool“ a tedy „Moje mamka je krásná a fajn“ přeložil do španělštiny ve smyslu „Moje ňadra jsou krásná a fajn.“

Pokud by tedy tehdy nějaký americký nápadník použil Google Translate pro sepsání dopisu rodičům své přítelkyně z Mexika, kterou žádá o ruku, mohlo by to také skončit návštěvou ostrých bratranců z Tijuany.

Klepněte pro větší obrázek
Takto se před pár lety v Google Translate proměňovalo spojení lorem ipsum

Další zajímavou chybou v překladači Gogolu byl třeba „Lorem ipsum,“ který se před dvěma lety měnil v překladači na „China“ nebo třeba „NATO“ podle velikosti písmen. Zatímco někteří se tehdy dokonce domnívali, že by se za tím vším mohl skrývat nějaký kód, nejspíše šlo jen o způsob používání textu „Lorem ipsum“ jako univerzální náhrady pro libovolný text třeba při ladění webových designů apod.

Zatímco u nás se měnilo Brno na Chicago a Ostrava na Seattle, geografická záměna byla samozřejmě rozšířená i ve světě. Sweden tedy Google překládal jako Canada, Amsterdam se z holandštiny měnil do anglický London, no a pak je tu zástup nejednoznačných termínů, které sice Google dodnes překládá špatně, ale je to v mnoha ohledech pochopitelné.

Není Kolín jako Kolín

Krásným příkladem je český Kolín. Kolín je prostě Kolín, nicméně Google se domnívá, že máme na mysli německý Kolín nad Rýnem, a tak jej přeloží do angličtiny jako Cologne. Pokud bychom tedy použili Google Translate pro překlad například informačních textů města v angličtině, mohl by se do nich dostat i zjevný místopisný nesmysl.

Klepněte pro větší obrázek
Český Kolín není Cologne

Google Translate a Bing Translator tu jsou již roky, nicméně svými překladovými chybami trpí dodnes a ani celková stylistická kvalita překladu se nelepší – spíše v čase mění. Když jsem tedy porovnal jeden z textů, který jsme Googlu předložil nejprve v roce 2008, poté v roce 2011 a konečně i nyní, zjistil jsem, že byl nakonec nejsrozumitelnější právě před osmi lety. Některé obraty se sice od té doby výrazně zlepšily a dávají smysl, stejně tak si ale překlad pohoršil u jiných vět.

Dokud se tedy zcela nepromění technologie překladu (zmíněné masivně nasazené strojové učení a neuronové sítě zítřka), překlady budou vždy kostrbaté, budící úsměv na tváří a občas i vlnu odboru na sociálních sítích jako aktuálně v Saudské Arábii.

Témata článku: Software, Technologie, Microsoft, Google, Web, Internet, Překladač, Roboti, Umělá inteligence, Superpočítače, Bing, Politika, Twitter.com, Translate, Google Translate

29 komentářů

Nejnovější komentáře

  • dpcstb 1. 9. 2016 9:17:25
    ale ved saudi SU islamsky stat. ved ich financuju a posielaju im velke...
  • Jarda.abc 31. 8. 2016 9:45:43
    A co teprve v AJ speech to text a to bez překladu. Pustil jsem si youtube...
  • Michal Colesaw 31. 8. 2016 9:25:40
    i kdyby brno bylo ve velikosti chicage...
reklama
Určitě si přečtěte

Vybíráte herní periferii nebo hardware? Pak zapomeňte na nálepku Gaming

Vybíráte herní periferii nebo hardware? Pak zapomeňte na nálepku Gaming

** Herní hardware se od toho běžného často liší jen vzhledem ** Při výběru stále nezapomínejte na základní parametry ** Poradíme jak vybrat herní hardware i periferie

20.  2.  2017 | Stanislav Janů | 36

10 nejhorších produktů v historii Microsoftu

10 nejhorších produktů v historii Microsoftu

20.  2.  2017 | Karel Javůrek | 141

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

** AMD uvedlo první tři procesory Ryzen 7 ** Všechny budou pracovat s osmi jádry a šestnácti vlákny ** Na pulty obchodů se dostanou už za týden

22.  2.  2017 | Stanislav Janů | 132

Pojďme programovat elektroniku: Žádný bastlíř se neobejde bez armády švábů

Pojďme programovat elektroniku: Žádný bastlíř se neobejde bez armády švábů

** Každý bastlíř se po čase neobjede bez armády švábů ** Dnes si některé z nich vyzkoušíme ** Třeba zázračný posuvný registr

19.  2.  2017 | Jakub Čížek | 40

EU se děsí Windows 10. Prý o nás vědí až příliš. Microsoft chystá změny

EU se děsí Windows 10. Prý o nás vědí až příliš. Microsoft chystá změny

** Evropští úředníci chtějí, aby byly Desítky transparentnější ** Microsoft od jara skutečně chystá změny ** Ochráncům soukromí to ale nestačí

21.  2.  2017 | Jakub Čížek | 218

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

** Microsoft do svých telefonů integroval desktopové prostředí ** Moc to ale nevyšlo, chyběl pořádný výkon ** Teď to zkoušejí ex-googleři s Remix Singularity

23.  2.  2017 | Jakub Čížek | 74


Aktuální číslo časopisu Computer

Supertéma o počítačové bezpečnosti

AMD Ryzen přichází

Velké testy kinoprojektorů a levných špuntových sluchátek

Příslušenství do USB-C

reklama
reklama