reklama

Strojové překladače stále tragicky chybují. Bing nyní rozlítil Saudy. Překládal je jako Islámský stát

  • Strojové překladače používají statistický model
  • jenže ten má k dokonalosti daleko
  • Překládal Daesh jako Saudskou Arábii

Jedni je používají i pro vážně míněnou obchodní korespondenci, druzí si z jejich (ne)umu dělají roky legraci a ti ostatní doufají, že je jejich provozovatelé jednoho dne díky strojovému učení a neuronovým sítím vycepují k dokonalosti.

Řeč je samozřejmě o strojových překladačích v čele s Google Translate a Bing Translator, které mají i po letech problém smysluplně přeložit jen o něco složitější větu než „Dobrý den!“

Klepněte pro větší obrázek
Podobné věty přeloží strojové překladače na jedničku. U těch složitějších je to i po letech spíše ruská ruleta.

Obě služby používají techniku statistické analýzy, čili nepřekládají z jednoho jazyka do druhého na základě skutečné znalosti gramatiky a slovníku, ale jednoduše se přečtením hromady bilingválních textů naučily, že jednomu sledu slov s velkou pravděpodobností odpovídá jiný sled slov z druhého jazyka, a proto jej použijí.

Problém samozřejmě spočívá v tom, že se sice jedná o vysokou pravděpodobnost, nikoliv však o 100%, a jelikož jsou statistické soudy ze své podstaty zákeřné, občas se stane, že jeden z překladačů přeloží „brno“ na „Chicago,“ což byla jedna ze zábavných chyb Google Translate pár let nazpět. Už je ale samozřejmě opravená, protože dalším z pilířů strojových překladačů je komunita, která chybné překlady opravuje, a tak zdokonaluje celý systém.

Klepněte pro větší obrázek
Brno bývalo Chicago. Už bohužel není.

Velmi propracovanou komunitní výpomoc má právě Google, který vypustil do světa novou mobilní aplikaci Crowdsource, kde můžete zdokonalovat nejen jeho překladač, ale i mapy a další služby, protože i nadále platí, že jeden jediný lidský mozek je inteligentnější než všechny superpočítače světa dohromady.

Dáiš jako Saudská Arábie

Zpět ale k oněm chybám. Občas nezpůsobí jen pousmání jako v případě Brna s malým „b,“ které se měnil ona Chicago, ale i mezinárodní aféru. Aktuálně se to týká především slovíčka daesh a Saudské Arábie.

Slovíčko daesh (česky dáiš) vstoupilo ve veřejnou známost v souvislosti s tzv. Islámským státem, poněvadž je to jeho hanlivé označení, a tak jeho stoupenci vyhrožují, že každému, kdo jej používá vytrhnou jazyk. Podle slovního rozboru je přitom DAESH samotná zkratka Islámského státu v Iráku a Levantě, IS jej však nevidí rád, protože se příliš podobá dalším arabským slůvkům daes, dahes nebo třeba daw-aish, které mají zjevně negativní konotaci – je ironií osudu, že tato slůvka přitom IS popisují naprosto dokonale, poněvadž označují třeba toho, „který šlape po věcech,“ „vnucuje svůj pohled druhým,“ nebo třeba „rozsévá svár.“

Po malém slovním rozboru ovšem k věci. Jak už jsem napsal výše, statistický motor strojových překladačů se zdokonaluje mimo jiný díky práci komunity, která může navrhovat lepší překlady. A jelikož surfaři mají dokonalý smysl pro občasný trolling, začali v překladu do angličtiny masivně navrhovat, že slovíčko daesh vlastně neznamená hanlivé označení pro IS, ale že to je Saudská Arábie.

Brzy se to projevilo v praxi jako někdejší Google bomby a Microsoft začal skutečně daesh překládat na Saudskou Arábii, což mělo stejný efekt, jako by Bing Translator překládal třeba slovo „náckové“ na „Německo.“

Vlna odporu proti Microsoftu se rozšířila skrze sociální sítě, které se začaly plnit požadavky na bojkot všech produktů Microsoftu, takže se nakonec musel za neúmyslnou chybu omluvit i regionální šéf Microsoftu.

Moje ňadra (vlastně maminka) jsou krásná

Pojďme si připomenout několik vtipných chyb z minulosti. V samých začátcích měl Google třeba problém s překladem anglického mom (maminka) do španělštiny. Větu „My mom is nice and cool“ a tedy „Moje mamka je krásná a fajn“ přeložil do španělštiny ve smyslu „Moje ňadra jsou krásná a fajn.“

Pokud by tedy tehdy nějaký americký nápadník použil Google Translate pro sepsání dopisu rodičům své přítelkyně z Mexika, kterou žádá o ruku, mohlo by to také skončit návštěvou ostrých bratranců z Tijuany.

Klepněte pro větší obrázek
Takto se před pár lety v Google Translate proměňovalo spojení lorem ipsum

Další zajímavou chybou v překladači Gogolu byl třeba „Lorem ipsum,“ který se před dvěma lety měnil v překladači na „China“ nebo třeba „NATO“ podle velikosti písmen. Zatímco někteří se tehdy dokonce domnívali, že by se za tím vším mohl skrývat nějaký kód, nejspíše šlo jen o způsob používání textu „Lorem ipsum“ jako univerzální náhrady pro libovolný text třeba při ladění webových designů apod.

Zatímco u nás se měnilo Brno na Chicago a Ostrava na Seattle, geografická záměna byla samozřejmě rozšířená i ve světě. Sweden tedy Google překládal jako Canada, Amsterdam se z holandštiny měnil do anglický London, no a pak je tu zástup nejednoznačných termínů, které sice Google dodnes překládá špatně, ale je to v mnoha ohledech pochopitelné.

Není Kolín jako Kolín

Krásným příkladem je český Kolín. Kolín je prostě Kolín, nicméně Google se domnívá, že máme na mysli německý Kolín nad Rýnem, a tak jej přeloží do angličtiny jako Cologne. Pokud bychom tedy použili Google Translate pro překlad například informačních textů města v angličtině, mohl by se do nich dostat i zjevný místopisný nesmysl.

Klepněte pro větší obrázek
Český Kolín není Cologne

Google Translate a Bing Translator tu jsou již roky, nicméně svými překladovými chybami trpí dodnes a ani celková stylistická kvalita překladu se nelepší – spíše v čase mění. Když jsem tedy porovnal jeden z textů, který jsme Googlu předložil nejprve v roce 2008, poté v roce 2011 a konečně i nyní, zjistil jsem, že byl nakonec nejsrozumitelnější právě před osmi lety. Některé obraty se sice od té doby výrazně zlepšily a dávají smysl, stejně tak si ale překlad pohoršil u jiných vět.

Dokud se tedy zcela nepromění technologie překladu (zmíněné masivně nasazené strojové učení a neuronové sítě zítřka), překlady budou vždy kostrbaté, budící úsměv na tváří a občas i vlnu odboru na sociálních sítích jako aktuálně v Saudské Arábii.

Témata článku: Software, Technologie, Google, Microsoft, Web, Umělá inteligence, Internet, Překladač, Roboti, Superpočítače, Bing, Politika, Twitter.com, Translate, Google Translate

29 komentářů

Nejnovější komentáře

  • dpcstb 1. 9. 2016 9:17:25
    ale ved saudi SU islamsky stat. ved ich financuju a posielaju im velke...
  • Jarda.abc 31. 8. 2016 9:45:43
    A co teprve v AJ speech to text a to bez překladu. Pustil jsem si youtube...
  • Michal Colesaw 31. 8. 2016 9:25:40
    i kdyby brno bylo ve velikosti chicage...
reklama
Určitě si přečtěte

Vyzkoušeli jsme FM štěnici: Když si vtipálci hrají na pirátské rozhlasové vysílání

Vyzkoušeli jsme FM štěnici: Když si vtipálci hrají na pirátské rozhlasové vysílání

** Dnes žádnou elektroniku programovat nebudeme ** Štěnice totiž funguje sama o sobě ** Stačí připojit baterii a naladit frekvenci

22.  1.  2017 | Jakub Čížek | 32

Microsoft: Zbavte se už konečně zastaralých a děravých Windows 7

Microsoft: Zbavte se už konečně zastaralých a děravých Windows 7

** Microsoft pomalu začíná kritizovat svůj nejpopulárnější OS ** Chce konečně dostat podniky na Desítky ** Bezpečnostní podpora Sedmiček vydrží ještě necelé tři roky

17.  1.  2017 | Jakub Čížek | 409

Takto si špičkoví grafici představují nový Facebook. S čistým vzhledem a bez reklam

Takto si špičkoví grafici představují nový Facebook. S čistým vzhledem a bez reklam

** Design Facebooku se delší dobu nemění a pro mnohé je nudným ** Grafici zkouší navrhovat nové koncepty toho, jak by mohla síť vypadat ** Hlasujte pro nejzdařilejší návrh

22.  1.  2017 | Stanislav Janů | 65

Umělá inteligence dokáže ze snímků srdce předpovědět, kdy zemřete

Umělá inteligence dokáže ze snímků srdce předpovědět, kdy zemřete

** Strojové učení lze skvěle použít pro vylepšení modelů pro předpověď srdečních komplikací ** Nová technologie umožňuje přesněji určit rizikové pacienty ** Dřívější diagnostika může díky včasně léčbě do budoucna zachránit životy

21.  1.  2017 | Karel Javůrek | 7

8 produktů, o kterých byste neřekli, že nesou značku Apple

8 produktů, o kterých byste neřekli, že nesou značku Apple

** Věděli jste, že Apple vyvinul celkem 45 modelů tiskáren? ** ** Monitor na výšku, plotter nebo herní konzole - to vše měl Apple ve své nabídce ** Většinu z těchto produktů pohřbil Steve Jobs

19.  1.  2017 | Stanislav Janů | 43


Aktuální číslo časopisu Computer

99 nejlepších programů pro váš počítač

Zvykejte si na umělou inteligenci

Velké testy PC zdrojů a gamepadů

Alternativní zdroje energie

reklama
reklama