Proč jsou překladače Googlu a Microsoftu tak hloupé

Slovní spojení „drahoušek zákazník“ je do jisté míry symbolem strojového překladače a strojově překládaného spamu v poště. Proč strojové překladače občas překládají nesmysly?

Pokaždé, když přijdu do styku se strojovými překlady, nestačím se divit, jaké nesmysly a iracionální patvary dokáže Google nebo Microsoft stvořit. Občas je to slovy internetového diskutéra skutečně „jedno velké WTF!“. Jak to, že jsou překladače tak neschopné, když je vyvíjejí firmy s miliardovými rozpočty?

Pokud se může anglicky naučit Pepa z Uničova, proč to dělá takové obtíže službě Bing Translator a Google Translate? Možná je to jednodušší, než si myslíte. Zatímco Pepa z Uničova se anglicky naučil díky pedantskému přístupu středoškolské profesorky a po večerech se při svitu luny „bifloval“ slovíčka, pravidla a gramatiku, Google i Microsoft si zvolily úplně jinou cestu – nabiflovaly se různé jazykové verze jednoho a téhož textového dokumentu.

Otec překladače Googlu

joch.pngNěmecký inženýr a odborník na počítačovou lingvistiku Franz Josef Och je duchovním otcem textové analýzy v Googlu a šéf vývoje překladových technik.

Podle jeho slov budete pro vývoj relativně funkčního statistického strojového překladače potřebovat dva identické bilingvální texty o délce alespoň jednoho milionu slov a pro každý z jazyků ještě samostatný text o délce alespoň jedné miliardy slov.

Jedná se o takzvané statistické strojové překlady – v anglické terminologii statistical machine translation a předpokládá se u nich, že když se nazpaměť naučíte dvě identické knihy v různých jazycích, věta na 34. straně z knihy A bude odpovídat větě na 34. straně z knihy B. Pokud se takových knih naučíte desítky a stovky, statisticky už budete moci odhadnout, kterému slovnímu spojení jednoho jazyka bude odpovídat spojení z druhého jazyka. Prostě vyberete to, které se v překladu a v daném kontextu  vyskytuje nejčastěji.

Aby to fungovalo co nejlépe, je třeba, aby si byly oba jazyky vnitřně co nejpodobnější (angličtina, němčina aj.) a abyste těch knih nastudovali co nejvíce. Podle inženýra Franze Josefa Ocha budete pro základní a alespoň částečně funkční statistický strojový překladač potřebovat dva stejné texty v různých jazycích, které se skládají alespoň z jednoho milionu slov. Pro pochopení každého z dílčích jazyků pak potřebujete pro každý ještě text alespoň s miliardou slov. Pokud byste tedy na světě našli dvě zcela identické univerzitní knihovny, ale jedna by obsahovala knihy v české verzi a druhá v anglické, pravděpodobnostní statistika by vám dala odpověď na jakýkoliv překlad. I k tomu nejzvláštnějšímu anglickému spojení byste totiž našli nejpravděpodobnější českou verzi.

A to se už dostáváme k jádru věci. Takové naklonované knihovny prostě neexistují, a proto jsou statistické strojové překlady nepřesné a občas se do nich dostane i nějaký ten nesmysl, který by u strojového překladu na bázi známých pravidel jazyka nepřišel v úvahu. Jednou z takových úsměvných chyb je třeba slovo „brno“ s malým „B“. Při překladu z češtiny do angličtiny jej Google přeloží jako Chicago. Brno s velkým „B“ už ale problémy nedělá. Pokud by se Google učil překládat dva jazyky na základě bilingvální knihy, kde v české verzi použije autor jméno Pepa a v anglické Karel, naučí se Google překládat Pepu na Karla.

google translate.png
Není Brno jako Chicago

Statistické překlady z angličtiny do češtiny jsou chybové, jelikož Google nemá po ruce dostatek bilingválních knih, dokumentů a dalších zdrojů. Naopak u jazykové dvojice španělština – angličtina bude situace úplně jiná, jelikož takových bilingválních textů existuje nepřeberné množství nejen díky této nejčastější jazykové „menšině“ v USA.

Ideálním zdrojem bilingválních textů pro Bing Translator a Google Translate jsou třeba dokumenty OSN (i zde ale chybí čeština), dokumenty EU, na jejichž indexování se dohodl Google s evropskými úřady relativně nedávno, Bible jakožto nejpřekládanější kniha světa, anebo různé jazykové verze dokumentace a lokalizace třeba k Windows.Tlačítko XYZ ve Windows 7 má několik desítek jazykových verzí, takže tato obrovská multilingvální báze může Microsoftu skutečně pomoci.

Jak funguje překladač od Googlu (zapněte si české titulky)


Google a Bing by měly teoreticky disponovat nejlepšími statistickými strojovými překladači, jelikož mají nejvíce zkušeností s řazením a analýzou textové informace. Strojové překladače pro ně tedy mohou být dalším vedlejším produktem, který přirozeně vzniká na datech z vyhledávače.

Jak Google, tak Bing používají tedy principiálně podobnou technologii. Která je ale lepší? Podrobili jsme oba překladače jednoduchému testu, kdy měl jak Bing tak Google přeložit z angličtiny do češtiny nejprve krátký historický úryvek z webu Czech.cz, anglický a poměrně vousatý vtip a nakonec hlavičku jednoho z článku na Betanews. Pokud čtete Živě.cz pravidelně, možná si pamatujete na identický úkol z roku 2008, kdy stejné řetězce překládaly vedle Googlu i komerční překladače. Pro srovnání jsme tedy do článku přidali i podoby překladů z roku 2008 (pouze Google). Můžete porovnat, jestli si internetový hegemon polepšil, nebo naopak pohoršil.

Původní úryvky textu webových stránek pro srovnání

Úryvek textu z webu Czech.cz (webová stránka)

The first historically documented Přemyslid was Bořivoj, with whom we are already are familiar. He had himself baptized at the Great Moravian court of Prince Svatopluk. He was initially based in the fortified settlement of Levý Hradec, which is where the oldest preserved church in Bohemia is located. He subsequently relocated to Prague. Bořivoj’s wife Ludmila became one of the first Czech saints because she educated her grandson and future patron of Bohemia - Wenceslas - in the Catholic faith. Until his maturity, the position of monarch was filled by his mother, Drahomíra, who resented Ludmila's influence on her son to such an extent that she let her be throttled.

Anglický vtip pro „ajtíky“ (webová stránka)

Two IT guys were talking in a bar after work. "Guess what," says the first IT guy, "yesterday, I met this gorgeous blonde in a bar."

"What did you do?" says the other IT guy.

"Well, I invited her over to my place, we had a couple of drinks, we got into the mood and then she suddenly asked me to take all her clothes off."

"You're kidding me!" says the second IT guy.

"So I took her miniskirt off, and then I lifted her up and put her on my desk next to my new laptop."

"Really? You've got a new laptop?"

Článek na BetaNews (webová stránka)

Unhappy wireless subscribers in Canada have socked Telus and Bell Mobility with class action lawsuits over their intentions to begin charging users for incoming SMS/MMS text messages, a practice already common in the US.

Jak tyto texty přeloží do češtiny statistické strojové překladače? Podívejte se na srovnávací odstavce, přičemž v případě Googlu uvádím i stav pro rok 2008.

Google Translate (stav v roce 2008)

Přeložený úryvek textu z webu Czech.cz

Prvním historicky doloženým Přemyslovcem byl Bořivoj, se kterými jsme se již seznámili. On sám měl pokřtít na velkomoravském dvoře knížete Svatopluka. Ten byl původně založen ve hradiště z Levého Hradce, což je oblast, kde nejstarší dochovaný kostel v Čechách nachází. Později přesídlil do Prahy. Bořivoj manželka Ludmila se stala jednou z prvních českých svatých, protože ona jí vnuk vzdělané a budoucí patron Čech - Václava - v katolické víře. Až do své dospělosti, postavení panovníka byla obsazena do své matce, Drahomíra, kteří nenáviděl Ludmila vliv na její syn do té míry, že si ji nechal být Throttled.

Anglický vtip pro „ajtíky“

IT Dva kluci byli mluvili v baru po práci. "Hádej," říká první IT chlap, "včera jsem potkal tento nádherný blondýnka v baru."

"Co jsi to udělal?" praví další IT chlap.

"No, já ji vyzývají, aby moje místo, měli jsme pár nápojů, jsme se dostali do nálady a pak si najednou mě požádal, aby podnikly všechny její šaty."

"Vy jste mě srandu!" říká druhý IT chlap.

"Tak jsem si ji vzal volno minisukně, a pak jsem pomohl jí vstát a dát ji na mém stole vedle mého nového notebooku."

"Opravdu? Máte nový notebook?"

Článek na BetaNews

Nešťastný bezdrátové odběratelé v Kanadě Telus mít socked a Bell Mobilita s třídou akce soudních nad svými úmysly začít zpoplatnění uživatele na příchozí SMS / MMS zpráv SMS, což je praxe již běžné v USA.

Google Translate (současný stav)

Přeložený úryvek textu z webu Czech.cz

Prvním historicky doloženým Přemyslovců byl Bořivoj, s nímž jsme již obeznámeni. On sám pokřtít na velkomoravském dvoře knížete Svatopluka. On byl zpočátku umístěný v hradišti Levý Hradec, což je místo, kde se nachází nejstarší dochovaný kostel v Čechách. Později přesídlil do Prahy. Bořivoj manželka Ludmila se stala jednou z prvních českých svatých, neboť svého vnuka, že vzdělaná a budoucí patron české - Václava - v katolické víře. Až do jeho dospělosti, byl na pozici monarchy naplněné jeho matkou, Drahomíra, kdo nesnášel Ludmila vliv na jejího syna v takové míře, že ať je uškrtil.

Anglický vtip pro „ajtíky“

Dva to kluci mluvili v baru po práci. "Víš, co," říká první IT chlap: "Včera jsem se setkal to nádherná blondýnka v baru."

"Co jste dělali?" říká, že druhé straně to chlap.

"No, já ji pozval k nám, měli jsme pár drinků, jsme se dostali do nálady a pak najednou se mě zeptal, aby všechny její šaty."

"Ty si ze mě legraci!" říká, že druhá IT chlap.

"Tak jsem ji vzal minisukni off, a pak jsem ji zvedl a položil ji na stůl vedle svého nového notebooku."

"Opravdu? Máš nový notebook?"

Článek na BetaNews

Nešťastný bezdrátových účastníků v Kanadě socked Telus a Bell mobility s žaloby soudy nad jejich záměry pro zahájení nabíjení uživatele na příchozí SMS / MMS zpráv SMS, což je praxe již běžné v USA.

 Bing Translator (současný stav)

Přeložený úryvek textu z webu Czech.cz

První historicky zdokumentované Přemyslovců byl Bořivoj, s kým jsme už známe. Musel sám křtil na velké Moravské soudu z kníže Svatopluk. Byl původně založen v opevněné osadě Levý Hradec, což je kde nejstarší zachován kostel v Čechách se nachází. Následně byl přemístěn do Prahy. Bořivoj jeho manželka Ludmila se stal jedním z prvních českých světců, protože vychovala její vnuk a budoucí patron Bohemia - Václav - na katolickou víru. Až do jeho dospělosti vyplnil postavení panovníka jeho matka, Drahomíra, kteří Ludmila jeho vliv na jejího syna do té míry, že nechala ji omezen.

Anglický vtip pro „ajtíky“

Dva chlapi to mluvil v baru po práci. "Víte co," řekl ten první IT, "včera, jsem potkal Tato nádherná blondýna v baru."

"Co jste udělal?" říká ten druhý to.

"No, pozvala jsem ji ke mně, měli jsme pár panáků, jsme dostali do nálady a pak si náhle požádal, abych si všechny šaty."

"Žertuješ!" říká ten druhý to.

"Tak jsem si vzal její minisukni vypnout a pak ji zvedl a dej ji na stole vedle nového přenosného počítače."

"Opravdu?" Máš nový notebook?"

Článek na BetaNews

Nešťastný bezdrátové předplatitelů v Kanadě už viset Telus a Bell Mobility s žalobami třídy akce nad jejich záměry zahájit nabíjení uživatelů pro příchozí SMS/MMS textové zprávy, v USA již běžné praxe.

Obě časové verze překladače od Googlu se liší pouze v nuancích a drobnostech. Zajímavé je, že zatímco verze z roku 2008 správně určila pád „Přemyslovcem“, současný Google i Bing používají plurál „Přemyslovců“.

Při porovnání Googlu a Bingu je nicméně patrné, že ačkoliv oba dělají chyby, Googlu se daří správně vybrat více větných částí, které dávají smysl a jsou i poměrně stylisticky čisté.

Kdo koho svlékal?

Bingem přeložený anglický vtip začíná vcelku dobře, nicméně není úplně jasné, kdo koho svlékal, což je pro čtenáře poměrně podstatná informace. Zatímco Google píše přinejmenším o šatech blondýny, se kterými se má něco stát, Bing Translator spojením „abych si všechny šaty“ evokuje představu, že blondýna žádala, aby se naopak svlékl muž. Později je naštěstí vše opraveno, Bing nicméně i hůře nedodržuje rody, takže mohou vzniknout další nejasnosti.

Se zpravodajskou a technickou angličtinou si dost dobře neporadí ani jeden z překladačů, což vyplývá z poslední dvojice odstavců. Letmým pohledem na překlad zjistí zákulisí pře asi jen málokdo.

Překladače jsou výborným nástrojem, když potřebujete přeložit text z cizího světového jazyka do jiného světového jazyka, kterému rozumíte – typicky do angličtiny. Google i Microsoft totiž mají mnohem lépe nastudované a změřené jazykové dvojice třeba při překladu ve směru španělština – angličtina, než španělština – čeština. Je to logické, dvojic textových překladů s češtinou totiž není zase tolik.

Na kvalitní a bez problému srozumitelné strojové překlady do češtiny si tedy budeme muset ještě nějaký pátek počkat. Pokud se ale (nejlépe) v angličtině vyznáte a ovládáte ji přinejmenším pasivně, statistické překladače vám mohou skutečně velmi pomoci. Američané totiž překládají texty nejvíce ze všech (nejméně ovládají jiné jazyky) a tudíž disponují největším počtem textových jazykových dvojic, které lze analyzovat. Lze předpokládat, že zvláště dvojice angličtina – španělština nebo třeba angličtina – němčina bude v obou směrech fungovat docela slušně.

Diskuze (48) Další článek: SeaMicro nabízí 768 Atomových jader v jednom serveru

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , , ,