Proč Google Instant nerozumí bosenské Prdeljici

Google je v mnohém velmi otevřený a přístupný vyhledávač. Přesto ale existují mantinely, za které očividně nejde. Obětí se stal i jeho instantní vyhledávač a našeptávač.

Je to už nějaký týden, co můžete v Googlu zkoušet instantní vyhledávání. V anglickém originálu se funkce jmenuje prostě Google Instant, česká varianta pak zní Dynamické vyhledávání. Jak už dobře víte, celá podstata služby spočívá v tom, že se ve vyhledávači zobrazují výsledky dynamicky už ve chvíli, kdy píšete hledanou frázi.

Krátce po spuštění vyhledávače se nicméně na webu objevila i černá listina hesel, se kterými si Instant nerozumí – které bude ignorovat. Seznam se zvesela rozšiřuje, tvoří ho totiž komunita, a jak se zdá, takovou listinu bychom mohli začít tvořit i u nás nebo v sousedním Slovensku. I náš Google totiž všechna slova nezná. Není to přitom omyl nebo nedostatek indexovacího robota, ale zásah člověka.

Slovíčka, o kterých se nemluví

Google se odjakživa nechlubí tím, v jaké míře jeho uživatelé vyhledávají nejrůznější citlivá slovíčka. Ve výročním Zeitgeistu (nejhledanější slova a největší skokani) se tedy nikdy neobjeví „sex“ nebo nedej bože něco skutečně vulgárního. Naštěstí ale stačí zavítat na web Statistiky vyhledávání (Google Insights for Search) a zjistíte, že zájem o sex mezi českými surfaři objektivně klesá. Termínu se naopak nejlépe daří v Pákistánu, Vietnamu a Indii. Anglosaské země pro změnu používají jiné termíny pro tentýž význam slova.

Po malé odbočce ovšem k tomu nejdůležitějšímu – československé černé listině. Skutečně najdete slovíčka, na která Instant mlčí a také našeptávač se chová, jako by nic neslyšel, ačkoliv se samotnou indexací Googlebot nemá ani nejmenší problém (Google zná nějaké dva miliony českých stránek, které mají co do činění se slovíčkem „sex“).

Zakázaná slovíčka v českém vyhledávači Google Instant

 

K filtrování výsledků našeptávače (a tedy i na něj navázaného dynamického hledání) dochází jak při zapnutém bezpečném vyhledávání (rodičovský filtr), což by bylo v podstatě v nejlepším pořádku, tak ovšem i při tom zcela svobodném. Ani to sice není nikterak velká rána, protože po klepnutí na ENTER se zobrazí klasické nedynamické výsledky, nicméně do hromady zakázaných slov se bohužel dostanou i zcela běžná slova.

Politicky nekorektní našeptávač

Našeptávač Googlu má sice nařízeno nenašeptávat různá (potenciálně nebezpečná) slovíčka, se slovními spojeními ale v mnoha případech problém nemá. Pokud tedy v anglické verzi vyhledávače zadáte spojení „suicide is th“, našeptávač vám napoví „suicide is the solution“ (sebevražda je řešení). Jak vidno, našeptávač je dalším adeptem na to, aby na něj zaútočil nějaký schopný autor SEO bomby.

naseptavac.png

Některé další příklady „politicky nekorektního“ našeptávače najdete na webu lazydesis.com.

Problém totiž spočívá v tom, že Google v našeptávači blokuje nikoliv celá inkriminovaná slova, ale i jejich základy nebo dokonce jen první písmena. A z toho plyne, že se na seznam zakázaných slov logicky dostanou i výrazy každodenního použití. Google Instant a našeptávač tedy neví zhola nic o slovenské Seredi (17 000 obyvatel), o českém Pičíně nebo o bosenském vrchu Prdeljica. Ze stejného důvodu se nakonec o našeptávače nedostalo ani estonské přístavní město Kunda. Našeptávač v Google Mapách vám přitom Prdeljici, Kundu nebo i pražský klub Prdel bez problému nabídne.

kunda estonsko.png
Obec Kunda, Estonsko (Zdroj: Mapy Google)

Samozřejmě můžete namítnout, že je to dáno velikostí těchto obcí, nicméně s takovými Orličkami na úpatí Suchého vrchu, které návštěvníkům nabízí leda místní Konzum a několik málo chalupářů, toho ví Google poměrně dost včetně kompletního mapového a adresního pokrytí.

Cenzurovaný Pablo Picasso

Jistě, doposud jsem psal pouze o obcích s věru expresivními názvy, pokud ale nasadím vážnější notu, je třeba konstatovat, že do našeptávače se ze zcela identického důvodu nedostal ani Pablo Picasso. Ironií osudu v našeptávači přirozeně chybí i Picasa, správce fotografií od Googlu.

Snad je to ale vše jenom výjimka, takové hlasové vyhledávání pomocí Googlu v Androidu, nebo iPhonu totiž naopak funguje excelentně i u těch nejošklivějších slov, které jste se v životě opovážili vyslovit a ke všemu bravurně funguje i našeptávač. Ne, nesmějte se, anglické hlasové vyhledávání s tímto mělo na Androidu dlouhé roky převeliké problémy, autocenzura byla totiž nastavena natolik přísně, že jste si nemohli v telefonu hlasem vyhledat ani to, co je předmětem studia přírodovědy na středoevropských základních školách.

Pro inspiraci se podívejte také na bleskovku o černé listině anglických slovíček v Google Instantu.


Sledujte Živě na Facebooku

celkem 29

Poslední komentáře Komentáře

Vaše problémy bych chtěl mít... pawell455 5.  11.  2010 13:32
Copak Sukacka, ale Cikanov! jehoVista 1.  11.  2010 22:14
Ale jó, překládá, jen tam nesmíš napsat oba názvy... Miloš Zikmund 1.  11.  2010 19:39
tak tuhle přezdívku pana 28cm slyším poprvé, tak... akira.uzai 1.  11.  2010 7:57
ja instant hledani nepouzivam, protoze me vadi.... theKing 31.  10.  2010 18:08
Přidat příspěvek Zobrazit vše


Další podobné články

Americká kina plošně zakázala Google Glass

Americká kina plošně zakázala Google Glass

Před 5 hodinami  |  Čížek Jakub  |  5
Google opouští otec Androidu Andy Rubin

Google opouští otec Androidu Andy Rubin

Před 8 hodinami  |  Čížek Jakub  |  1
Bing umí vyhledávat podle emodži

Bing umí vyhledávat podle emodži

Včera  |  Polesný David  |  6
HTML5 je hotový. Zajímá to ale ještě někoho?

HTML5 je hotový. Zajímá to ale ještě někoho?

W3C po patnácti letech vydalo finální specifikaci nového webového jazyka HTML. Svět se za tu dobu ale změnil a jen HTML5 dnes už ke štěstí dávno nestačí.

Včera  |  Čížek Jakub  |  11

Google chce vyslat do lidského těla magnety. Budou hledat rakovinu

Google chce vyslat do lidského těla magnety. Budou hledat rakovinu

29.  10.  2014  |  Čížek Jakub  |  6

DEJTE NÁM TIP NA ČLÁNEK



Aktuální číslo časopisu Computer
  • Testy nejnovějších produktů na českém trhu.
  • Informace ze světa internetu i bezpečnosti.
  • Plné verze programů zdarma pro všechny čtenáře.

Partnerská sekce pro IT profesionály
Microsoft TechNet/MSDN