Proč Google Instant nerozumí bosenské Prdeljici

Google je v mnohém velmi otevřený a přístupný vyhledávač. Přesto ale existují mantinely, za které očividně nejde. Obětí se stal i jeho instantní vyhledávač a našeptávač.

Je to už nějaký týden, co můžete v Googlu zkoušet instantní vyhledávání. V anglickém originálu se funkce jmenuje prostě Google Instant, česká varianta pak zní Dynamické vyhledávání. Jak už dobře víte, celá podstata služby spočívá v tom, že se ve vyhledávači zobrazují výsledky dynamicky už ve chvíli, kdy píšete hledanou frázi.

Krátce po spuštění vyhledávače se nicméně na webu objevila i černá listina hesel, se kterými si Instant nerozumí – které bude ignorovat. Seznam se zvesela rozšiřuje, tvoří ho totiž komunita, a jak se zdá, takovou listinu bychom mohli začít tvořit i u nás nebo v sousedním Slovensku. I náš Google totiž všechna slova nezná. Není to přitom omyl nebo nedostatek indexovacího robota, ale zásah člověka.

Slovíčka, o kterých se nemluví

Google se odjakživa nechlubí tím, v jaké míře jeho uživatelé vyhledávají nejrůznější citlivá slovíčka. Ve výročním Zeitgeistu (nejhledanější slova a největší skokani) se tedy nikdy neobjeví „sex“ nebo nedej bože něco skutečně vulgárního. Naštěstí ale stačí zavítat na web Statistiky vyhledávání (Google Insights for Search) a zjistíte, že zájem o sex mezi českými surfaři objektivně klesá. Termínu se naopak nejlépe daří v Pákistánu, Vietnamu a Indii. Anglosaské země pro změnu používají jiné termíny pro tentýž význam slova.

Po malé odbočce ovšem k tomu nejdůležitějšímu – československé černé listině. Skutečně najdete slovíčka, na která Instant mlčí a také našeptávač se chová, jako by nic neslyšel, ačkoliv se samotnou indexací Googlebot nemá ani nejmenší problém (Google zná nějaké dva miliony českých stránek, které mají co do činění se slovíčkem „sex“).

Zakázaná slovíčka v českém vyhledávači Google Instant

 

K filtrování výsledků našeptávače (a tedy i na něj navázaného dynamického hledání) dochází jak při zapnutém bezpečném vyhledávání (rodičovský filtr), což by bylo v podstatě v nejlepším pořádku, tak ovšem i při tom zcela svobodném. Ani to sice není nikterak velká rána, protože po klepnutí na ENTER se zobrazí klasické nedynamické výsledky, nicméně do hromady zakázaných slov se bohužel dostanou i zcela běžná slova.

Politicky nekorektní našeptávač

Našeptávač Googlu má sice nařízeno nenašeptávat různá (potenciálně nebezpečná) slovíčka, se slovními spojeními ale v mnoha případech problém nemá. Pokud tedy v anglické verzi vyhledávače zadáte spojení „suicide is th“, našeptávač vám napoví „suicide is the solution“ (sebevražda je řešení). Jak vidno, našeptávač je dalším adeptem na to, aby na něj zaútočil nějaký schopný autor SEO bomby.

Klepněte pro větší obrázek

Některé další příklady „politicky nekorektního“ našeptávače najdete na webu lazydesis.com.

Problém totiž spočívá v tom, že Google v našeptávači blokuje nikoliv celá inkriminovaná slova, ale i jejich základy nebo dokonce jen první písmena. A z toho plyne, že se na seznam zakázaných slov logicky dostanou i výrazy každodenního použití. Google Instant a našeptávač tedy neví zhola nic o slovenské Seredi (17 000 obyvatel), o českém Pičíně nebo o bosenském vrchu Prdeljica. Ze stejného důvodu se nakonec o našeptávače nedostalo ani estonské přístavní město Kunda. Našeptávač v Google Mapách vám přitom Prdeljici, Kundu nebo i pražský klub Prdel bez problému nabídne.

Klepněte pro větší obrázek
Obec Kunda, Estonsko (Zdroj: Mapy Google)

Samozřejmě můžete namítnout, že je to dáno velikostí těchto obcí, nicméně s takovými Orličkami na úpatí Suchého vrchu, které návštěvníkům nabízí leda místní Konzum a několik málo chalupářů, toho ví Google poměrně dost včetně kompletního mapového a adresního pokrytí.

Cenzurovaný Pablo Picasso

Jistě, doposud jsem psal pouze o obcích s věru expresivními názvy, pokud ale nasadím vážnější notu, je třeba konstatovat, že do našeptávače se ze zcela identického důvodu nedostal ani Pablo Picasso. Ironií osudu v našeptávači přirozeně chybí i Picasa, správce fotografií od Googlu.

Snad je to ale vše jenom výjimka, takové hlasové vyhledávání pomocí Googlu v Androidu, nebo iPhonu totiž naopak funguje excelentně i u těch nejošklivějších slov, které jste se v životě opovážili vyslovit a ke všemu bravurně funguje i našeptávač. Ne, nesmějte se, anglické hlasové vyhledávání s tímto mělo na Androidu dlouhé roky převeliké problémy, autocenzura byla totiž nastavena natolik přísně, že jste si nemohli v telefonu hlasem vyhledat ani to, co je předmětem studia přírodovědy na středoevropských základních školách.

Pro inspiraci se podívejte také na bleskovku o černé listině anglických slovíček v Google Instantu.

29 komentářů

Nejnovější komentáře

  • pawell455 5. 11. 2010 13:32:02
    Vaše problémy bych chtěl mít...
  • jehoVista 1. 11. 2010 22:14:05
    Copak Sukacka, ale Cikanov!
  • Miloš Zikmund 1. 11. 2010 19:39:29
    Ale jó, překládá, jen tam nesmíš napsat oba názvy naráz, ale každé zvlášť...

Určitě si přečtěte


Deset tipů, jak ovládnout Google: Vyhledávejte jako mistři

Deset tipů, jak ovládnout Google: Vyhledávejte jako mistři

** Vyhledávače jsou natolik dobré, že si poradí i s frází v běžné češtině ** Pokud to ale nebude stačit, můžete vyzkoušet pokročilé funkce ** Vybrali jsme ty nejzajímavější

25.  9.  2016 | Jakub Čížek | 19

9 nejlepších programů na úpravu fotek. Placené i zdarma

9 nejlepších programů na úpravu fotek. Placené i zdarma

** Pro běžné úpravy fotek nemusíte pirátit Photoshop, vystačíte si s levnějšími programy ** Ceny pokročilých editorů se většinou vejdou do dvou tisíc korun ** Mnohdy stačí i bezplatné nástroje

26.  9.  2016 | Stanislav Janů | 50

Aby byl signál a internet všude: jak fungují a kde jsou schované antény operátorů

Aby byl signál a internet všude: jak fungují a kde jsou schované antény operátorů

** Základnové stanice BTS mobilních operátorů zdaleka nejsou jen typické kovové stožáry ** Podívejte se na některé nevšední instalace ** Dozvíte se, z čeho se moderní BTS skládá a jak funguje

28.  9.  2016 | David Polesný | 29

Týden Živě: Zvyknou si Češi platit paušál za software?

Týden Živě: Zvyknou si Češi platit paušál za software?

** Zoner vypustil do světa nové Photo Studio. Je za paušál. ** HP nechce neoficiální inkoust ** Koutek časopisu Computer

25.  9.  2016 | Časopis Computer | 65

Pojďme programovat elektroniku: Vyrobím si z drobných součástek vlastní mikropočítač za pár kaček

Pojďme programovat elektroniku: Vyrobím si z drobných součástek vlastní mikropočítač za pár kaček

** Můžete si koupit třeba desku Arduino Uno ** Anebo si složíte celý mikropočítač sami ** Je to snadné jako facka

27.  9.  2016 | Jakub Čížek | 26