Na kávičce s Google aneb známe tajemství vyhledávání

Česko navštívil Douglas Merrill, viceprezident Google pro vývoj. Včerejší dopoledne věnoval besedě s brněnskými novináři.
Na kávičce s Google aneb známe tajemství vyhledávání

Viceprezident Google pro vývoj Douglas Merrill si počátkem tohoto týdne udělal čas na návštěvu Prahy. V původním plánu jeho cesty byla pouze pondělní přednáška na pražském ČVUT, české pobočce firmy se však podařilo přesvědčit jej, aby zůstal o den déle a kromě úterní přednášky na brněnsnkém VUT věnoval několik desítek minut i komornímu setkání s brněnskými odbornými novináři.

Netřeba říkat, že přítomnost Douglase Merrilla byla dobrou motivací pro ranní vstávání. Douglas, vzděláním sociální vědec, nastoupil do Google v roce 2003, když předtím pracoval mj. u společností RAND či Price Waterhouse. Dnes je jedním z více než dvou desítek viceprezidentů společnosti. Jakkoli dvoumístná suma lidí ve stejné funkci nepůsobí příliš exkluzivně, nestává se každý den, aby někdo takto obeznámený s fungováním jedné z nejúspěšnějších firem v oboru informačních technologií přijel do Česka a podělil se o své zkušenosti. Jaké je tajemství vyhledávání?

Vezměme to pěkně postupně

Jak jinak projít internetovým vyhledáváním a jeho zákulisím, než chronologicky. Dávno pryč jsou doby, kdy byl internet tak malý, že vyhledávač (či spíše katalog) zvládla vytvářet skupina lidí ručně. Dnes je v indexu Googlu mnoho miliard stránek, vyhledávání tedy musí být automatizované. Datovou velikost tohoto objemu webů mimochodem neznáme, jde prý o obchodní tajemství. Na odpověď na otázku týkající se velikosti internetu si tak musíme ještě počkat.

Když Sergej Brin a Larry Page před zhruba deseti lety zakládali Google, jistě ani ve svých nejdivočejších snech netušili, co se z jejich malého projektu vyvine. Google je obrovským ekonomickým i technologickým úspěchem, přestože Douglas Merrill byl na včerejší besedě polichocen srovnáním s Microsoftem, který je násobně větší, ale také starší korporací.

Nelze-li moderní vyhledávání realizovat ručně, musí nastoupit automaty. Podle údajů Googlu se každý měsíc změní přibližně deset procent všech internetových stránek. O těchto změnách samozřejmě musí dobrý vyhledávač vědět. Popisování funkčnosti Google crawleru by na stránkách IT magazínu bylo mlácením prázdné slámy. Mnohem zajímavější tudíž je, že Google považuje samotné prohledávání webu za tu jednodušší část své práce. Mnohem složitější totiž je zasadit informace do správného kontextu, poskytnout uživateli relevantní výsledky.

Pokud jste někdy sledovali čas, který Google zabere vyhledávání výsledků, asi jste byli překvapeni obrovskou rychlostí celého procesu. Aby ne. Průměrná rychlost vyhledání odpovědi na dotaz je 0,4 vteřiny.

Klepněte pro větší obrázek

Vyhledávač musí odpovídat v mém světě a v žádném jiném

Vyhledávání musí být lokalizované a to hned ve dvou rovinách. Za prvé jde o prostou lokalizaci rozhraní služby. Google je v současnosti přeloženo do zhruba stovky světových jazyků. V češtině je zatím jedenáct produktů či služeb (online i desktopových), přičemž každý měsíc přibývá průměrně jedna. Toto tempo by společnost ráda udržela i v nejbližší budoucnosti.

Druhou rovinou lokalizace vyhledávání je jeho relevance pro místní podmínky v lokaci uživatele. Google přikládá místně relevantnímu vyhledávání vysokou důležitost. Na základě analýz dotazů, odpovědí a webů jsou stroje Google schopny rozhodnout, jaká sada výsledků bude relevantní pro jakého uživatele. Douglas Merrill zmínil pro příklad dotaz football. Google pro něj v USA vrací jiné výsledky než v ČR. Čistě proto, že průměrný Američan tímto pojmem zřejmě myslí „nudnou hru obrněnců s šišatým míčem“. Co jím může myslet průměrný Čech, je nasnadě.

S lokalizovanou relevancí vyhledávání pak souvisí i známé opravy zadaných dotazů. Čtenář jistě zná situaci, kdy udělá ve vyhledávacím dotazu například překlep. Google vrátí výsledky s daným dotazem, avšak ujistí se, zda uživatel neměl v úmyslu ptát se na nějaké podobné slovo. Pokud jste si někdy mysleli, že toto porovnání vychází z nějakého statického slovníku, spletli jste se. O vše se opět stará automat. Analyzuje dotazy uživatelů a četnost výskytů daných řetězců na webových stránkách. Princip je do značné míry podobný známému ověřování gramatiky prostřednictvím Google, kdy uživatel zadá slovo, jehož správnou gramatickou podobou si není jist, a za správnou zvolí tu možnost, pro níž vyhledávač vrátí více výsledků. Stejným principem nakládá Google i s českou diakritikou a dalšími speciálními znaky.

Klepněte pro větší obrázek

Mimochodem, aktuálně nejhledanějším řetězcem v ČR je Veronika Fasterová, v první desítce je pak hned dvakrát zastoupena reality show Vyvolení (s diakritikou i bez), najdeme zde ale i online hru Travian a další. Podle Douglasse Merrilla je první místo nějaké krásné ženy v žebříčcích nejhledanějších dotazů téměř pravidlem.

Budoucnost Google, budoucnost vyhledávání

Douglas Merrill byl překvapen tím, jak je možné, že v ČR máme více mobilních telefonů než obyvatel. Nedokázal pochopit, proč mnozí nosíme hned dva kousky těchto zařízení. Možná i tato skutečnost jej utvrdila v přesvědčení, že budoucnost Google je v mobilních zařízeních. Nejen v přenosu současných služeb na mobilní platformy, ale ve službách zcela nových či se zcela novým přístupem. Vyloučena tak není ani možnost, že někdy v budoucnu budeme moci dotazy pro vyhledávač diktovat svému mobilnímu telefonu.

Jedinou možnou cestou Googlu v blízké i vzdálenější budoucnosti je cesta k lokalizaci, k oběma jejím podobám zmíněným v předchozí kapitole. Vyhledávače musí být lokalizované. Konkurenční výhodou není ani tak velikost indexu stránek, rozhodující je relevance a to relevance pro jednoho každého uživatele v jednom každém státě světa.

Třetí vizí možné budoucnosti, jíž nám Douglas Merrill nastínil, byla cesta Googlu k vyhledávání ve všech zdrojích informací. Procházení weby či knihami jistě nebude brzy dostatečné. Možných dalších zdrojů je přitom nepřeberné množství. Komu by se nelíbilo vyhledávat videa na základě detekce obličejů jejich aktérů, jak to navrhoval jeden z kolegů novinářů?

Tros/šky z dotazů

Po krátké Douglasově prezentaci jsme dostali prostor pro několik otázek. Ty se samozřejmě netýkaly jediného tématu, ani odpovědi na ně nebyly tak vydatné, aby každá vyživila svou vlastní kapitolu v tomto článku. Rozhodně však stojí, alespoň na závěr, za zaznamenání.

Lokální konkurence

Douglas vyzdvihl potřebu lokální konkurence. Jmenovitě pro Českou republiku pak pochválil Seznam.cz, který považuje za velmi dobrý. Jak se dalo čekat, následovalo stručné vysvětlení přínosu konkurenčního prostředí.

Soukromí uživatelů

Google-totalita na straně jedné a pečlivá péče o soukromá data na straně druhé. Google zaměřuje veškeré své jednání na uživatele, který má pochopitelně naprostou svobodu rozhodování včetně svobody smazání osobních dat u Googlu a odchodu ke konkurenčním službám. Google samo promazává databáze dotazů pro vyhledávač každých osmnáct měsíců. Uživatelská cookies mají platnost čtyřiadvacet měsíců.

Autorská práva

Dotaz na YouTube, Google Books a autorská práva nemohl nezaznít. Podle Merrillova názoru mají lidé právo vidět či číst umělecká díla, za něž jejich autor již dostal zaplaceno. Na druhou stranu autoři mají právo mít kontrolu nad šířením své práce. Z toho důvodu nemá Google žádný problém účastnit se s držiteli autorských práv soudních sporů - zřejmě v očekávání nějakého průlomového precedenčního rozsudku. Google Books, služba za níž je společnost Google na jedném místě velebena, na jiném stejnými firmami žalována, podle statistik ve skutečnosti zvýšila prodeje knih. Podobně by to mohlo dopadnout i s YouTube. YouTube, mimochodem, bude brzy integrováno do vyhledávání v Googlu.

Témata článku: Google, Internet, Larry Page, Mobilní vyhledávání, Reality Show, Komorní setkání, Obrněnci, Správné fungování, Douglas, Books, Google Books, Vyhledávání, Dobrá cesta, Jediná cesta, Rand, Crawler, Pražské ČVUT, Tajemství, Automaty, Konkurenční Google, Stejný princip, Relevance, Dobrý výsledek, Stejný dotaz, Mobilní YouTube

Určitě si přečtěte

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

** Po půl roce je tu další aktualizace Windows ** A opět přináší hlavně hromadu drobných kosmetických vylepšení ** Podívali jsme se na ty nejzajímavější

17.  10.  2017 | Jakub Čížek | 176

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

** Fluent Design je vzhled, do kterého postupně Microsoft převleče celý systém ** Staví na průhlednosti a velkých plochách ** Do Windows 10 se z části dostane už zítra při vydání podzimní aktualizace

16.  10.  2017 | Stanislav Janů | 154

Nejlepší optické iluze: Z toho vám půjde hlava kolem

Nejlepší optické iluze: Z toho vám půjde hlava kolem

** Mozek se nechá snadno ošálit, a to mnoha způsoby ** Podívejte se na několik nejlepších optických iluzí ** Iluze dokazují, že vnímání reality může být značně zkreslené

16.  10.  2017 | Vojtěch Malý


Aktuální číslo časopisu Computer

Nový seriál o programování elektroniky

Otestovali jsme 17 bezdrátových sluchátek

Jak na nákup vánočních dárků ze zahraničí

4 tankové tiskárny v přímém souboji