Google: vesmír v databázi

Ještě tři sta let a máme celý svět v databázi – říká Google. Je jenom otázkou, jestli právě to je pro civilizaci tím nejdůležitějším.

„Spočítali jsme si, že na zeměkouli existuje zhruba pět milionů terabytů informací; z toho je jich jen asi 170 indexovaných. Provedli jsme pár výpočtů a zjistili jsme, že se dá očekávat, že všechno informační bohatství světa bude indexováno (tj. zařazeno v prohledávatelných databázích) asi za tři sta let,“ pravil Eric Schmidt, generální ředitel společnosti Google. Odpovídal tak na dotaz, jak dlouho bude ještě jeho firmě trvat, než splní svůj cíl.

Bude asi vhodné trochu si kuriózně podané číslo zpřístupnit. Přesně matematicky řečeno, pět milionů terabytů se správně řekne pět exabyte, a je to nějakých 25 000 000 000 000 000 000 000 bitů. Tolika nul se zase tak moc neděsme. Jestli se už dnes dá pořídit počítač s terabajtovým úložištěm (za dva tři roky se budou takové počítače prodávat celkem běžně mezi výkonnými desktopy), pak to znamená, že k uložení současně indexovaného informačního bohatství světa stačí pouhých 170 takových počítačů.

Tedy nic nepředstavitelného. Ovšem k uložení veškerého informačního bohatství světa by bylo potřeba 5 milionů těchto počítačů, a to už se jistě představuje hůře.

Informační záplava

Budiž – kdo by to měl mít lépe spočítané než lidé u Google. Jenomže jde tady skutečně o možnost „zaindexovat“ všechno, co kdo kdy řekl, vyfotil, napsal… a uložil? To, s čím se dnes potýká každý, kdo vyhledává něco na internetu, není nedostatek informací. Ale naopak jejich přebytek, informační glut, přesycení, záplava.

Žádáte-li informaci, vyhledávač vám sdělí, že na váš dotaz má asi tak pět milionů odpovědí, které vyhovují zadání. Zdá se, že ty „lepší“ odpovědi jsou na začátku a ty horší vzadu. Avšak kdo posoudí, která odpověď je vlastně lepší a která horší?

Byla to právě firma Google, která udělala na internetu malou díru do světa svým novým výpočtem relevance (tzv. page rank). Ovšem stejně jako u předchozích vyhledávačů ztratila časem tato metoda na půvabu a dokonalosti. Zejména tím, jak si tvůrci stránek osvojili metody umělého vylepšování relevance své stránky právě pro vyhledávání přes Google.

Hledání relevance je dnes „hra na četníky a zloděje“ – vylepšení algoritmu je následováno nalezením metody, kterak i vylepšený algoritmus obelstít. A i kdybychom zůstali u původního smyslu page ranku, tedy zjednodušeně řečeno „nejlepší stránka je ta nejpopulárnější“ (ta nejčastěji odkazovaná a navštěvovaná), vidíme, že toto není správná odpověď. To, že je McDonald´s nejčastěji navštěvovanou a nejčastěji zmiňovanou restaurací světa, vůbec neznamená, že je tou nejlepší. Možná právě naopak.

Google page rank je zejména pro malé weby (které se neopírají o velké mediální vlastníky nebo schopnost investovat do vlastní reklamy) jediným motorem návštěvnosti. Google vlastně odvádí návštěvníky na nejpopulárnější stránky, protože ty málo populární se zobrazí někde na druhé či třetí straně vyhledávání (kde po nich ani pes neštěkne). A tak ještě více pomáhá zvýrazňovat rozdíl mezi velkými a malými („bohatými a chudými“) na internetu, a to ne zrovna jánošíkovsky.

Nebudeme činit zlo

Ano, to je ta firma, která má ve firemním štítu slogan, že nebude činit zlo. Tím se pěkně vracíme k dalšímu výroku Erica Schmidta z téže konference pro velké inzerenty: technologie nejsou ani zlé, ani dobré, jsou neutrální. Přísně vzato má pravdu, protože atributy typu zlý, hodný nebo svobodný lze přiřazovat pouze živým bytostem. Cítíme však, že dnešní technologie už dosahují tak vysoké míry sofistikovanosti, komplexnosti a někdy i autonomie, že by k nim člověk neměl přistupovat jako k „motyce“, ale, řekněme, alespoň jako k domácímu zvířátku.

Firma Google se svými službami – kam nepatří jen jeho proslulý fulltextový vyhledávač – opravdu způsobila krok, možná i malý skok v tom, jak snadný je přístup lidstva k informacím. Cíl cesty je ale stále v nedohlednu a nespočívá podle mého názoru v tom, kolik terabytů se ještě podaří zaindexovat.

Klíčová slova jako slabina

Největší slabinou vyhledávání, která se nezměnila od prvních vyhledávačů někdy před deseti lety, je to, že se stále a pouze využívá institutu tzv. klíčových slov. Má-li člověk dotaz (zformulovaný v hlavě například jako pěkně dlouhou rozvitou větu), musí jej do vyhledávacího políčka osekat do několika klíčových slov. Ta pak „vyštěkne“ jako neandrtálec – a odpovědi tomu často odpovídají.

Chce-li například získat recept na dietní, avšak výživné a chutné jídlo vařené pouze s využitím zeleniny, musí jej do vyhledávače redukovat do povelů hodných robota Emila: „zelenina – recept – dietní – jídlo“. Nebo něco podobně obveselujícího.

To ani nehovořím o tom, že ideálním řešením není vyhledávání, ale odpovídání. Mě jako uživatele ani tak nezajímá, co je na které stránce, já chci najít odpověď – recept na zeleninové jídlo. Ať si to vyhledávač nalezne, kde chce. A ať z tisíců nalezených stránek připraví přesnou a správnou odpověď.

Je jasné, jak daleko se ještě Google od svého cíle nachází. A ostatně to nemusí vůbec být tato firma - nemylme se v tom, že Google má nějakou garantovanou technologickou převahu nad konkurenty. Nebude potřeba čekat tři sta let – jsem přesvědčen, že už příští roky nám v tomto směru připraví nejedno zajímavé překvapení.

Diskuze (59) | Společnost Hewlett-Packard stahuje 135 tisíc baterií do notebooků

Témata článku: Google, Vesmír, Astronomie, Eric Schmidt, Nejlepší stránka, Relevance, Povel, Malé úložiště, Svět motorů, Erica, Technologická převaha, Předchozí návštěvník, McDonald's, Google+, Emily, První vyhledávač, Malá informace, Schmidt

Určitě si přečtěte


Aktuální číslo časopisu Computer

Zachraňte nefunkční Windows

Jak nakupovat a prodávat kryptoměny

Otestovali jsme konvertibilní notebooky

Velký test 14 herních myší