Google: vesmír v databázi

Ještě tři sta let a máme celý svět v databázi – říká Google. Je jenom otázkou, jestli právě to je pro civilizaci tím nejdůležitějším.

„Spočítali jsme si, že na zeměkouli existuje zhruba pět milionů terabytů informací; z toho je jich jen asi 170 indexovaných. Provedli jsme pár výpočtů a zjistili jsme, že se dá očekávat, že všechno informační bohatství světa bude indexováno (tj. zařazeno v prohledávatelných databázích) asi za tři sta let,“ pravil Eric Schmidt, generální ředitel společnosti Google. Odpovídal tak na dotaz, jak dlouho bude ještě jeho firmě trvat, než splní svůj cíl.

Bude asi vhodné trochu si kuriózně podané číslo zpřístupnit. Přesně matematicky řečeno, pět milionů terabytů se správně řekne pět exabyte, a je to nějakých 25 000 000 000 000 000 000 000 bitů. Tolika nul se zase tak moc neděsme. Jestli se už dnes dá pořídit počítač s terabajtovým úložištěm (za dva tři roky se budou takové počítače prodávat celkem běžně mezi výkonnými desktopy), pak to znamená, že k uložení současně indexovaného informačního bohatství světa stačí pouhých 170 takových počítačů.

Tedy nic nepředstavitelného. Ovšem k uložení veškerého informačního bohatství světa by bylo potřeba 5 milionů těchto počítačů, a to už se jistě představuje hůře.

Informační záplava

Budiž – kdo by to měl mít lépe spočítané než lidé u Google. Jenomže jde tady skutečně o možnost „zaindexovat“ všechno, co kdo kdy řekl, vyfotil, napsal… a uložil? To, s čím se dnes potýká každý, kdo vyhledává něco na internetu, není nedostatek informací. Ale naopak jejich přebytek, informační glut, přesycení, záplava.

Žádáte-li informaci, vyhledávač vám sdělí, že na váš dotaz má asi tak pět milionů odpovědí, které vyhovují zadání. Zdá se, že ty „lepší“ odpovědi jsou na začátku a ty horší vzadu. Avšak kdo posoudí, která odpověď je vlastně lepší a která horší?

Byla to právě firma Google, která udělala na internetu malou díru do světa svým novým výpočtem relevance (tzv. page rank). Ovšem stejně jako u předchozích vyhledávačů ztratila časem tato metoda na půvabu a dokonalosti. Zejména tím, jak si tvůrci stránek osvojili metody umělého vylepšování relevance své stránky právě pro vyhledávání přes Google.

Hledání relevance je dnes „hra na četníky a zloděje“ – vylepšení algoritmu je následováno nalezením metody, kterak i vylepšený algoritmus obelstít. A i kdybychom zůstali u původního smyslu page ranku, tedy zjednodušeně řečeno „nejlepší stránka je ta nejpopulárnější“ (ta nejčastěji odkazovaná a navštěvovaná), vidíme, že toto není správná odpověď. To, že je McDonald´s nejčastěji navštěvovanou a nejčastěji zmiňovanou restaurací světa, vůbec neznamená, že je tou nejlepší. Možná právě naopak.

Google page rank je zejména pro malé weby (které se neopírají o velké mediální vlastníky nebo schopnost investovat do vlastní reklamy) jediným motorem návštěvnosti. Google vlastně odvádí návštěvníky na nejpopulárnější stránky, protože ty málo populární se zobrazí někde na druhé či třetí straně vyhledávání (kde po nich ani pes neštěkne). A tak ještě více pomáhá zvýrazňovat rozdíl mezi velkými a malými („bohatými a chudými“) na internetu, a to ne zrovna jánošíkovsky.

Nebudeme činit zlo

Ano, to je ta firma, která má ve firemním štítu slogan, že nebude činit zlo. Tím se pěkně vracíme k dalšímu výroku Erica Schmidta z téže konference pro velké inzerenty: technologie nejsou ani zlé, ani dobré, jsou neutrální. Přísně vzato má pravdu, protože atributy typu zlý, hodný nebo svobodný lze přiřazovat pouze živým bytostem. Cítíme však, že dnešní technologie už dosahují tak vysoké míry sofistikovanosti, komplexnosti a někdy i autonomie, že by k nim člověk neměl přistupovat jako k „motyce“, ale, řekněme, alespoň jako k domácímu zvířátku.

Firma Google se svými službami – kam nepatří jen jeho proslulý fulltextový vyhledávač – opravdu způsobila krok, možná i malý skok v tom, jak snadný je přístup lidstva k informacím. Cíl cesty je ale stále v nedohlednu a nespočívá podle mého názoru v tom, kolik terabytů se ještě podaří zaindexovat.

Klíčová slova jako slabina

Největší slabinou vyhledávání, která se nezměnila od prvních vyhledávačů někdy před deseti lety, je to, že se stále a pouze využívá institutu tzv. klíčových slov. Má-li člověk dotaz (zformulovaný v hlavě například jako pěkně dlouhou rozvitou větu), musí jej do vyhledávacího políčka osekat do několika klíčových slov. Ta pak „vyštěkne“ jako neandrtálec – a odpovědi tomu často odpovídají.

Chce-li například získat recept na dietní, avšak výživné a chutné jídlo vařené pouze s využitím zeleniny, musí jej do vyhledávače redukovat do povelů hodných robota Emila: „zelenina – recept – dietní – jídlo“. Nebo něco podobně obveselujícího.

To ani nehovořím o tom, že ideálním řešením není vyhledávání, ale odpovídání. Mě jako uživatele ani tak nezajímá, co je na které stránce, já chci najít odpověď – recept na zeleninové jídlo. Ať si to vyhledávač nalezne, kde chce. A ať z tisíců nalezených stránek připraví přesnou a správnou odpověď.

Je jasné, jak daleko se ještě Google od svého cíle nachází. A ostatně to nemusí vůbec být tato firma - nemylme se v tom, že Google má nějakou garantovanou technologickou převahu nad konkurenty. Nebude potřeba čekat tři sta let – jsem přesvědčen, že už příští roky nám v tomto směru připraví nejedno zajímavé překvapení.

Diskuze (59) Další článek: Společnost Hewlett-Packard stahuje 135 tisíc baterií do notebooků

Témata článku: Vesmír, Google, Astronomie, Eric Schmidt, Erica, McDonald's, Emily, Technologická převaha, Svět motorů, Zelenina, Relevance, Povel, Malý skok, Malá informace, Předchozí návštěvník, Google+, Neandrtálec, Zajímavé překvapení, Malé úložiště, Hodný robot, Schmidt, První vyhledávač, Nejlepší stránka


Určitě si přečtěte

Zorin OS 15: Vyzkoušejte další hezký a nenáročný linux pro mamku a taťku

Zorin OS 15: Vyzkoušejte další hezký a nenáročný linux pro mamku a taťku

** Ačkoliv je grafických linuxů plný internet, stále vládnou Windows ** Jeden z nich se jmenuje Zorin OS a nedávno se dočkal aktualizace ** Dělají jej dva kluci z Irska a je fakt hezký

Jakub Čížek | 115

Biblická potopa Česka: Jak bychom dopadli, kdyby nás zatopil oceán

Biblická potopa Česka: Jak bychom dopadli, kdyby nás zatopil oceán

** Představte si biblickou potopu ** Nejprve zaniknou Děčín a Břeclav, pak i Brno a Praha ** Hlavním městem se stane Jihlava a zbytky Čechů přežijí na Kvildě

Jakub Čížek | 92

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

** Za neúspěchem Microsoftu v mobilech stojí i Windows 8 ** Microsoft pozdě naskočil do rozjetého vlaku ** Uživatelé neměli zásadní důvody, proč přejít

Karel Kilián | 138

Google Coral: Raspberry Pi s čipem, který zpracuje 4 biliony operací za sekundu

Google Coral: Raspberry Pi s čipem, který zpracuje 4 biliony operací za sekundu

** Je to velké jako Raspberry Pi ** Ale je to až o několik řádů rychlejší ** Dorazil nám exotický Google Coral s akcelerátorem Edge TPU

Jakub Čížek | 18

Windows 10 podle našich čtenářů: Poslali jste nám skoro 300 nápadů, jak je vylepšit

Windows 10 podle našich čtenářů: Poslali jste nám skoro 300 nápadů, jak je vylepšit

** Microsoft aktualizuje Windows 10 dvakrát ročně ** Jenže praktických novinek už není tolik jako dříve ** Poslali jste nám skoro 300 tipů, co by se měly Desítky ještě naučit

Jakub Čížek | 139


Aktuální číslo časopisu Computer

Megatest 20 procesorů

Srovnání 15 True Wireless sluchátek

Vyplatí se tisknout fotografie doma?

Vybíráme nejlepší základní desky