reklama

Google: vesmír v databázi

Ještě tři sta let a máme celý svět v databázi – říká Google. Je jenom otázkou, jestli právě to je pro civilizaci tím nejdůležitějším.

„Spočítali jsme si, že na zeměkouli existuje zhruba pět milionů terabytů informací; z toho je jich jen asi 170 indexovaných. Provedli jsme pár výpočtů a zjistili jsme, že se dá očekávat, že všechno informační bohatství světa bude indexováno (tj. zařazeno v prohledávatelných databázích) asi za tři sta let,“ pravil Eric Schmidt, generální ředitel společnosti Google. Odpovídal tak na dotaz, jak dlouho bude ještě jeho firmě trvat, než splní svůj cíl.

Bude asi vhodné trochu si kuriózně podané číslo zpřístupnit. Přesně matematicky řečeno, pět milionů terabytů se správně řekne pět exabyte, a je to nějakých 25 000 000 000 000 000 000 000 bitů. Tolika nul se zase tak moc neděsme. Jestli se už dnes dá pořídit počítač s terabajtovým úložištěm (za dva tři roky se budou takové počítače prodávat celkem běžně mezi výkonnými desktopy), pak to znamená, že k uložení současně indexovaného informačního bohatství světa stačí pouhých 170 takových počítačů.

Tedy nic nepředstavitelného. Ovšem k uložení veškerého informačního bohatství světa by bylo potřeba 5 milionů těchto počítačů, a to už se jistě představuje hůře.

Informační záplava

Budiž – kdo by to měl mít lépe spočítané než lidé u Google. Jenomže jde tady skutečně o možnost „zaindexovat“ všechno, co kdo kdy řekl, vyfotil, napsal… a uložil? To, s čím se dnes potýká každý, kdo vyhledává něco na internetu, není nedostatek informací. Ale naopak jejich přebytek, informační glut, přesycení, záplava.

Žádáte-li informaci, vyhledávač vám sdělí, že na váš dotaz má asi tak pět milionů odpovědí, které vyhovují zadání. Zdá se, že ty „lepší“ odpovědi jsou na začátku a ty horší vzadu. Avšak kdo posoudí, která odpověď je vlastně lepší a která horší?

Byla to právě firma Google, která udělala na internetu malou díru do světa svým novým výpočtem relevance (tzv. page rank). Ovšem stejně jako u předchozích vyhledávačů ztratila časem tato metoda na půvabu a dokonalosti. Zejména tím, jak si tvůrci stránek osvojili metody umělého vylepšování relevance své stránky právě pro vyhledávání přes Google.

Hledání relevance je dnes „hra na četníky a zloděje“ – vylepšení algoritmu je následováno nalezením metody, kterak i vylepšený algoritmus obelstít. A i kdybychom zůstali u původního smyslu page ranku, tedy zjednodušeně řečeno „nejlepší stránka je ta nejpopulárnější“ (ta nejčastěji odkazovaná a navštěvovaná), vidíme, že toto není správná odpověď. To, že je McDonald´s nejčastěji navštěvovanou a nejčastěji zmiňovanou restaurací světa, vůbec neznamená, že je tou nejlepší. Možná právě naopak.

Google page rank je zejména pro malé weby (které se neopírají o velké mediální vlastníky nebo schopnost investovat do vlastní reklamy) jediným motorem návštěvnosti. Google vlastně odvádí návštěvníky na nejpopulárnější stránky, protože ty málo populární se zobrazí někde na druhé či třetí straně vyhledávání (kde po nich ani pes neštěkne). A tak ještě více pomáhá zvýrazňovat rozdíl mezi velkými a malými („bohatými a chudými“) na internetu, a to ne zrovna jánošíkovsky.

Nebudeme činit zlo

Ano, to je ta firma, která má ve firemním štítu slogan, že nebude činit zlo. Tím se pěkně vracíme k dalšímu výroku Erica Schmidta z téže konference pro velké inzerenty: technologie nejsou ani zlé, ani dobré, jsou neutrální. Přísně vzato má pravdu, protože atributy typu zlý, hodný nebo svobodný lze přiřazovat pouze živým bytostem. Cítíme však, že dnešní technologie už dosahují tak vysoké míry sofistikovanosti, komplexnosti a někdy i autonomie, že by k nim člověk neměl přistupovat jako k „motyce“, ale, řekněme, alespoň jako k domácímu zvířátku.

Firma Google se svými službami – kam nepatří jen jeho proslulý fulltextový vyhledávač – opravdu způsobila krok, možná i malý skok v tom, jak snadný je přístup lidstva k informacím. Cíl cesty je ale stále v nedohlednu a nespočívá podle mého názoru v tom, kolik terabytů se ještě podaří zaindexovat.

Klíčová slova jako slabina

Největší slabinou vyhledávání, která se nezměnila od prvních vyhledávačů někdy před deseti lety, je to, že se stále a pouze využívá institutu tzv. klíčových slov. Má-li člověk dotaz (zformulovaný v hlavě například jako pěkně dlouhou rozvitou větu), musí jej do vyhledávacího políčka osekat do několika klíčových slov. Ta pak „vyštěkne“ jako neandrtálec – a odpovědi tomu často odpovídají.

Chce-li například získat recept na dietní, avšak výživné a chutné jídlo vařené pouze s využitím zeleniny, musí jej do vyhledávače redukovat do povelů hodných robota Emila: „zelenina – recept – dietní – jídlo“. Nebo něco podobně obveselujícího.

To ani nehovořím o tom, že ideálním řešením není vyhledávání, ale odpovídání. Mě jako uživatele ani tak nezajímá, co je na které stránce, já chci najít odpověď – recept na zeleninové jídlo. Ať si to vyhledávač nalezne, kde chce. A ať z tisíců nalezených stránek připraví přesnou a správnou odpověď.

Je jasné, jak daleko se ještě Google od svého cíle nachází. A ostatně to nemusí vůbec být tato firma - nemylme se v tom, že Google má nějakou garantovanou technologickou převahu nad konkurenty. Nebude potřeba čekat tři sta let – jsem přesvědčen, že už příští roky nám v tomto směru připraví nejedno zajímavé překvapení.

Témata článku: Google, Vesmír, Astronomie, Eric Schmidt, Relevance, Schmidt, Emily, Erica

59 komentářů

Nejnovější komentáře

  • Martinq 8. 11. 2005 16:43:47
    Ad: Mna uci sam Boh.
    Ja mam zase v hlave vysielacku ktoru riadi Fidel...
  • Lubos 21. 10. 2005 12:45:03
    K tomu, ze podla teba je kres. viera dogmaticka: ty hovoris o katolickej...
  • Lubos 21. 10. 2005 12:28:05
    Naozaj, uz tu radsej nechcem moc pisat, pretoze toto nie je priestor na...
reklama
Určitě si přečtěte

Vybíráte herní periferii nebo hardware? Pak zapomeňte na nálepku Gaming

Vybíráte herní periferii nebo hardware? Pak zapomeňte na nálepku Gaming

** Herní hardware se od toho běžného často liší jen vzhledem ** Při výběru stále nezapomínejte na základní parametry ** Poradíme jak vybrat herní hardware i periferie

20.  2.  2017 | Stanislav Janů | 36

10 nejhorších produktů v historii Microsoftu

10 nejhorších produktů v historii Microsoftu

20.  2.  2017 | Karel Javůrek | 133

Pojďme programovat elektroniku: Žádný bastlíř se neobejde bez armády švábů

Pojďme programovat elektroniku: Žádný bastlíř se neobejde bez armády švábů

** Každý bastlíř se po čase neobjede bez armády švábů ** Dnes si některé z nich vyzkoušíme ** Třeba zázračný posuvný registr

19.  2.  2017 | Jakub Čížek | 39

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

** AMD uvedlo první tři procesory Ryzen 7 ** Všechny budou pracovat s osmi jádry a šestnácti vlákny ** Na pulty obchodů se dostanou už za týden

22.  2.  2017 | Stanislav Janů | 131

EU se děsí Windows 10. Prý o nás vědí až příliš. Microsoft chystá změny

EU se děsí Windows 10. Prý o nás vědí až příliš. Microsoft chystá změny

** Evropští úředníci chtějí, aby byly Desítky transparentnější ** Microsoft od jara skutečně chystá změny ** Ochráncům soukromí to ale nestačí

21.  2.  2017 | Jakub Čížek | 218

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

** Microsoft do svých telefonů integroval desktopové prostředí ** Moc to ale nevyšlo, chyběl pořádný výkon ** Teď to zkoušejí ex-googleři s Remix Singularity

23.  2.  2017 | Jakub Čížek | 73


Aktuální číslo časopisu Computer

Supertéma o počítačové bezpečnosti

AMD Ryzen přichází

Velké testy kinoprojektorů a levných špuntových sluchátek

Příslušenství do USB-C

reklama
reklama