Patnáct let s vyhledávači: Svět patří robotům

Když před 20 lety vznikl první WWW prohlížeč, na světě existovalo několik desítek zkušebních webových stránek. Dnes jsou jich miliardy a odkazuje na ně více než bilion webových adres.

Web už dávno není jen hromada poměrně uspořádaných souborů s příponou HTML, ale systém stovek miliard navzájem propojených adres. Podle loňské studie Jesse Alperta a Nissana Hajaje z Googlu se web každý den rozroste o neskutečné tři miliardy nových adres, samotný Google jich pak v červenci 2008 evidoval okolo jednoho bilionu. Jejich skutečný a absolutní počet ale nikdo díky obrovské fluktuaci nezná. Ostatně od chvíle, co jste nalistovali tuto stránku, na webu vznikl skoro milion nových odkazů. Stačilo k tomu pár nových komentářů, několik krátkých zpráviček na Twitteru, internetové zpravodajství a tisíce nových videí na YouTube.

Vyznat se tedy v současném bludišti World Wide Webu je stále složitější a bez vyhledávačů by to bylo prakticky nemožné. Microsoft nedávno spustil vylepšenou verzi Live Search pod atraktivnějším názvem Bing, Google ale zůstává nadále nepokořen. Češi si libují v tuzemském Seznamu, v Americe se zase těší velké popularitě Yahoo! a Čína má svůj Baidu.

bing.png  seznam.png  google.png  yahoo.png  baidu.png
Bing, Seznam, Google, Yahoo! a čínský Baidu

Ačkoliv dnes existují stovky okrajových vyhledávačů, globální trh už je poměrně konsolidovaný. Před patnácti lety tomu tak ale nebylo a Amerika posílala do světa jeden vyhledávač za druhým. Nikdo nebyl jasným vítězem ani poraženým po několik dlouhých let, než svět na sklonku milénia zažil první velkou internetovou krizi.

Věděli jste, že...
Věděli jste, že v roce 1993 bylo k internetu připojeno 1 776 000 počítačů a počet jeho uživatelů se pohyboval okolo 38 milionů? Dnes je na internetu společně s mobilními a kavárenskými uživateli podle některých odhadů až 1 500 000 000 lidí. K internetu je připojeno nejméně 650 milionů počítačů.

Generace katalogů

Vyhledávačů bylo potřeba již na samotném počátku; ten první zpracovával samotný Tim Berners-Lee. V praxi se jednalo o seznam organizací, které měly svou webovou prezentaci. Komercializace internetu v Americe tou dobou už ale běžela na plné obrátky, do hledáčku firem se dostal i web a Berners-Leeho seznamy vystřídaly první velké katalogové portály. Ty se svým způsobem nelišily od českých portálů z druhé poloviny devadesátých let, kterým tou dobou dominoval Seznam.

yahoo1997.png  seznam1996.png
Katalogové vyhledávače Yahoo! a český Seznam na začátku roku 1997

Koncept ručně plněného katalogu byl technologicky nenáročný a z počátku i dobře použitelný a důvěryhodný. Právě na katalogizovaném vyhledávání založili svůj byznys Jerry Yang a David Filo a na počátku roku 1994 spustili portál Yahoo!, který se na dlouhá léta stal standardem a modelem pro všechny ostatní portály. Zvláště americké katalogy zprvu žily z obrovské a nekritické popularity internetu 90. let, neměly tedy nouzi o skutečně movité investory.

Generace robotů

Zhruba ve stejné době, kdy Yang a Filo rozjížděli svůj Yahoo!, spatřil světlo světa první skutečný indexovací robot WebCrawler. Byl to tehdy naprosto přelomový koncept: drobný program využil propojení webů vzájemnými odkazy a začal jimi procházet. To sice až tak velká novinka nebyla, protože podobné systémy se již pár let před tím používaly na měření velikosti webu, WebCrawler ale jako první začal zaznamenávat i samotný obsah webových stránek, a nabídl tak první skutečný hypertextový vyhledávač.

webcrawler1996.png  altavista1996.png
Indexovací vyhledávače WebCrawler a kdysi velmi populární AltaVista na podzim roku 1996

Vyhledávače postavené na indexování celého webu se záhy rozrostly do rozsáhlých databází. Indexace zažila obrovský „boom“ a Amerika chrlila vyhledávače jako na běžícím pásu. V druhé polovině devadesátých let patřily ke špičce portály Excite, Lycos a legendární AltaVista, která po dlouhá léta podávala nejlepší možné výsledky a později začala jako první indexovat i obrázky a další multimediální obsah.

Web se ale nadále zvětšoval. V roce 1993 Matthew Gray z MIT do světa vypustil prvního statistického robota Wanderer, který měřil tehdejší stále malý web následujících několik let. Na začátku roku 1997 Wanderer prošel na 650 tisíc různých webových prezentací, celkový počet stránek se tak pohyboval v řádech několika desítek milionů. To se ale už začal rodit web i v zemích za bývalou železnou oponou, jeho popularita se šířila dál do Asie a autoři robotů si uvědomili, že jen zaznamenávat nestačí.

Jak seřadit web

S rostoucím internetem se rozšiřovaly i databáze vyhledávačů a výsledky bylo třeba nějak efektivně seřadit. Prakticky všechny tehdejší systémy řadily své výsledky podle počtu klíčových výrazů na webové stránce. Čím více jich obsahovala, tím vyšší byla její relevance, přičemž svou roli samozřejmě sehrálo i to, jestli bylo klíčové slovo součástí webové domény, nebo třeba meta informací v hlavičce HTML kódu stránky.

Tento poměrně jednoduchý systém se měl záhy dramaticky změnit. Prakticky od poloviny devadesátých let vznikaly na webu první experimenty, jež si kladly za cíl určit důležitost webové stránky nejen podle počtu klíčových slov. Jedním takovým byl i Rankdex, který bral v úvahu souvislost s ostatními stránkami. Jinými slovy pokud by na můj web odkazovalo dostatečné množství cizích webů, moje stránka by byla podle Rankdexu důležitá. Rankdex byl zajímavý projekt, skutečné realizace se ale nedočkal a brzy upadl v zapomnění.

Google generace

Zhruba ve stejné době, kdy Yanhong Li vyvíjel svůj Rankdex, Larry Page ze Stanfordu pracoval na podobném systému BackRub. Page si kladl za cíl vytvořit systém, který by jasně určil důležitost vzájemně propojených dokumentů ve velké databázi. A jelikož web byl na počátku roku 1996 už skutečně velmi rozsáhlou databází plnou dokumentů, použil jej jako zdroj dat pro svůj výzkum a ze svých univerzitních stránek vyslal společně se Sergeyem Brinem do světa sběrného robota. Díky kvalitní technické výbavě stanfordské univerzity dokázal BackRub během prvních pěti měsíců zaznamenat na 75 milionů adres a analyzovat 207 GB dat.

pagerank1.png
Čím více odkazů na můj web vede, tím vyšší mám PageRank (světlejší barva)

To už bylo dostatečné množství k tomu, aby mohl Page svou teorii ověřit v praxi. Řadící systém počítal vzájemné odkazy mezi weby. Pokud na určitý web odkazovalo velké množství dalších webů, dalo se očekávat, že bude pravděpodobně důležitější než stránky, které se těšily mnohem menšímu zájmu. Jelikož tyto odkazy vytvářeli lidé, Pageův systém měl našlápnuto k tomu, aby skutečně ohodnotil kvalitu webu z lidského hlediska. Autoři webových stránek by přeci neodkazovali na weby, které mají pochybnou kvalitu.

pagerank2.png
Zároveň ale platí, že můj PageRank zvyšují weby, které samy mají vysoké skóre,
proto web C má díky webu B vyšší PageRank než web E,
na který odkazují samé malé weby (Zdroj: Wikipedia)

Takzvaný PageRank vyjádřený číselnou hodnotou však byl ještě krapet složitější. Nezáviselo pouze na tom, kolik na web mířilo odkazů, ale i na tom, jaká byla kvalita stránek, ze kterých mířily. Pokud tedy na určitý web mířilo relativně málo odkazů, ale z velmi kvalitních webů, i tento web byl, matematicky vyjádřeno, kvalitní. Systém PagRank byl ve své podstatě poměrně jednoduchý, ale naprosto přelomový. BackRub se ověřil, Page a Brin jej spustili na nové adrese google.stanford.edu a jeho sláva brzy přerostla univerzitní kampus, Google totiž díky novému řazení podával mnohem kvalitnější výsledky hledání než konkurence.

google.png
Google v roce 1998

V září 1997 se Google přestěhoval na současnou doménu www.google.com a o rok později vznikla nová společnost Google Inc. v garáži jednoho z přátel v kalifornském Menlo Park. V témže roce si nechal Page svůj systém patentovat, jeho majitelem je však Stanfordská univerzita, která společnosti Google pouze prodala exkluzivní práva na využívání za necelé dva miliony akcií. To byl pro Stanford poměrně dobrý obchod, když je totiž univerzita v roce 2005 prodala, získala pohádkových 336 milionů amerických dolarů. Ovšem zaslouženě, bez jejich technických kapacit by Page s Brinem nikdy nedokázali otestovat svoji technologii v praxi. PageRank se v každém případě stal během následujících let inspirací pro řadící systémy prakticky u všech moderních vyhledávačů.

Věděli jste, že...
Věděli jste, že původní studie PageRanku je k dispozici v plném znění na webu, jelikož ji Larry Page patentoval pro svou mateřsko ualam mater? Americký patent 6,285,999 v původním znění Method for node ranking in a linked database najdete na webu Google Patents

Velká krize a konsolidace

Na přelomu nového milénia došel většině amerických internetových firem dech. Po několik let do nich totiž investoři čerpali obrovský kapitál, který se ovšem oproti původním předpokladům nevracel. Portály nevydělávaly, stále hledaly ten správný ekonomický model a krize záhy postihla i vyhledávače. Padaly jeden za druhým, skupovaly se navzájem a první roky 21. století přežila jen hrstka z nich.

Krizi v každém případě přečkal Yahoo! a začal pohlcovat oslabené firmy. Yahoo! byl a dodnes je jakýmsi protipólem Googlu, má za sebou totiž historii katalogu a portálu – svého vlastního indexovacího robota získal až v relativně nedávné době. V druhé polovině 90. let sice i on nabídl komplexní hypertextový vyhledávač, používal ale systémy třetích stran, a to včetně stále sílícího Googlu. A aby měl klid, jen co splaskla internetová bublina, koupil nejprve oslabenou společnost Inktomi a později Overture, do jejíhož portfolia spadala i legenda AltaVista. Díky získanému know-how mohl v roce 2004 konečně i Yahoo! vyslat do světa svého robota na úkor starého katalogového vyhledávače.

 msn1996.png  msn1999.png  msn2002.png 
MSN Search, předchudce Live Search a současného vyhledávače Bing

Podobný příběh jako Yahoo! zažil na poli vyhledávačů i Microsoft. Svůj první vyhledávač MSN Search představil až v roce 1998, nedisponoval ale svou technologií, tu zajistila nám už dobře známá Inktomi, což byla v druhé polovině devadesátých let skutečně jakási šedá eminence obrovského množství portálů a vyhledávačů – skoro jako dnes Google. Microsoft ve své historii vyzkoušel také vyhledávací systém od AltaVisty. Svého robota Microsoft představil až v roce 2005, a ten je už základem pozdějšího Live Search. Vzhledem k poměrně pozdnímu vstupu na trh nedokázal Microsoft nikdy tržně konkurovat velkým hráčům v oboru vyhledávání a tento segment pro něj ostatně byl spíše okrajový – doplňkový. S odchodem Billa Gatese se ale významně změnila strategie celé společnosti, která se nyní snaží vehementně dohnat ztráty na internetu svým balíkem služeb Windows Live a staronovým vyhledávačem Bing, který kontinuálně vychází z prvního robota MSNbot.

Okolo roku 2005 tak byl trh s indexovacími vyhledávači poměrně pročištěn; o většinu trhu se dnes dělí Google a Yahoo!. Zvláště na americkém trhu se ale těší velké popularitě z historických důvodů i mnoho katalogových vyhledávačů. A proměnil se i Google. Už to ani zdaleka není ten starý BackRub, ale systém několika desítek oborových vyhledávačů. A výrazně se změnil i systém řazení výsledků. Mnohokrát upravený PageRank je dnes pouze jedním ze dvou set faktorů pro řazení výsledků v databázi Googlu, jeho tak trochu magická moc ale funguje i nadále a spíše dnes určuje společenskou prestiž konkrétního webu.

Nic není stálé

Současný web obsahuje soubor prakticky všech lidských vědomostí. Pomalu se z něj stává univerzální informační médium, které v sobě integruje i elektronické verze tradičního tisku, rozhlasu a televize. Informace na webu však může mít také poměrně jepičí život – stačí smazat stránku, nezaplatit paušál za webový hosting a data se nenávratně stanou minulostí. Vzhledem k fluktuaci informací na webu tento jev ani zdaleka není ojedinělý, naopak se z něj v mnoha případech stala norma. Vedle dnes již klasických vyhledávačů tak vznikají i projekty, které si kladou za cíl ošálit čas.

internet_archive_registr.png
Archive.org: Seznam přístupů robota na titulní stránku Živě.cz

Tím nejstarším je Archive.org a jeho robot Wayback Machine, který zaznamenává kompletní podobu webových stránek v čase. Autoři jej za podpory společnosti Alexa spustili již v roce 1996, snadno v něm tedy najdete i podobu mnoha českých prehistorických webů. V roce 2006 databáze Archive.org čítaly neskutečné dva miliony gigabajtů zaznamenaných dat, přičemž každý měsíc se rozšířily o dalších 20 TB. Dnes je rychlost růstu s ohledem na velikost webu pravděpodobně mnohem větší. Takový malý Archive.org má ale i Česká republika. Každý majitel webových stránek se totiž může zaregistrovat do projektu WebArchiv, který realizuje Národní knihovna ve spolupráci z Moravskou zemskou knihovnou a Ústavem výpočetní techniky Masarykovy univerzity.

tucnacek.cz.png  webarchiv.png
Český WebArchiv je z internetu dostupný pouze pro zdroje, jejichž autoři s Knihovnou uzavřeli smlouvu
Ostatní zdroje jsou dostupné pouze z terminálu v pražském Klementinu
Prohlížeč achivovaných stránek obsahuje posuvník pro snadnou navigaci v čase

Asi nejslibnějším projektem poslední doby je ale tajemný Zoetrope. I když zatím existuje jen na papíře výzkumníků z Adobe, slibuje interaktivní procházení historie stránky přímo v k tomu určené aplikaci. Za pár let se tedy možná dočkáme ve webových prohlížečích zcela nového posuvníku, pomocí něhož si jen vybereme datum a rok a třeba i čas a zobrazí se nám přesná podoba stránky dejme tomu ze 14. ledna 2002. Naprosto se promění vyhledávání zpravodajských informací, vyhledávače si díky Zoetrope poradí s časovou souvislostí a web získá zcela nový rozměr.

Web se snaží předvídat

A s časem souvisí ještě jedna zajímavá vlastnost webu. Vzhledem k tomu, že je to ve své podstatě houba, která permanentně nasává informace, má určité globální sdílené vědomí. Toho svého času chtěli využít třeba akcioví spekulanti a snažili se vytvořit roboty, kteří by procházeli webová fóra a internetové zpravodajství a sledovali tak náladu lidí a jejich zájem o nákup cenných papírů.

Na veřejnosti se ale nakonec proslavil trošku jiný projekt, který má na svědomí Google. I ten analyzuje data z internetu, nezkoumá ovšem tržní náladu, ale lokální internetová média, webová fóra, blogy a další stránky a hledá informace o chřipce. Pokud pak zjistí, že se například na kalifornských webech píše o viróze, na mapě USA označí vyšší riziko chřipkové epidemie v aplikaci Google Flu Trends.

flu trends usa.png  flu trends australie.png
Google Flu Trends: Zatímco v USA je podle vyhledávače nízké riziko,
v Austrálii je chřipka díky zimě na spadnutí

Web neustále metamorfuje do nových podob – vlastně jej ani nejde zachytit v nějakém neměnném stavu. Připomíná tak nepředvídatelné zákonitosti kvantové fyziky. Jak nás bude stále více a těsněji obklopovat, úloha webových vyhledávačů stále poroste a brzy se dočkáme jejich zcela nových interaktivních forem. Nezbývá než Timovi Berners-Leeovi smeknout velkou poklonu.

Diskuze (12) Další článek: Nový výkonný 2TB WD Caviar Black se 64 MB cache v prodeji

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,