Distribuované třídění - základ příští generace internetových vyhledávačů?

S rostoucím počtem internetových stránek přichází stále více na přetřes problém rychlého a kvalitního vyhledávání. Slibnou novinkou je distribuovaný vyhledávací systém Grub společnosti LookSmart.

Mnoho z vás už asi slyšelo o projektu SETI@home (setiathome.ssl.berkeley.edu), který využívá výpočetního výkonu několika milionů osobních počítačů po celém světě. Tento a jiné distribuované výpočetní systémy jsou založeny na dobré vůli uživatelů, kteří si nainstalují potřebný software (běžící obvykle na pozadí nebo při nečinnosti uživatele jako šetřič obrazovky) a přihlásí se k některému z centrálních severů, který přiděluje úkoly každé z mnoha "buněk". Díky tomu lze dosahovat obrovských výpočetních výkonů - jen pro srovnání, odhadovaný výkon největšího "virtuálního počítače světa" je 52 teraflops, zatímco nejvýkonnější "reálný" superpočítač (japonský Earth simulator) dosahuje "pouhých" 10 teraflops.

Grub - pro lepší budoucnost internetu

Otcem projektu Grub (www.grub.org) je americký programátor Kord Campbell, který na softwaru pracuje už více než tři roky. Brzy si ho všimla internetová společnost LookSmart (www.looksmart.com), která neváhala a skoupila ho i s tříčlenným týmem spolupracovníků. Přesto však zůstává Grub stále z velké části open-source projektem.

Základním prvkem celého distribuovaného výpočetního systému je klientský software, v tomto případě schovaný pod rouškou screensaveru, který prohledává a třídí internetové stránky. Cílem není nalezení známek umělé inteligence jako v případě SETI@home, nýbrž vytvoření co možná nejkvalitnějšího a nejrozsáhlejšího indexu pro webové prohledávače. Pokud tedy uživatel na počítači právě nepracuje, zobrazují se na obrazovce právě procházené stránky.

Společnost LookSmart zapracovává sesbírané výsledky do svého internetového vyhledávače jménem WiseNut (www.wisenut.com), ovšem tato data jsou také veřejně přístupná a mohou být pomocí jazyka XML včleněna do kterékoliv internetové stránky nebo dokonce běžné aplikace.

Stovky, tisíce a milióny

Zatímco v začátcích se základna uživatelů Grubu počítala na několik desítek, dnes už je jich přes dva tisíce a toto číslo stále roste. Na oficiální stránce projektu www.grub.org můžete pravidelně sledovat nejen rostoucí počet uživatelů tohoto softwaru, ale také počty prohledávaných internetových stránek, kterých jsou v současnosti desítky milionů. Pro srovnaní, odhadovaný výkon internetového vyhledáváče Google (www.google.com) je 150 milionů stránek za den. Google však staví na centralizovaném výpočetním výkonu, tedy rozsáhlých serverových clusterech (ačkoliv první pokusy s distribuovanými operacemi už začaly v podobě Google Search Baru).

Společnost LookSmart věří, že počet dobrovolníků účastnících se tohoto projektu stále poroste a doufá, že během následujících let (nebo ještě lépe měsíců) se podaří dosáhnout toho, o čem dnes stále pouze sní většina firem zabývajících se vyhledáváním na internetu - projít každý den všech přibližně 10 miliard internetových stránek, a mít tak k dispozici téměř v reálném čase analýzu veškerého internetového obsahu.

"Bude to první úplný index na internetu. Je možné, že bude schopen projít každý den všechny webové stránky.", říká duchovní otec projektu Kord Campbell.

Každý Grub klient prochází určitou část webu a odesílá nalezené podrobnosti zpět centrálnímu počítači LookSmartu v San Franciscu, který přiděluje "práci". Systém má mnoho bezpečnostních opatření, ale přesto někteří experti varují před možným zneužitím. Index by například bylo možné hackerským útokem upravit tak, aby upřednostňoval jisté stránky před jinými.

Ovládne LookSmart internet?

Ačkoliv je dostatečný výpočetní výkon velice důležitý, není to jediná podmínka pro kvalitní vyhledávání. Tvůrci programu slibují, že postupem času budou přidávat další nové schopnosti, například analýzu odkazů mezi jednotlivými stránkami (kterou v současnosti disponuje Google a dosahuje díky tomu opravdu dobrých výsledků).

Pro úspěch projektu je však nejdůležitější ze všeho bezchybná podpora uživatelské komunity, a to si uvědomují i lidé v LookSmartu. Na svých stránkách tedy poskytují maximální možné množství informací o tom, jak celá věc funguje.

"Přechod od desítek tisíců počítačů ke stovkám tisíc od základu změní podstatu vyhledávání. Přechod na miliony strojů nám pak umožní položit si otázku `Co se vším tím výpočetním výkonem můžeme udělat?`" říká Andre Stechert, technologický ředitel LookSmartu.

Někteří z uživatelů se však obávají již zmiňované možnosti zneužití tohoto nadějného systému, jiní se zase bojí právních problémů spojených s Grubem - který prohledává všechny stránky, takže například i ty nejtvrdší pornoservery nebo stránky teroristických organizací. Co když pak na vašem počítači někdo najde "pozůstatky" po takovýchto stránkách?

Mimo Grubu provozuje LookSmart na adrese www.zeal.com také internetový adresář Zeal. Jedná se o společenství lidí, kteří společnými silami třídí a katalogizují internetové stránky. Každý má samozřejmě možnost se k tomuto projektu na dobrovolnické bázi připojit.

Podle expertů na internetové vyhledávání se situace okolo LookSmartu může postupem času vyvinout podobně, jako to bylo s AltaVistou a Googlem. AltaVista, původně nejznámější a nejnavštěvovanější stránka internetu, zůstává dnes, po splasknutí "internetové bubliny", daleko pozadu za zdánlivě jednodušším, ale možná proto o dost úspěšnějším Googlem.

Diskuze (8) Další článek: Explorer nabízí předregistrace domén v .EU

Témata článku: Google, Open source, Vyhledávač, Tisíc uživatelů, Základ, Sever, Andre, Příští generace, Celá obrazovka, Generace, Výpočetní výkon, Gen, Internetový vyhledávač, Dobrý den, Jednotlivá buňka, Simulator, Jediná podmínka


Určitě si přečtěte

Nechcete platit za Total Commander? Těmito bezplatnými programy ho můžete nahradit

Nechcete platit za Total Commander? Těmito bezplatnými programy ho můžete nahradit

** Total Commander je na Windows takřka legendou ** Licence však stojí více než tisíc korun ** Našli jsme pro vás deset alternativ dostupných zdarma

Karel Kilián | 140

Šmírovačka kamerami Googlu: Koukněte se, co nového zachytily na Street View

Šmírovačka kamerami Googlu: Koukněte se, co nového zachytily na Street View

Google stále fotí celý svět do své služby Street View. A novodobou zábavou je hledat v mapách Googlu vtipné záběry. Podívejte se na výběr nejlepších!

redakce | 44

Portál občana už funguje. Na státní web vypadá až překvapivě použitelně

Portál občana už funguje. Na státní web vypadá až překvapivě použitelně

** Portál občana už funguje, vyřídíte na něm první požadavky ** Funkce se budou postupně rozšiřovat ** Web je docela moderní a přehledný

David Polesný | 65


Aktuální číslo časopisu Computer

Velký test 18 bezdrátových sluchátek

Vše o přechodu na DVB-T2

Procesory AMD opět porážejí Intel

7 NVMe M.2 SSD v přímém souboji