Distribuované třídění - základ příští generace internetových vyhledávačů?

S rostoucím počtem internetových stránek přichází stále více na přetřes problém rychlého a kvalitního vyhledávání. Slibnou novinkou je distribuovaný vyhledávací systém Grub společnosti LookSmart.

Mnoho z vás už asi slyšelo o projektu SETI@home (setiathome.ssl.berkeley.edu), který využívá výpočetního výkonu několika milionů osobních počítačů po celém světě. Tento a jiné distribuované výpočetní systémy jsou založeny na dobré vůli uživatelů, kteří si nainstalují potřebný software (běžící obvykle na pozadí nebo při nečinnosti uživatele jako šetřič obrazovky) a přihlásí se k některému z centrálních severů, který přiděluje úkoly každé z mnoha "buněk". Díky tomu lze dosahovat obrovských výpočetních výkonů - jen pro srovnání, odhadovaný výkon největšího "virtuálního počítače světa" je 52 teraflops, zatímco nejvýkonnější "reálný" superpočítač (japonský Earth simulator) dosahuje "pouhých" 10 teraflops.

Grub - pro lepší budoucnost internetu

Otcem projektu Grub (www.grub.org) je americký programátor Kord Campbell, který na softwaru pracuje už více než tři roky. Brzy si ho všimla internetová společnost LookSmart (www.looksmart.com), která neváhala a skoupila ho i s tříčlenným týmem spolupracovníků. Přesto však zůstává Grub stále z velké části open-source projektem.

Základním prvkem celého distribuovaného výpočetního systému je klientský software, v tomto případě schovaný pod rouškou screensaveru, který prohledává a třídí internetové stránky. Cílem není nalezení známek umělé inteligence jako v případě SETI@home, nýbrž vytvoření co možná nejkvalitnějšího a nejrozsáhlejšího indexu pro webové prohledávače. Pokud tedy uživatel na počítači právě nepracuje, zobrazují se na obrazovce právě procházené stránky.

Společnost LookSmart zapracovává sesbírané výsledky do svého internetového vyhledávače jménem WiseNut (www.wisenut.com), ovšem tato data jsou také veřejně přístupná a mohou být pomocí jazyka XML včleněna do kterékoliv internetové stránky nebo dokonce běžné aplikace.

Stovky, tisíce a milióny

Zatímco v začátcích se základna uživatelů Grubu počítala na několik desítek, dnes už je jich přes dva tisíce a toto číslo stále roste. Na oficiální stránce projektu www.grub.org můžete pravidelně sledovat nejen rostoucí počet uživatelů tohoto softwaru, ale také počty prohledávaných internetových stránek, kterých jsou v současnosti desítky milionů. Pro srovnaní, odhadovaný výkon internetového vyhledáváče Google (www.google.com) je 150 milionů stránek za den. Google však staví na centralizovaném výpočetním výkonu, tedy rozsáhlých serverových clusterech (ačkoliv první pokusy s distribuovanými operacemi už začaly v podobě Google Search Baru).

Společnost LookSmart věří, že počet dobrovolníků účastnících se tohoto projektu stále poroste a doufá, že během následujících let (nebo ještě lépe měsíců) se podaří dosáhnout toho, o čem dnes stále pouze sní většina firem zabývajících se vyhledáváním na internetu - projít každý den všech přibližně 10 miliard internetových stránek, a mít tak k dispozici téměř v reálném čase analýzu veškerého internetového obsahu.

"Bude to první úplný index na internetu. Je možné, že bude schopen projít každý den všechny webové stránky.", říká duchovní otec projektu Kord Campbell.

Každý Grub klient prochází určitou část webu a odesílá nalezené podrobnosti zpět centrálnímu počítači LookSmartu v San Franciscu, který přiděluje "práci". Systém má mnoho bezpečnostních opatření, ale přesto někteří experti varují před možným zneužitím. Index by například bylo možné hackerským útokem upravit tak, aby upřednostňoval jisté stránky před jinými.

Ovládne LookSmart internet?

Ačkoliv je dostatečný výpočetní výkon velice důležitý, není to jediná podmínka pro kvalitní vyhledávání. Tvůrci programu slibují, že postupem času budou přidávat další nové schopnosti, například analýzu odkazů mezi jednotlivými stránkami (kterou v současnosti disponuje Google a dosahuje díky tomu opravdu dobrých výsledků).

Pro úspěch projektu je však nejdůležitější ze všeho bezchybná podpora uživatelské komunity, a to si uvědomují i lidé v LookSmartu. Na svých stránkách tedy poskytují maximální možné množství informací o tom, jak celá věc funguje.

"Přechod od desítek tisíců počítačů ke stovkám tisíc od základu změní podstatu vyhledávání. Přechod na miliony strojů nám pak umožní položit si otázku `Co se vším tím výpočetním výkonem můžeme udělat?`" říká Andre Stechert, technologický ředitel LookSmartu.

Někteří z uživatelů se však obávají již zmiňované možnosti zneužití tohoto nadějného systému, jiní se zase bojí právních problémů spojených s Grubem - který prohledává všechny stránky, takže například i ty nejtvrdší pornoservery nebo stránky teroristických organizací. Co když pak na vašem počítači někdo najde "pozůstatky" po takovýchto stránkách?

Mimo Grubu provozuje LookSmart na adrese www.zeal.com také internetový adresář Zeal. Jedná se o společenství lidí, kteří společnými silami třídí a katalogizují internetové stránky. Každý má samozřejmě možnost se k tomuto projektu na dobrovolnické bázi připojit.

Podle expertů na internetové vyhledávání se situace okolo LookSmartu může postupem času vyvinout podobně, jako to bylo s AltaVistou a Googlem. AltaVista, původně nejznámější a nejnavštěvovanější stránka internetu, zůstává dnes, po splasknutí "internetové bubliny", daleko pozadu za zdánlivě jednodušším, ale možná proto o dost úspěšnějším Googlem.

Diskuze (8) Další článek: Explorer nabízí předregistrace domén v .EU

Témata článku: Google, Open source, Vyhledávač, Sever, Gen, Generace, Andre, Simulator, Třídění, Jediná podmínka, Internetový vyhledávač, Základ, Dobrý den, Jednotlivá buňka, Výpočetní výkon, Příští generace, Tisíc uživatelů, Celá obrazovka


Určitě si přečtěte

Zbavujeme se Googlu: vybíráme nejlepší alternativy, které nahradí jeho služby

Zbavujeme se Googlu: vybíráme nejlepší alternativy, které nahradí jeho služby

** Google nabízí spoustu služeb, ale většina z nich má i dobré alternativy ** Pokud z nějakého důvodu nechcete používat služby Googlu, nemusíte ** Připravili jsme přehled služeb, kterými lze ty od Googlu nahradit

Karel Javůrek, David Polesný | 89

Pojďme programovat elektroniku: Kamera pro Arduino i Raspberry Pi, která vidí

Pojďme programovat elektroniku: Kamera pro Arduino i Raspberry Pi, která vidí

** Představte si robotické autíčko s kamerou ** S kamerou, která opravdu vidí věci ** Na trhu je jich několik a my si dnes vyzkoušíme americkou Pixy2

Jakub Čížek | 12



Aktuální číslo časopisu Computer

Nejlepší programy pro úpravu fotek zdarma

Externí disky pro zálohu dat

Velký test: herní notebooky

Srovnání 12 batohů