Distribuované třídění - základ příští generace internetových vyhledávačů?

S rostoucím počtem internetových stránek přichází stále více na přetřes problém rychlého a kvalitního vyhledávání. Slibnou novinkou je distribuovaný vyhledávací systém Grub společnosti LookSmart.

Mnoho z vás už asi slyšelo o projektu SETI@home (setiathome.ssl.berkeley.edu), který využívá výpočetního výkonu několika milionů osobních počítačů po celém světě. Tento a jiné distribuované výpočetní systémy jsou založeny na dobré vůli uživatelů, kteří si nainstalují potřebný software (běžící obvykle na pozadí nebo při nečinnosti uživatele jako šetřič obrazovky) a přihlásí se k některému z centrálních severů, který přiděluje úkoly každé z mnoha "buněk". Díky tomu lze dosahovat obrovských výpočetních výkonů - jen pro srovnání, odhadovaný výkon největšího "virtuálního počítače světa" je 52 teraflops, zatímco nejvýkonnější "reálný" superpočítač (japonský Earth simulator) dosahuje "pouhých" 10 teraflops.

Grub - pro lepší budoucnost internetu

Otcem projektu Grub (www.grub.org) je americký programátor Kord Campbell, který na softwaru pracuje už více než tři roky. Brzy si ho všimla internetová společnost LookSmart (www.looksmart.com), která neváhala a skoupila ho i s tříčlenným týmem spolupracovníků. Přesto však zůstává Grub stále z velké části open-source projektem.

Základním prvkem celého distribuovaného výpočetního systému je klientský software, v tomto případě schovaný pod rouškou screensaveru, který prohledává a třídí internetové stránky. Cílem není nalezení známek umělé inteligence jako v případě SETI@home, nýbrž vytvoření co možná nejkvalitnějšího a nejrozsáhlejšího indexu pro webové prohledávače. Pokud tedy uživatel na počítači právě nepracuje, zobrazují se na obrazovce právě procházené stránky.

Společnost LookSmart zapracovává sesbírané výsledky do svého internetového vyhledávače jménem WiseNut (www.wisenut.com), ovšem tato data jsou také veřejně přístupná a mohou být pomocí jazyka XML včleněna do kterékoliv internetové stránky nebo dokonce běžné aplikace.

Stovky, tisíce a milióny

Zatímco v začátcích se základna uživatelů Grubu počítala na několik desítek, dnes už je jich přes dva tisíce a toto číslo stále roste. Na oficiální stránce projektu www.grub.org můžete pravidelně sledovat nejen rostoucí počet uživatelů tohoto softwaru, ale také počty prohledávaných internetových stránek, kterých jsou v současnosti desítky milionů. Pro srovnaní, odhadovaný výkon internetového vyhledáváče Google (www.google.com) je 150 milionů stránek za den. Google však staví na centralizovaném výpočetním výkonu, tedy rozsáhlých serverových clusterech (ačkoliv první pokusy s distribuovanými operacemi už začaly v podobě Google Search Baru).

Společnost LookSmart věří, že počet dobrovolníků účastnících se tohoto projektu stále poroste a doufá, že během následujících let (nebo ještě lépe měsíců) se podaří dosáhnout toho, o čem dnes stále pouze sní většina firem zabývajících se vyhledáváním na internetu - projít každý den všech přibližně 10 miliard internetových stránek, a mít tak k dispozici téměř v reálném čase analýzu veškerého internetového obsahu.

"Bude to první úplný index na internetu. Je možné, že bude schopen projít každý den všechny webové stránky.", říká duchovní otec projektu Kord Campbell.

Každý Grub klient prochází určitou část webu a odesílá nalezené podrobnosti zpět centrálnímu počítači LookSmartu v San Franciscu, který přiděluje "práci". Systém má mnoho bezpečnostních opatření, ale přesto někteří experti varují před možným zneužitím. Index by například bylo možné hackerským útokem upravit tak, aby upřednostňoval jisté stránky před jinými.

Ovládne LookSmart internet?

Ačkoliv je dostatečný výpočetní výkon velice důležitý, není to jediná podmínka pro kvalitní vyhledávání. Tvůrci programu slibují, že postupem času budou přidávat další nové schopnosti, například analýzu odkazů mezi jednotlivými stránkami (kterou v současnosti disponuje Google a dosahuje díky tomu opravdu dobrých výsledků).

Pro úspěch projektu je však nejdůležitější ze všeho bezchybná podpora uživatelské komunity, a to si uvědomují i lidé v LookSmartu. Na svých stránkách tedy poskytují maximální možné množství informací o tom, jak celá věc funguje.

"Přechod od desítek tisíců počítačů ke stovkám tisíc od základu změní podstatu vyhledávání. Přechod na miliony strojů nám pak umožní položit si otázku `Co se vším tím výpočetním výkonem můžeme udělat?`" říká Andre Stechert, technologický ředitel LookSmartu.

Někteří z uživatelů se však obávají již zmiňované možnosti zneužití tohoto nadějného systému, jiní se zase bojí právních problémů spojených s Grubem - který prohledává všechny stránky, takže například i ty nejtvrdší pornoservery nebo stránky teroristických organizací. Co když pak na vašem počítači někdo najde "pozůstatky" po takovýchto stránkách?

Mimo Grubu provozuje LookSmart na adrese www.zeal.com také internetový adresář Zeal. Jedná se o společenství lidí, kteří společnými silami třídí a katalogizují internetové stránky. Každý má samozřejmě možnost se k tomuto projektu na dobrovolnické bázi připojit.

Podle expertů na internetové vyhledávání se situace okolo LookSmartu může postupem času vyvinout podobně, jako to bylo s AltaVistou a Googlem. AltaVista, původně nejznámější a nejnavštěvovanější stránka internetu, zůstává dnes, po splasknutí "internetové bubliny", daleko pozadu za zdánlivě jednodušším, ale možná proto o dost úspěšnějším Googlem.

Diskuze (8) Další článek: Explorer nabízí předregistrace domén v .EU

Témata článku: Google, Open source, Jediná podmínka, Vyhledávač, Základ, Sever, Jednotlivá buňka, Simulator, Dobrý den, Celá obrazovka, Andre, Generace, Tisíc uživatelů, Internetový vyhledávač, Výpočetní výkon, Třídění, Příští generace, Gen


Určitě si přečtěte

Byli tam! Důkazy o přistání na Měsíci, Lunochody i čínská sonda jsou vidět z vesmíru

Byli tam! Důkazy o přistání na Měsíci, Lunochody i čínská sonda jsou vidět z vesmíru

** Sonda LRO pořídila z oběžné dráhy Měsíce zajímavé snímky ** Jsou na nich vidět artefakty všech misí programu Apolla, které přistály na povrchu Měsíce ** Jde například o části lunárních modulů, rovery a dokonce i vlajky

Petr Kubala | 65

Porno insider: Jak virtuální realita vstupuje do filmů pro dospělé

Porno insider: Jak virtuální realita vstupuje do filmů pro dospělé

** Pornografie údajně představuje třetinu internetové obsahu a je technologický tahounem ** Do erotického obsahu postupně zasahuje i virtuální realita ** Kromě vizuálního vjemu se pracuje také na virtuálním uspokojení toho hmatového

Jan Dudek | 29

Nová zbraň proti hackerům: obrovské množství chyb v softwaru

Nová zbraň proti hackerům: obrovské množství chyb v softwaru

** Vědci vymysleli nový systém obrany proti hackerům ** Pomocí speciálního systému implementují do softwaru spoustu chyb ** Tyto chyby nejsou zneužitelné, což útočník zjistí až po čase

Karel Javůrek | 28

Odposlouchávali jsme děravou domácnost: Katka z Brightonu právě sedí doma, zatímco její manžel hraje asi golf

Odposlouchávali jsme děravou domácnost: Katka z Brightonu právě sedí doma, zatímco její manžel hraje asi golf

** Na internetu jsou tisíce nezabezpečených chytrých domácností ** Podívali jsme se na jednu z britského Brightonu ** Útočník sestaví kompletní socioekonomický profil rodiny

Jakub Čížek | 31

Tohle tak jednou zažít: Nová vzducholoď Airlander 10 s prosklenou podlahou

Tohle tak jednou zažít: Nová vzducholoď Airlander 10 s prosklenou podlahou

** Airlander 10 nabídne plavby vzduchem v interiéru s prosklenou podlahou ** Luxusní vzducholoď byla původně vyvíjena pro vojenské účely ** Počítá se s třídenními „kochacími“ výlety za poznáním

Karel Kilián | 7

Windows 95 slaví 23 let. Vzpomínáte na ně? Jak dlouho jste je používali?

Windows 95 slaví 23 let. Vzpomínáte na ně? Jak dlouho jste je používali?

** 24. srpna 1995 zahájil Microsoft prodej Windows 95 ** Uvedení na trh doprovázela masivní reklamní kampaň ** I 23 let poté je určitě na co vzpomínat!

Karel Kilián | 118

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

** Přečerpávací vodní elektrárna Dlouhé stráně je obdivuhodné technické dílo ** Stejná turbína vyrábí elektřinu i tlačí vodu zpět do horního jezera ** Strojovna elektrárny je zabudována v podzemí

David Polesný | 34

Modelářský zázrak: Maketa raketoplánu Columbia, která létá jako skutečná raketa

Modelářský zázrak: Maketa raketoplánu Columbia, která létá jako skutečná raketa

** Model raketoplánu Columbia od českého konstruktéra umí i létat ** Obdivuhodný model si vzal 1600 hodin práce ** Podívejte se na fotografie ze stavby a prvního letu

Karel Jeřábek | 20


Aktuální číslo časopisu Computer

Megatest: 13 grafických karet

Srovnání 7 dokovacích stanic s USB-C

Jak na perfektní noční fotografie

Kvalitní zdroje informací pro sebevzdělávání