Chcete rozjet svůj vlastní vyhledávač? Žádný problém

Jan Šindelář 15. prosince 2005

Další
článek 8 GB dat na USB klíčence SDÍLET NA FACEBOOKU TWEETNOUT

Alexa Internet, jeden z nejvýznamnějších vyhledávačů, dává veřejně k dispozici svůj obrovský index a příslušné vyhledávací nástroje. Pokud máte geniální myšlenku, ale chybí vám hardware pro prohledávání Internetu a ukládání terabajtů dat do archivu, máte nyní možnost využít data tohoto vyhledávače a konkurovat klidně i Googlu.

Kdo je Alexa?

Související odkazy

Slovník
beta
ID3
indexing
JPEG
MP3
server
toolbar

Běžným uživatelům Internetu v Čechách zřejmě jméno Alexa Internet příliš neřekne. Jedná se však o velmi významnou "vyhledávací" společnost, která byla založena již v roce 1996 v San Franciscu. Tehdy byl ještě web v plenkách a vyhledávače teprve začínaly dobývat svět. Alexa byla také jednou z prvních společností, která v roce 1997 uvolnila svůj vlastní toolbar, které jsou dnes tak oblíbené. Byl to jeden z prvních vyhledávacích toolbarů do prohlížeče vůbec. O dva roky později, v roce 1999, byla společnost Alexa Internet koupena internetovým gigantem Amazon.

V současné době patří Alexa mezi přední vyhledávače, i když u nás jej moc lidí nezná. Na vyhledávání a datovém skladu se podílí zhruba tisíc serverů, měsíčně proskenuje zhruba 4 až 5 miliard stránek a denně zaarchivuje zhruba terabajt dat.

Když už jsme u té archivace, právě Alexa Internet je hlavním "dárcem" dat pro známý projekt Internet Archive, o kterém jste si mohli před časem přečíst i zde na Živě, a který se snaží archivovat webové stránky i další data. Můžete se tak například podívat na svou oblíbenou stránku tak, jak vypadala před několika lety.

Index pro všechny?

Teď už tedy víme, kdo to Alexa Internet je a že množství indexovaných dat není zrovna zanedbatelné. V pondělí společnost prohlásila, že dá k dispozici svůj obrovský archiv a vyhledávací engine všem programátorům a experimentátorům, kteří si tak mohou vytvořit vlastní vyhledávače. Přístup sice nebude úplně zdarma (viz dále), nicméně bude velice levný.

Pod názvem Alexa Web Search Platform budou k dispozici nástroje pro vyhledávání, indexování, výpočty, ukládání a publikování informací a pochopitelně přístup k obrovskému archivu stránek, který čítá zhruba 100 terabajtů dat. Díky tomu si tak může prakticky každý vytvořit vlastní specializovaný vyhledávač. Podle tvrzení společnosti je to poprvé v historii, kdy mají vývojáři či studenti velmi levný přístup k takovým vyhledávacím technologiím, jaké používají i Google nebo Yahoo.

Jaký může mít tento krok důsledky? Samotné prohledávání webu není zase tak obtížné, ale velice drahé a komplikované je udržovat rozsáhlý index a aktualizovat jej. To už není rozhodně triviální záležitost, stačí si jen představit potřebný hardware a to ani nemluvíme o dalších komplikacích.

Tím, že máte o toto vše postaráno, tedy o prohledávání webu, udržování a archivaci indexu, odpadne vám poměrně velká část práce. Soustředit se tak můžete "jen" na naprogramování samotného prohledávání indexu, což sice také není zrovna triviální, ale stačí vám na to již pouze vaše hlava a můžete přijít s nějakou inovací či geniální myšlenkou.

Jak to funguje?

Momentálně je služba ve stádiu betatestování, takže je nutné se zaregistrovat a administrátor vám poté mailem sdělí další podrobnosti. Počet testerů je omezen, takže pokud máte o službu zájem a chcete jí zkoušet hned od začátku, raději neváhejte.

Samotný princip fungování služby je zjednodušeně popsán přímo na stránkách projektu. Jde vlastně o tři kroky. Nejprve si nadefinujete, které stránky vás zajímají - provedete výběr z indexu. V následujícím kroku takto získaná data zpracujete. Vaše aplikace může provádět téměř cokoliv, různé výpočty a podobně. Třetím krokem je pak publikace výsledných dat.

Jako ukázkový projekt, který má nastínit potenciál této služby, je uveden vyhledávač fotografií Camera Image Search. Nejprve je tedy proveden výběr z databáze. Podle MIME typu jsou odfiltrovány pouze JPEG obrázky. Druhým krokem je pak zpracování. Program je schopen z jednotlivých souborů vyčíst metadata jako je například datum pořízení fotografie či použitý digitální fotoaparát. Třetím krokem je pak prezentace dat. Můžete si tak nechat vyhledat obrázky, pořízené konkrétním fotoaparátem, v konkrétní den, v požadovaném rozlišení a dalšími parametry, která se do EXIF ukládají.

Tímto způsobem lze samozřejmě prohledávat data libovolného typu, třeba ID3 tagy u souborů MP3. Dalším prototypem je třeba vyhledávání hudby podle melodie Musipedia. Zde mohou uživatelé vložit noty (případně zahrát kus melodie pomocí javového piána) a vyhledávač vám najde příslušné zdroje.

Je jasné, že klíčová je prostřední část celého procesu, tedy programové zpracování dat. K tomu můžete využít existující kód, který nahrajete na server a upravíte pomocí C API systému. Můžete samozřejmě začít i od nuly a využít jako zdroj ukázkové projekty.

Co za to?

Zbývá poslední důležitá otázka. Už na začátku jsem říkal, že to nebude úplně zadarmo. Každá "legrace" něco stojí. Alexa tvrdí, že je cena velmi příznivá, takže posuďte sami. Cenový model je postaven na částce jednoho dolaru. Za tento jeden dolar si můžete pořídit třeba hodinu strojového času serveru nebo 1 GB dat uložených na serveru na rok a nebo například 50 GB "zpracovaných" dat (tedy interně přenesených v rámci serverů služby a další režie). Další podrobnosti, co vše ještě stojí jeden dolar, najdete v ceníku (viz předchozí odkaz).

Přiznám se, že nejsem schopen ohodnotit, zda je tato cena vysoká nebo přiměřená. Bude hodně záležet na typu projektu, který budete případně provozovat, protože každý využívá zdroje jinak. A pochopitelně bude záležet i na návštěvnosti vaší služby. Troufám si však tvrdit, že průměrný projekt by si na sebe dokázal z reklamy vydělat a věřím, že společnost Alexa nasadila cenu velmi uvážlivě ve snaze nalákat co nejvíce potenciálních uživatelů.

Pro zkušební účely, například pro studenty a vývojáře, kteří (zatím) nechtějí vytvářet žádnou komerční službu a chtějí si jen sami "hrát s daty" a možnostmi, které jim systém dává, je však 1 dolar cena zcela zanedbatelná a než spotřebujete na své pokusy hodinu strojového času serveru, to už je nějakého testování.

Uvidíme tedy, zda se tento model uchytí a zda i Google či Yahoo začnou "pronajímat" své vyhledávací indexy. Podobná služba má rozhodně zajímavý potenciál a dává možnost vzniknout řadě projektů, které by jinak nemohly existovat vzhledem k technické náročnosti udržování samotného vyhledávacího indexu.

Zdroje: Alexa, Wired News

Diskuze (27) › Další článek: 8 GB dat na USB klíčence