reklama

Chcete rozjet svůj vlastní vyhledávač? Žádný problém

Alexa Internet, jeden z nejvýznamnějších vyhledávačů, dává veřejně k dispozici svůj obrovský index a příslušné vyhledávací nástroje. Pokud máte geniální myšlenku, ale chybí vám hardware pro prohledávání Internetu a ukládání terabajtů dat do archivu, máte nyní možnost využít data tohoto vyhledávače a konkurovat klidně i Googlu.

Kdo je Alexa?

Související odkazy

Slovník
beta
ID3
indexing
JPEG
MP3
server
toolbar

Běžným uživatelům Internetu v Čechách zřejmě jméno Alexa Internet příliš neřekne. Jedná se však o velmi významnou "vyhledávací" společnost, která byla založena již v roce 1996 v San Franciscu. Tehdy byl ještě web v plenkách a vyhledávače teprve začínaly dobývat svět. Alexa byla také jednou z prvních společností, která v roce 1997 uvolnila svůj vlastní toolbar, které jsou dnes tak oblíbené. Byl to jeden z prvních vyhledávacích toolbarů do prohlížeče vůbec. O dva roky později, v roce 1999, byla společnost Alexa Internet koupena internetovým gigantem Amazon.

V současné době patří Alexa mezi přední vyhledávače, i když u nás jej moc lidí nezná. Na vyhledávání a datovém skladu se podílí zhruba tisíc serverů, měsíčně proskenuje zhruba 4 až 5 miliard stránek a denně zaarchivuje zhruba terabajt dat.

Když už jsme u té archivace, právě Alexa Internet je hlavním "dárcem" dat pro známý projekt Internet Archive, o kterém jste si mohli před časem přečíst i zde na Živě, a který se snaží archivovat webové stránky i další data. Můžete se tak například podívat na svou oblíbenou stránku tak, jak vypadala před několika lety.

Index pro všechny?

Teď už tedy víme, kdo to Alexa Internet je a že množství indexovaných dat není zrovna zanedbatelné. V pondělí společnost prohlásila, že dá k dispozici svůj obrovský archiv a vyhledávací engine všem programátorům a experimentátorům, kteří si tak mohou vytvořit vlastní vyhledávače. Přístup sice nebude úplně zdarma (viz dále), nicméně bude velice levný.

Pod názvem Alexa Web Search Platform budou k dispozici nástroje pro vyhledávání, indexování, výpočty, ukládání a publikování informací a pochopitelně přístup k obrovskému archivu stránek, který čítá zhruba 100 terabajtů dat. Díky tomu si tak může prakticky každý vytvořit vlastní specializovaný vyhledávač. Podle tvrzení společnosti je to poprvé v historii, kdy mají vývojáři či studenti velmi levný přístup k takovým vyhledávacím technologiím, jaké používají i Google nebo Yahoo.

Jaký může mít tento krok důsledky? Samotné prohledávání webu není zase tak obtížné, ale velice drahé a komplikované je udržovat rozsáhlý index a aktualizovat jej. To už není rozhodně triviální záležitost, stačí si jen představit potřebný hardware a to ani nemluvíme o dalších komplikacích.

Tím, že máte o toto vše postaráno, tedy o prohledávání webu, udržování a archivaci indexu, odpadne vám poměrně velká část práce. Soustředit se tak můžete "jen" na naprogramování samotného prohledávání indexu, což sice také není zrovna triviální, ale stačí vám na to již pouze vaše hlava a můžete přijít s nějakou inovací či geniální myšlenkou.

Jak to funguje?

Momentálně je služba ve stádiu betatestování, takže je nutné se zaregistrovat a administrátor vám poté mailem sdělí další podrobnosti. Počet testerů je omezen, takže pokud máte o službu zájem a chcete jí zkoušet hned od začátku, raději neváhejte.

Samotný princip fungování služby je zjednodušeně popsán přímo na stránkách projektu. Jde vlastně o tři kroky. Nejprve si nadefinujete, které stránky vás zajímají - provedete výběr z indexu. V následujícím kroku takto získaná data zpracujete. Vaše aplikace může provádět téměř cokoliv, různé výpočty a podobně. Třetím krokem je pak publikace výsledných dat.

Jako ukázkový projekt, který má nastínit potenciál této služby, je uveden vyhledávač fotografií Camera Image Search. Nejprve je tedy proveden výběr z databáze. Podle MIME typu jsou odfiltrovány pouze JPEG obrázky. Druhým krokem je pak zpracování. Program je schopen z jednotlivých souborů vyčíst metadata jako je například datum pořízení fotografie či použitý digitální fotoaparát. Třetím krokem je pak prezentace dat. Můžete si tak nechat vyhledat obrázky, pořízené konkrétním fotoaparátem, v konkrétní den, v požadovaném rozlišení a dalšími parametry, která se do EXIF ukládají.

Tímto způsobem lze samozřejmě prohledávat data libovolného typu, třeba ID3 tagy u souborů MP3. Dalším prototypem je třeba vyhledávání hudby podle melodie Musipedia. Zde mohou uživatelé vložit noty (případně zahrát kus melodie pomocí javového piána) a vyhledávač vám najde příslušné zdroje.

Je jasné, že klíčová je prostřední část celého procesu, tedy programové zpracování dat. K tomu můžete využít existující kód, který nahrajete na server a upravíte pomocí C API systému. Můžete samozřejmě začít i od nuly a využít jako zdroj ukázkové projekty.

Co za to?

Zbývá poslední důležitá otázka. Už na začátku jsem říkal, že to nebude úplně zadarmo. Každá "legrace" něco stojí. Alexa tvrdí, že je cena velmi příznivá, takže posuďte sami. Cenový model je postaven na částce jednoho dolaru. Za tento jeden dolar si můžete pořídit třeba hodinu strojového času serveru nebo 1 GB dat uložených na serveru na rok a nebo například 50 GB "zpracovaných" dat (tedy interně přenesených v rámci serverů služby a další režie). Další podrobnosti, co vše ještě stojí jeden dolar, najdete v ceníku (viz předchozí odkaz).

Přiznám se, že nejsem schopen ohodnotit, zda je tato cena vysoká nebo přiměřená. Bude hodně záležet na typu projektu, který budete případně provozovat, protože každý využívá zdroje jinak. A pochopitelně bude záležet i na návštěvnosti vaší služby. Troufám si však tvrdit, že průměrný projekt by si na sebe dokázal z reklamy vydělat a věřím, že společnost Alexa nasadila cenu velmi uvážlivě ve snaze nalákat co nejvíce potenciálních uživatelů.

Pro zkušební účely, například pro studenty a vývojáře, kteří (zatím) nechtějí vytvářet žádnou komerční službu a chtějí si jen sami "hrát s daty" a možnostmi, které jim systém dává, je však 1 dolar cena zcela zanedbatelná a než spotřebujete na své pokusy hodinu strojového času serveru, to už je nějakého testování.

Uvidíme tedy, zda se tento model uchytí a zda i Google či Yahoo začnou "pronajímat" své vyhledávací indexy. Podobná služba má rozhodně zajímavý potenciál a dává možnost vzniknout řadě projektů, které by jinak nemohly existovat vzhledem k technické náročnosti udržování samotného vyhledávacího indexu.

Zdroje: Alexa, Wired News

Témata článku: Hardware, Internet, Alex, Alexa, Index, Google Toolbar, Levné fotoaparáty digitální

27 komentářů

Nejnovější komentáře

  • benzin 30. 12. 2005 21:42:27
    No tedka jsem o tom cetl a nazor na to jestli to je spyware nebo neni se...
  • shrek 17. 12. 2005 0:07:39
    No a který asi jiný...
  • __m: 15. 12. 2005 23:42:52
    Vsak on o tom, jestli se pri zadani projizdi cela databaze, nerekl ani...
reklama
Určitě si přečtěte

Vybíráte herní periferii nebo hardware? Pak zapomeňte na nálepku Gaming

Vybíráte herní periferii nebo hardware? Pak zapomeňte na nálepku Gaming

** Herní hardware se od toho běžného často liší jen vzhledem ** Při výběru stále nezapomínejte na základní parametry ** Poradíme jak vybrat herní hardware i periferie

20.  2.  2017 | Stanislav Janů | 36

10 nejhorších produktů v historii Microsoftu

10 nejhorších produktů v historii Microsoftu

20.  2.  2017 | Karel Javůrek | 139

Pojďme programovat elektroniku: Žádný bastlíř se neobejde bez armády švábů

Pojďme programovat elektroniku: Žádný bastlíř se neobejde bez armády švábů

** Každý bastlíř se po čase neobjede bez armády švábů ** Dnes si některé z nich vyzkoušíme ** Třeba zázračný posuvný registr

19.  2.  2017 | Jakub Čížek | 39

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

** AMD uvedlo první tři procesory Ryzen 7 ** Všechny budou pracovat s osmi jádry a šestnácti vlákny ** Na pulty obchodů se dostanou už za týden

22.  2.  2017 | Stanislav Janů | 132

EU se děsí Windows 10. Prý o nás vědí až příliš. Microsoft chystá změny

EU se děsí Windows 10. Prý o nás vědí až příliš. Microsoft chystá změny

** Evropští úředníci chtějí, aby byly Desítky transparentnější ** Microsoft od jara skutečně chystá změny ** Ochráncům soukromí to ale nestačí

21.  2.  2017 | Jakub Čížek | 218

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

** Microsoft do svých telefonů integroval desktopové prostředí ** Moc to ale nevyšlo, chyběl pořádný výkon ** Teď to zkoušejí ex-googleři s Remix Singularity

23.  2.  2017 | Jakub Čížek | 73


Aktuální číslo časopisu Computer

Supertéma o počítačové bezpečnosti

AMD Ryzen přichází

Velké testy kinoprojektorů a levných špuntových sluchátek

Příslušenství do USB-C

reklama
reklama