Petr Hejl vyvinul první prototyp svého revolučního hledače

Petr Hejl vyvinul první prototyp svého revolučního hledače

Začátkem loňského roku překvapil brněnský programátor Petr Hejl svým nápadem, který prezentoval v investorské reality show České televize Den D. Vymyslel prý unikátní algoritmus nového vyhledávače, který by předčil i současné technologie Googlu. Ten do vývoje investuje miliardy dolarů a zaměstnává tým špičkových programátorů po celém světě, Petr Hejl však žádal pouze jeden milion korun pro sebe a maximálně dva další programátory. Investici v pořadu nedostal, ale po roce se mu podařilo potřebné peníze získat od 23 menších investorů. Nyní se pochlubil, že vyvinul první funkční prototyp nového vyhledávače. Prozatím ho nazývá Hlodač.

Klepněte pro větší obrázek
Design Hlodače se inspiruje od všech tří největších konkurentů – od Googlu si bere jednoduchost, od Bingu úvodní obrázek a barevně se odkazuje na Yahoo

Bohužel, nový Hlodač si stále nevyzkoušíme, adresu testovací verze nám autor neprozradil. Spokojit se tak můžeme pouze s jedinou ukázkou vyhledání klíčového slova „Lednice“. Ta nám ale o kvalitách nového algoritmu nic neřekne, protože testovací verze hledá pouze na 22 webech Petra Hejla, převážně věnovaných Jižní Moravě a Lednici.

Klepněte pro větší obrázek
Ukázka hledání nového Hlodače.

Když už nemáme k dispozici žádné praktické ukázky v reálném provozu, můžeme se podívat na útržky informací z programátorské kuchyně Petra Hejla. Jeho projekt se aktuálně skládá z jedenácti modulů, které dohromady dávají asi deset tisíc řádků kódu. Aktuální verze by měla být schopna hledat v milionovém indexu stránek, cílem je miliarda. V té fázi už by měly být výhody Hlodače prokazatelné a prodejné.

Jeden z modulů zajišťuje tzv. unsort, Petr Hejl funkci popisuje následovně: „Bude se rychle stahovat velké množství WWW stránek, odhadem 1000 stránek za sekundu. Poběží paralelně 100 stahovacích programů, v každém poběží 10 paralelních částí. Realizoval jsem to pomocí metody AsyncCallback programovacího jazyku C#. Pokud by se stahovaly po sobě WWW stránky z jedné domény, mohla by tato rychlost příslušný WWW server shodit, nebo by mi mohl tamní webmaster zakázat přístup. Proto musím udělat unsort původního pořadí WWW adres ke stažení tak, aby v unsortovaném pořadí, podle kterého se bude stahovat, byly WWW adresy z jedné a týž domény co nejvíce rozstrkané po celém pořadí.“

Klepněte pro větší obrázek
Miniukázka zdrojového kódu, bohužel nic neříkající

K tvorbě tohoto modulu dodává: „Nezdá se to, ale je to matematicky velmi obtížná úloha, algoritmus má řadu částí. Vymyšlení a naprogramování mi trvalo cca den a noc (24 hodin, takřka v kuse).“

Steve Ballmer možná už otevírá peněženku a v Googlu se začínají chystat ne těžké časy. Na Živě ale zůstáváme v klidu, bez praktických ukázek funkčnosti kódu projekt zatím budí dojem práce středoškolského studenta. Uvidíme, co Petr Hejl předvede 21.6.2011, kdy plánuje spuštění ostré verze Hlodače, která by měla postupně naindexovat celou miliardu stránek. Zpracování prý bude trvat 10 až 100 dní.

Témata článku: Technologie, Web, Prototyp, První prototyp, Hledač, Webmaster, Celý den, Česká televize živě, Jediný prototyp, Úvodní část, Reality Show, Petr

Určitě si přečtěte


Aktuální číslo časopisu Computer

26 procesorů v důkladném testu

Zhodnotili jsme 18 bezdrátových reproduktorů

Jak fungují cash back služby?

Pohlídejte své děti na internetu