Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

Vyhledávač Seznamu na pozadí roste. Cluster už má 2,5 PB, robot miliardu dokumentů, ve špičce zpracovává 600 dotazů za sekundu a výrazně roste i mobilní hledání.

I když by se mohlo zdát, že aktivity a čísla ve vyhledávači Seznamu budou spíše klesat, opak je pravdou. Největší tuzemská internetová firma stále v této oblasti dle odhadů drží zhruba poloviční podíl na trhu, představila nový vzhled vyhledávání a znatelný růst je možné sledovat také na pozadí. Tam sice žádné novinky prozatím představeny nebyly, přenosy a databáze nicméně bobtnají.

Celý vyhledávací cluster Seznamu už má 2,5 petabytů a na úložném systému je kolem miliardy dokumentů z vyhledávacího robota. „Chtěli bychom jít až na miliardu a půl,“ říká pro Connect.cz šéf vyhledávacího týmu v Seznamu Marek Gizela. Z těchto souborů se pak dělá selekce. V samotném indexu je zhruba 800 milionů dokumentů.

Vyhledávač Seznamu zaznamenává nárůst také v počtu hledání ze strany uživatelů. Zatímco ještě před rokem se ve špičce odbavovalo 500 dotazů za sekundu (mimo špičku 350), dnes už je to 600 dotazů. „Čísla teď ještě neřeknu, ale signifikantní nárůst zaznamenáváme na mobilních zařízeních,“ doplňuje Gizela.

Vyhledávání Seznamu by v budoucnu mohlo mít problém z toho důvodu, že na rozdíl od Googlu nemá žádnou vlastní mobilní platformu, kde může své služby nastavovat jako výchozí. To je jeden z hlavních důvodů toho, proč společnost vydala vlastní a zdarma dostupný webový prohlížeč pro Android a v budoucnu vydá i verzi pro iOS.

Přes 600 serverů

Seznam v posledním roce přidal do vyhledávacího clusteru 120 nových serverů, vyhledávač už tak funguje na zhruba 620 strojích. Navýšen byl i počet lidí, kteří se o vyhledávání starají – k sedmdesátce vývojářů, výzkumníků, testerů a podobně přibylo dalších 25.

Klepněte pro větší obrázek
Vlastní mobilní webový prohlížeč uvedl Seznam mimo jiné proto, že nemá mobilní platformu.

Samotnému vyhledávání stále dominuje především jazyk C++, u robota nicméně Seznam přešel na Javu, mimo jiné z toho důvodu, aby mohl lépe pracovat s daty. K tomu firma přidala i ukládání velkých dat do Hadoopu. „S ním jsme se tak dva roky učili pracovat a děláme si vlastní úpravy. Teď už Hadoop celkem zvládáme a otevřel se nám díky němu velký prostor pro zlepšování,“ popisuje Gizela.

Seznam má zřejmě největší Hadoop databázi v Česku a svá vlastní vylepšení se snaží vracet zpět open source komunitě. „Samozřejmě ne vše je přijato,“ říká Gazela. Platforma pro ukládání velkých dat Seznamu pomáhá zejména v jejich zpracování. „To, co dříve trvalo zpracovat týdny, dnes zvládneme třeba za 3 dny.“

Firma v tomto ohledu testuje také zpracování dat v operační paměti (in-memory), ne vše jí ale vzhledem ke specifickým a vlastním systémům vyhovuje. „Paměť by zřejmě některé naše procesy urychlila, některé ale ne, protože je proháníme přes procesor,“ vysvětluje šéf „seznamáckého“ vyhledávacího týmu. Více o Hadoopu a velkých datech v Seznamu v našem brzkém článku.

Seznam spustil vlastní zahraniční vyhledávání. V porovnání s Googlem nemůže obstát, podle Gizely je ale výběr stránek přizpůsoben požadavkům a nárokům typických uživatelů Seznamu. Vlastní systém zahraničního hledání má každopádně ten efekt, že po jeho nasazení začal klesat počet hledání přes Bing, se kterým Seznam v zahraničních datech spolupracuje. Větší spoléhání na vlastní síly je logické. I když Microsoft ve Spojených státech svůj vyhledávač neustále vylepšuje a mnohdy je skutečně povedený, v Evropě se prakticky nic nemění a kvalita je pochybná.

Spolupráci zdejší obr volí také v případě obrázků, jež zajišťuje Picsearch. Zde i Seznam tvrdí, že není vše úplně ideální. „Prozatím máme na obrázky stále Picsearch, ale do budoucna nebudu nic vylučovat,“ naznačuje Gizela. Na vyhledávání videí jeho firma spolupracuje zase s ruským Yandexem.

Diskuze (11) Další článek: Nový Avast! 2014: kompletně přepracovaný strážce bezpečí

Témata článku: , , , , , , , , , , , , , , , , ,