Seznam už nějakou dobu buduje vlastní PaaS (Platform as a Service), který označuje jako SCIF - Seznam Computing Infrastructure. Za těmito zkratkami se skrývá platforma na vlastních serverech Seznamu, které jsou přímo optimalizované pro běh jeho služeb, jako je Seznam e-mail, Mapy.cz, obsahové weby a podobně. Seznam si dělá stále více věcí sám a platí to nejen o softwaru, ale i o hardwaru.
Sjednocení a zjednodušení
Vzhledem k velkému rozkroku Seznamu z hlediska produktů a služeb používá velké množství technologií. Jak ale Seznam rostl a zvětšoval počet služeb, znamenalo to i zvětšování rozdílnosti. Každá služba přece jen vyžadovala trochu jiné technologie a měla jiné nároky například na výkon, rychlost přenosu dat a další vlastnosti infrastruktury.
Vznikla proto myšlenka zajistit efektivnější řešení, které co nejvíce sjednotí jednotlivé technologie v rámci infrastruktury, což by zjednodušilo správu, ale i nasazování, automatizaci, řešení problémů a podobně. Zatímco doposud tak jednotlivé služby existovaly na vlastních „ostrovech“, s novou platformou je snaha je dostat na jeden společný standardizovaný „ostrov“. Samozřejmě to platí jen pro ty služby, kde se to skutečně vyplatí a znamená to přidanou hodnotu.
SCIF je tak obecnou platformou, do které Seznam postupně přenáší jednotlivé služby, u kterých není efektivní, aby běžely odděleně a samostatně. PaaS tak odstraní problémy a nutnosti kolem nastavení hardwaru, nastavení sítě (vše řešení virtuálními sítěmi - SDN) a dalšími částmi.
Privátní cloud s využitím open source
I když Seznam nejprve uvažoval o řešení privátního cloudu od třetí strany, nakonec si vybral cestu vlastního řešení, které bude postavené na open source technologiích (OpenStack, Kubernetes). Oproti hotovému řešení to sice znamená mnohem delší čas, než se vše vybuduje a nastaví, výsledkem ale bude levnější a efektivnější řešení postavené na míru přímo Seznamu a jeho potřebám.
Z pohledu hardwaru se sice Seznam snaží, aby docházelo ke sjednocení a standardním konfiguracím, což se ještě více odruší v rámci vyšší vrstvy cloudu, najdou se ale výjimky. Některé služby zkrátka mají velmi specifické požadavky, které těží například z vysokého procesorového výkonu, nebo operační paměti, úložiště a podobně.
Vývoj SCIF tak znamená, že se částečně musí přizpůsobit obě strany - hardware a cloud (platforma) i stávající nastavení služby. Najít ideální poměr tak, aby se to vyplatilo i z pohledu financí, je velmi těžké. Po roce a půl už Seznamu funguje většina infrastrukturní části, stále je ale nutné vyvinout zbývající „díly“, aby bylo možné většinu služeb Seznamu efektivně přesunout a provozovat ve SCIFu.
Využití stávajících zdrojů
Seznam nemá nějaký jednotný typ serverů s jednotnou konfigurací. Konfigurace typicky zahrnuje 24jádrové až 40jádrové čipy (z velké části Intel) a operační paměti 64 GB až 256 GB. Kde to dává smysl, už běží na SSD, kde je nutná pouze kapacita (třeba zálohy a podobně), tam se stále používají klasické pevné disky. Řádově Seznam pracuje s přibližně petabajty dat. Vše se staví nad L3 sítí (vše je routované), což se hodí právě při použití dockerů a kontejnerů.
Jedno ze dvou datacenter Seznam.cz
Seznam má dvě datacentra (Nagano a Kokura), přičemž průměrný datový tok ven je aktuálně kolem 30 Gb/s. To ale neplatí, když se objeví něco skutečně virálního, například nové video od Kazmy, kdy se špička dostane klidně i na 130 Gb/s. Zahraniční datový tok je v jednotkách gigabitů za sekundu a komunikace mezi datovými centry je v oblasti stovek Gb/s. Výhodou je, že každé datové centrum Seznamu má rychlé připojení do různých POPů českého NIX.cz, včetně nezávislé linky do zahraničí a nechybí ani dva nezávislé okruhy mezi samotnými datacentry.
Každé datacentrum Seznamu dokáže fungovat samostatně, takže si Seznam poradí s výpadkem i celého datacentra. V běžném režimu se datový provoz vyřizuje rovnoměrně a vše se neustále synchronizuje.
Několik serverů je i přímo v hlavním sídle Seznamu, hlavně kvůli blízkosti vzhledem k velkému datovému toku z televize Seznam a videu, které se tvoří na místě v rámci redakce.
Seznam má aktuálně tisíce serverů a na SCIF už běží přibližně 10 %, tedy stovky serverů. Nasazování a přesouvání tak probíhá postupně a opatrně.
Největší službou je stále vyhledávač
Googlu se v našich končinách nepodařilo porazit Seznam v oblasti vyhledávání tak snadno jako v jiných zemích, a tak řešení Seznamu stále patří mezi největší produkty. Dává to smysl - vyhledávač musí neustále prohledávat a indexovat obrovské množství dat.
Přehled nejnavštěvovanějších webů v Česku
Pokud jde o samotné produkty z pohledu největší návštěvnosti, je jedničkou vstupní stránka Seznam.cz (3,8 milionů RU), následuje zpravodajský web Novinky.cz (1,7 milionu RU) a bulvární Super.cz (1,5 milionu RU).
Vlastní hardware
Seznam si staví i vlastní hardware - jak samotné šasi pro specifické servery (byť stále používají standardní racky), tak i samotné servery. Vývoj vychází z open hardwaru (Open Compute Project) a hardwarový tým si navrhuje a vyvíjí vlastní specializované desky pro úsporná úložiště postavená na čtyřjádrových procesorech ARM (Marvell, A72) s 4 GB operační paměti s ECC a gigabitovým ethernetem.
V tomto případě jde tedy o co nejnižší cenu a nejnižší spotřebu vzhledem k tomu, že se věci postupně poškozují a odchází do křemíkového nebe. Seznam už má dokonce k dispozici vzorky nových 4TB SSD s QLC čipy (čtyři bity na buňku, rozhraní SATA) od Micronu, které jsou zase o něco levnější a poskytují vyšší kapacitu. V tomto případě nevadí, že se jedná o SSD s QLC čipy, které mají nižší životnost (zvládnou zapsat menší množství dat), protože budou využívány pro oblast, kde primárně dochází ke čtení (například Seznam E-mail). Obvyklý zápis je asi 0,2 kapacity za den.
I když Micron nabízí i 8TB modely, ty už se dle hardwarové specialisty nevyplatí, protože to znamená příliš velké množství dat, o které se v případě závady přijde. Mimo to mají vyzkoušeno, že 1 TB kapacity znamená nutnost 1 GB operační paměti. A protože současné modely těchto počítačů mají 4 GB operační paměti, volí právě 4TB SSD.
Seznam si vyvíjí i vlastní servery postavené na 4jádrových čipech ARM. Cílem jsou co nejlevnější úložiště dat
Jeden počítač má spotřebu kolem 5 W, s SSD pak asi 12 W v zátěži. V jednom šasi jich je celkem 8, přičemž jednotlivé počítače mají jen malý pasivní chladič a řeší se jen základní průtok vzduchu skrze celé šasi. V datacentrech se stávající běžné 19palcové racky, Seznam se zatím nechystá do návrhu vlastních dle OCP.
Systém nasazování probíhá způsobem postupného nahrazování starých serverů (jednou za 4 až 5 let), takže průběžně dochází k výměně. Seznam E-mail sice využívá asi 4 PB dat, ale nyní se produkuje více videoobsahu, což znamená větší nároky na levnou kapacitu.
Z testovacího hardwarového koutku
Typickým důvodem výměny hardwaru je zhoršení poměru výkon/spotřeba, zvýšení chybovosti, konec podpory od výrobce bez možnosti koupit náhradní díly a podobně. Seznam už se těší i na nové vícejádrové procesory EPYC od AMD, které by měly být k dispozici k testování už během následujících měsíců.
Jaké počítače používají v Seznamu
Když už jsme měli možnost „výslechu“ hardwarových expertů od Seznamu, dostal se nám do ruky i jejich IT administrátor, kterého jsme se nemohli nezeptat na zajímavou otázku – jaké počítače Seznam dává svým zaměstnancům?
Standardně se jedná o dvě kategorie od značek Dell a Apple. V případě notebooku od Dellu jde o konfigurace s 8 GB paměti s 256GB SSD nebo 16 GB paměti a 512GB SSD. U Applu je to pak MacBook Air nebo MacBook Pro. Specializovaná pracoviště pak mají pochopitelně desktopy třeba s výkonnými grafickými kartami a více monitory.