Jaké mohou být následky plánované odstávky elektrické energie. Aneb co se může pokazit, to se pokazí

Jaké mohou být následky plánované odstávky elektrické energie. Aneb co se může pokazit, to se pokazí

Kamil Zmeškal na svém blogu popsal, jak v organizaci, která pro svou činnost používá mnoho IT systémů, probíhala jedna plánovaná odstávka elektrické energie. Článek nás zaujal, protože člověku, který zná počítače hlavně z uživatelského hlediska, ukazuje zase trochu jiný svět. Mimochodem na hardwaru vznikla škoda zhruba milion korun.

Jsme rádi, že tento text můžeme publikovat také na Živě.


V naší budově bylo potřeba provést kompletní odstávku el. energie. Kompletní znamená, že jsou vypnuty i zálohované rozvody, které jsou napojené na UPS a diesel generátor. Taková akce je poměrně náročná na přípravu. Ačkoli máme primární produkční hardware pro naše hlavní systémy (ISKN, RÚIAN, ISÚI, VDP atd.) umístěn v housingu, tak přesto je v budově spousta další techniky, včetně záložního centra, pomocných serverů atd. Pro představu, je to několik desítek fyzických serverů (virtuály ani nepočítám), pár enterprise diskových polí, páskové knihovny, switche, firewally a spousta dalších zařízení.

Proces vypínání i zapínání není jednoduchý a obě části trvají vždy několik hodin. Je potřeba jednotlivé zařízení, včetně virtuálních, vypínat ve správném pořadí. Nemůžete např. vypnout diskové pole před vypnutím všech serverů, které jsou na něj napojeny atd. Existuje spousta závislostí, včetně závislostí mezi systémy a opravdu to není legrace. Nakonec se vypnou všechny jističe, i z důvodu zamezení špičky během zapínání. Zapíná se také postupně a je na to plán, jako na vypínání.

Při takové akci vždy něco, jak se lidově říká, odejde. Není to otázka zda, ale kolik. Většinou to odnese pár disků a zdrojů. Ovšem tentokrát se opravdu zadařilo. Mohlo nás už varovat, že ještě před odstávkou odešel disk v poli IBM Storwize V7000. Disk se vyměnil a těsně před započetím odstávky se stihl dopočítat. Uff.

Klepněte pro větší obrázek
IBM Storwize V7000

Vypínání

Vlastní akce pak začala v pátek po 15:00 vypínací fází. Těsně po začátku volal technický pracovník budovy, který má na starost rozvody, našim administrátorům, zda může vypnout zálohované zásuvky v kancelářích. Byl ujištěn, že ani náhodou, protože z PC v kancelářích se kompletně řídí a provádí vypínání techniky. Za dalších 20 sekund napájení zásuvek vypnul... Tím se celé vypínání, za nadávání administrátorů, zkomplikovalo a protáhlo. Po vypnutí, včetně jističů, byly zahájeny nutné práce na el. rozvodech a po jejich dokončení, kolem 22:00, se začalo s druhou fází, zapínáním.

Zapínání

Nebudu to moc protahovat a použiji slova kolegy, který celou akci řídil: "napájení bylo zapnuto před desátou a pak se začaly dít věci"

Nenastartovaly tři LAN switche (součást páteřních rozvodů budovy). Dva jsme postupně vyměnili za náhradní, porty z třetího se dočasně rozdělily do jiných switchů a bude nahrazen v pondělí.

Nenastartoval centrální switch. Po několika marných pokusech jsme to vzdali. Následně jsme to kolem čtvrté ráno zkusili znovu a switch nastartoval – hlásí ale critical chybu na supervisoru (řídící karta switche) a dále vadnou kartu 16x10Gbit. Ostatní karty momentálně fungují.

Nebylo funkční spojení mezi primární a záložní lokalitou (housingové centrum a naše budova v Kobylisích). Konzultací s technikem z Alef0 bylo zjištěno, že v obou DWDM (Dense Wavelength Division Multiplexing) v Kobylisích odešly stejné karty s optickým zesilovačem. Technik nabídnul zapůjčení jedné jejich karty ze skladu (ceníková cena cca 17 000 USD). Přivezl ji po půlnoci a kolem 01:00 bylo spojení lokalit obnoveno alespoň po jedné trase.

Pozn.: Druhou možností bylo, že v housingu vykrademe jedno z funkčních DWDM, abychom zprovoznili alespoň tu jednu trasu.

Nenastartovalo diskové pole IBM Storwize V7000. Do Kobylis přijel v noci technik z GC System a řešil to na místě s podporou IBM. Postupně se došlo k tomu, že velmi pravděpodobně během startu pole zhavaroval jeden z disků tak nešťastně, že se rozhodila konfigurace řadičů. Podpoře IBM se přes vzdálenou správu pole podařilo problém vyřešit a data byla zpřístupněna kolem 02:30. Vadný disk byl následně vyměněn.

Zhavaroval jeden z dvou zdrojů police s řadiči na diskovém poli HPE 3PAR. Náhradní zdroj byl objednán u HPE a dorazil v sobotu ráno kolem 08:00 a byl následně vyměněn.

Ve dvou dalších serverech odešel disk, z toho u jednoho takovým způsobem, že byla poškozena data v celém mirroru a zřejmě bude nutná reinstalace.

U databázového serveru testovacích prostředí EPVDS došlo k poškození souborových systémů, naštěstí se to podařilo opravit.

U jednoho serveru v infrastruktuře DMS odešel zdroj.

Na centrálním firewallu došlo k poškození pravidel, byla nutná jejich úprava.

Pozn.: To zřejmě nebyl přímý následek vypnutí, spíše restartu, dále to zkoumáme.

Celou noc se bojovalo NAS clusterem, pravděpodobně nezvládnul věci kolem problémů s komunikací (a s nedostupnými některými síťovými porty u serverů v Kobylisích). Občas to znamenalo výpadek některých systémů a vyvrcholilo to kolem osmé totálním rozpadem NAS clusteru. Podařilo se ho zprovoznit, znamenalo to ale problémy v některých databázích (např. Nahlížení). Navíc, pravděpodobně z důvodu delší nedostupnosti druhého HPE 3PAR během odstávky vyjmul Oracle clusterware voting disky mapované z tohoto pole a tím pádem při každých problémech kolem NAS docházelo k restartu databází.

Celá akce skončila v sobotu ráno kolem 09:00, kdy všechny systémy opět běžely. Z naší strany ji řídil Jirka V., kterému sekundovali Petr S., Karol J., Ondřej R., Tomáš R. a Martin D. Patří jim velký dík, stejně jako GC System a Alef0 za noční spolupráci.

Závěr

Přemýšlím, jaké si z toho vzít ponaučení. To, že při vypínání, při našem množství techniky v budově, odejdou disky nebo zdroje, je už běžná věc a máme náhradní (nebo jsou redundantní). To, že sebou disk vezme celý RAID nebo znefunkční diskové pole už tak běžné není, ale i to se stane. Ale např. na to, že v obou DWDM odejdou optické zesilovače, se prostě připravit nemůžete (mimo přípravy mít nasmlouvaný dobrý servis).

Kritickou infrastrukturu a produkční část systémů máme v housingu, ale i přesto je v budově velká spousta techniky, která tam už z principu být musí. Pohrávám si s myšlenkou, zda bychom naopak neměli vypínání dělat častěji. Nikoli najednou, ale během celého roku, postupně, v kolečku, aby nebyly tak fatální následky. Možná by se tak podařilo odchytit načatý HW bez vážnějších dopadů. Možná by toho ale naopak díky častějšímu vypínání odešlo ještě více. Kdo ví...

Diskuze (67) Další článek: Nová čtečka Kindle Paperwhite odolá vodě, takže si můžete číst i ve vaně

Témata článku: IBM, Servery, Elektřina, Oracle, Datacentra, NAS, El energie, Vypínání, Uživatelské hledisko, Ostatní karta, Fatální následek, Disk, Souborový systém, UPS, Fyzický server, Druhá fáze, El rozvod, Centrální firewall, Zapínání, Celá noc, Stejná karta, Běžná věc, Technický pracovník, Vzdálená správa, Pásková knihovna


Určitě si přečtěte

Photolemur 3: Prostě do něj přetáhnete fotky a začne se dít magie. Tedy údajně...

Photolemur 3: Prostě do něj přetáhnete fotky a začne se dít magie. Tedy údajně...

** Je lepší nabušený Photoshop, nebo program s jedním tlačítkem? ** Photolemur si myslí to druhé ** Tento fotoeditor neumí skoro nic, a přitom (skoro) všechno

Jakub Čížek | 20

Byli tam! Důkazy o přistání na Měsíci, Lunochody i čínská sonda jsou vidět z vesmíru

Byli tam! Důkazy o přistání na Měsíci, Lunochody i čínská sonda jsou vidět z vesmíru

** Sonda LRO pořídila z oběžné dráhy Měsíce zajímavé snímky ** Jsou na nich vidět artefakty všech misí programu Apolla, které přistály na povrchu Měsíce ** Jde například o části lunárních modulů, rovery a dokonce i vlajky

Petr Kubala | 65


Aktuální číslo časopisu Computer

Odhalte skryté funkce Windows 10

Test levných Androidů do 4 000 Kč

Srovnání úsporných minipočítačů

Změřili jsme rychlost 10Gb/s ethernetu