Elektřina

Jaké mohou být následky plánované odstávky elektrické energie. Aneb co se může pokazit, to se pokazí

Jaké mohou být následky plánované odstávky elektrické energie. Aneb co se může pokazit, to se pokazí

Kamil Zmeškal na svém blogu popsal, jak v organizaci, která pro svou činnost používá mnoho IT systémů, probíhala jedna plánovaná odstávka elektrické energie. Článek nás zaujal, protože člověku, který zná počítače hlavně z uživatelského hlediska, ukazuje zase trochu jiný svět. Mimochodem na hardwaru vznikla škoda zhruba milion korun.

Jsme rádi, že tento text můžeme publikovat také na Živě.


V naší budově bylo potřeba provést kompletní odstávku el. energie. Kompletní znamená, že jsou vypnuty i zálohované rozvody, které jsou napojené na UPS a diesel generátor. Taková akce je poměrně náročná na přípravu. Ačkoli máme primární produkční hardware pro naše hlavní systémy (ISKN, RÚIAN, ISÚI, VDP atd.) umístěn v housingu, tak přesto je v budově spousta další techniky, včetně záložního centra, pomocných serverů atd. Pro představu, je to několik desítek fyzických serverů (virtuály ani nepočítám), pár enterprise diskových polí, páskové knihovny, switche, firewally a spousta dalších zařízení.

Proces vypínání i zapínání není jednoduchý a obě části trvají vždy několik hodin. Je potřeba jednotlivé zařízení, včetně virtuálních, vypínat ve správném pořadí. Nemůžete např. vypnout diskové pole před vypnutím všech serverů, které jsou na něj napojeny atd. Existuje spousta závislostí, včetně závislostí mezi systémy a opravdu to není legrace. Nakonec se vypnou všechny jističe, i z důvodu zamezení špičky během zapínání. Zapíná se také postupně a je na to plán, jako na vypínání.

Při takové akci vždy něco, jak se lidově říká, odejde. Není to otázka zda, ale kolik. Většinou to odnese pár disků a zdrojů. Ovšem tentokrát se opravdu zadařilo. Mohlo nás už varovat, že ještě před odstávkou odešel disk v poli IBM Storwize V7000. Disk se vyměnil a těsně před započetím odstávky se stihl dopočítat. Uff.

Klepněte pro větší obrázek
IBM Storwize V7000

Vypínání

Vlastní akce pak začala v pátek po 15:00 vypínací fází. Těsně po začátku volal technický pracovník budovy, který má na starost rozvody, našim administrátorům, zda může vypnout zálohované zásuvky v kancelářích. Byl ujištěn, že ani náhodou, protože z PC v kancelářích se kompletně řídí a provádí vypínání techniky. Za dalších 20 sekund napájení zásuvek vypnul... Tím se celé vypínání, za nadávání administrátorů, zkomplikovalo a protáhlo. Po vypnutí, včetně jističů, byly zahájeny nutné práce na el. rozvodech a po jejich dokončení, kolem 22:00, se začalo s druhou fází, zapínáním.

Zapínání

Nebudu to moc protahovat a použiji slova kolegy, který celou akci řídil: "napájení bylo zapnuto před desátou a pak se začaly dít věci"

Nenastartovaly tři LAN switche (součást páteřních rozvodů budovy). Dva jsme postupně vyměnili za náhradní, porty z třetího se dočasně rozdělily do jiných switchů a bude nahrazen v pondělí.

Nenastartoval centrální switch. Po několika marných pokusech jsme to vzdali. Následně jsme to kolem čtvrté ráno zkusili znovu a switch nastartoval – hlásí ale critical chybu na supervisoru (řídící karta switche) a dále vadnou kartu 16x10Gbit. Ostatní karty momentálně fungují.

Nebylo funkční spojení mezi primární a záložní lokalitou (housingové centrum a naše budova v Kobylisích). Konzultací s technikem z Alef0 bylo zjištěno, že v obou DWDM (Dense Wavelength Division Multiplexing) v Kobylisích odešly stejné karty s optickým zesilovačem. Technik nabídnul zapůjčení jedné jejich karty ze skladu (ceníková cena cca 17 000 USD). Přivezl ji po půlnoci a kolem 01:00 bylo spojení lokalit obnoveno alespoň po jedné trase.

Pozn.: Druhou možností bylo, že v housingu vykrademe jedno z funkčních DWDM, abychom zprovoznili alespoň tu jednu trasu.

Nenastartovalo diskové pole IBM Storwize V7000. Do Kobylis přijel v noci technik z GC System a řešil to na místě s podporou IBM. Postupně se došlo k tomu, že velmi pravděpodobně během startu pole zhavaroval jeden z disků tak nešťastně, že se rozhodila konfigurace řadičů. Podpoře IBM se přes vzdálenou správu pole podařilo problém vyřešit a data byla zpřístupněna kolem 02:30. Vadný disk byl následně vyměněn.

Zhavaroval jeden z dvou zdrojů police s řadiči na diskovém poli HPE 3PAR. Náhradní zdroj byl objednán u HPE a dorazil v sobotu ráno kolem 08:00 a byl následně vyměněn.

Ve dvou dalších serverech odešel disk, z toho u jednoho takovým způsobem, že byla poškozena data v celém mirroru a zřejmě bude nutná reinstalace.

U databázového serveru testovacích prostředí EPVDS došlo k poškození souborových systémů, naštěstí se to podařilo opravit.

U jednoho serveru v infrastruktuře DMS odešel zdroj.

Na centrálním firewallu došlo k poškození pravidel, byla nutná jejich úprava.

Pozn.: To zřejmě nebyl přímý následek vypnutí, spíše restartu, dále to zkoumáme.

Celou noc se bojovalo NAS clusterem, pravděpodobně nezvládnul věci kolem problémů s komunikací (a s nedostupnými některými síťovými porty u serverů v Kobylisích). Občas to znamenalo výpadek některých systémů a vyvrcholilo to kolem osmé totálním rozpadem NAS clusteru. Podařilo se ho zprovoznit, znamenalo to ale problémy v některých databázích (např. Nahlížení). Navíc, pravděpodobně z důvodu delší nedostupnosti druhého HPE 3PAR během odstávky vyjmul Oracle clusterware voting disky mapované z tohoto pole a tím pádem při každých problémech kolem NAS docházelo k restartu databází.

Celá akce skončila v sobotu ráno kolem 09:00, kdy všechny systémy opět běžely. Z naší strany ji řídil Jirka V., kterému sekundovali Petr S., Karol J., Ondřej R., Tomáš R. a Martin D. Patří jim velký dík, stejně jako GC System a Alef0 za noční spolupráci.

Závěr

Přemýšlím, jaké si z toho vzít ponaučení. To, že při vypínání, při našem množství techniky v budově, odejdou disky nebo zdroje, je už běžná věc a máme náhradní (nebo jsou redundantní). To, že sebou disk vezme celý RAID nebo znefunkční diskové pole už tak běžné není, ale i to se stane. Ale např. na to, že v obou DWDM odejdou optické zesilovače, se prostě připravit nemůžete (mimo přípravy mít nasmlouvaný dobrý servis).

Kritickou infrastrukturu a produkční část systémů máme v housingu, ale i přesto je v budově velká spousta techniky, která tam už z principu být musí. Pohrávám si s myšlenkou, zda bychom naopak neměli vypínání dělat častěji. Nikoli najednou, ale během celého roku, postupně, v kolečku, aby nebyly tak fatální následky. Možná by se tak podařilo odchytit načatý HW bez vážnějších dopadů. Možná by toho ale naopak díky častějšímu vypínání odešlo ještě více. Kdo ví...

Diskuze (71) Další článek: Nová čtečka Kindle Paperwhite odolá vodě, takže si můžete číst i ve vaně

Témata článku: IBM, NAS, Servery, Oracle, Elektřina, Datacentra, Ceníková cena, Celá akce, Funkční spojení, Správné pořadí, Páteřní rozvod, Ostatní karta, Část systému, Fatální následek, Vypínání, Technický pracovník, Stejná karta, Celá noc, Celý rok, Raid, Testovací prostředí, El energie, Marný pokus, DWDM, Velký dík


Určitě si přečtěte

Vyzkoušeli jsme TP-Link Deco P9: zajistí doma Wi-Fi díky drátům ve zdi

Vyzkoušeli jsme TP-Link Deco P9: zajistí doma Wi-Fi díky drátům ve zdi

** Nová generace Mesh Wi-Fi s propojením přes elektrické rozvody ** Lepší parametry a nižší cena než u předchůdce ** Aplikace zatím podporuje jen základní nastavení bez rozšířených funkcí

Tomáš Holčík | 25

Windows 10X už si můžete vyzkoušet. Novému systému Microsoft zjevně věří

Windows 10X už si můžete vyzkoušet. Novému systému Microsoft zjevně věří

** Windows 10X přijdou již ke konci roku ** Microsoft vydal emulátor, kde systém ukázal ** Vývojáři musí upravit své aplikace

Vladislav Kluska | 62

12 nejšílenějších programovacích jazyků, ze kterých vám praskne hlava

12 nejšílenějších programovacích jazyků, ze kterých vám praskne hlava

** Myslíte si, že umíte programovat? ** Ale prosím vás, zkuste jazyk Wenyan nebo Malbolge ** Z ezoterických jazyků zešílíte, nebo vás zaměstnají v Googlu

Jakub Čížek | 26

Dost bylo moderních Windows 10. Pojďme je přebarvit zpět na Windows 95

Dost bylo moderních Windows 10. Pojďme je přebarvit zpět na Windows 95

** Stařičké Windows 2000 nedávno oslavily 20 let ** Někteří z vás si postěžovali, že to byly poslední hezké Windows ** Fajn, ukážeme vám, jak přebarvit Desítky o 25 let zpět

Jakub Čížek | 44



Aktuální číslo časopisu Computer

Velký test autokamer

Test ATX skříní

Jak surfovat pohodlně

Sportovní aplikace

Jak funguje procesor