Jaké mohou být následky plánované odstávky elektrické energie. Aneb co se může pokazit, to se pokazí

Jaké mohou být následky plánované odstávky elektrické energie. Aneb co se může pokazit, to se pokazí

Kamil Zmeškal na svém blogu popsal, jak v organizaci, která pro svou činnost používá mnoho IT systémů, probíhala jedna plánovaná odstávka elektrické energie. Článek nás zaujal, protože člověku, který zná počítače hlavně z uživatelského hlediska, ukazuje zase trochu jiný svět. Mimochodem na hardwaru vznikla škoda zhruba milion korun.

Jsme rádi, že tento text můžeme publikovat také na Živě.


V naší budově bylo potřeba provést kompletní odstávku el. energie. Kompletní znamená, že jsou vypnuty i zálohované rozvody, které jsou napojené na UPS a diesel generátor. Taková akce je poměrně náročná na přípravu. Ačkoli máme primární produkční hardware pro naše hlavní systémy (ISKN, RÚIAN, ISÚI, VDP atd.) umístěn v housingu, tak přesto je v budově spousta další techniky, včetně záložního centra, pomocných serverů atd. Pro představu, je to několik desítek fyzických serverů (virtuály ani nepočítám), pár enterprise diskových polí, páskové knihovny, switche, firewally a spousta dalších zařízení.

Proces vypínání i zapínání není jednoduchý a obě části trvají vždy několik hodin. Je potřeba jednotlivé zařízení, včetně virtuálních, vypínat ve správném pořadí. Nemůžete např. vypnout diskové pole před vypnutím všech serverů, které jsou na něj napojeny atd. Existuje spousta závislostí, včetně závislostí mezi systémy a opravdu to není legrace. Nakonec se vypnou všechny jističe, i z důvodu zamezení špičky během zapínání. Zapíná se také postupně a je na to plán, jako na vypínání.

Při takové akci vždy něco, jak se lidově říká, odejde. Není to otázka zda, ale kolik. Většinou to odnese pár disků a zdrojů. Ovšem tentokrát se opravdu zadařilo. Mohlo nás už varovat, že ještě před odstávkou odešel disk v poli IBM Storwize V7000. Disk se vyměnil a těsně před započetím odstávky se stihl dopočítat. Uff.

Klepněte pro větší obrázek
IBM Storwize V7000

Vypínání

Vlastní akce pak začala v pátek po 15:00 vypínací fází. Těsně po začátku volal technický pracovník budovy, který má na starost rozvody, našim administrátorům, zda může vypnout zálohované zásuvky v kancelářích. Byl ujištěn, že ani náhodou, protože z PC v kancelářích se kompletně řídí a provádí vypínání techniky. Za dalších 20 sekund napájení zásuvek vypnul... Tím se celé vypínání, za nadávání administrátorů, zkomplikovalo a protáhlo. Po vypnutí, včetně jističů, byly zahájeny nutné práce na el. rozvodech a po jejich dokončení, kolem 22:00, se začalo s druhou fází, zapínáním.

Zapínání

Nebudu to moc protahovat a použiji slova kolegy, který celou akci řídil: "napájení bylo zapnuto před desátou a pak se začaly dít věci"

Nenastartovaly tři LAN switche (součást páteřních rozvodů budovy). Dva jsme postupně vyměnili za náhradní, porty z třetího se dočasně rozdělily do jiných switchů a bude nahrazen v pondělí.

Nenastartoval centrální switch. Po několika marných pokusech jsme to vzdali. Následně jsme to kolem čtvrté ráno zkusili znovu a switch nastartoval – hlásí ale critical chybu na supervisoru (řídící karta switche) a dále vadnou kartu 16x10Gbit. Ostatní karty momentálně fungují.

Nebylo funkční spojení mezi primární a záložní lokalitou (housingové centrum a naše budova v Kobylisích). Konzultací s technikem z Alef0 bylo zjištěno, že v obou DWDM (Dense Wavelength Division Multiplexing) v Kobylisích odešly stejné karty s optickým zesilovačem. Technik nabídnul zapůjčení jedné jejich karty ze skladu (ceníková cena cca 17 000 USD). Přivezl ji po půlnoci a kolem 01:00 bylo spojení lokalit obnoveno alespoň po jedné trase.

Pozn.: Druhou možností bylo, že v housingu vykrademe jedno z funkčních DWDM, abychom zprovoznili alespoň tu jednu trasu.

Nenastartovalo diskové pole IBM Storwize V7000. Do Kobylis přijel v noci technik z GC System a řešil to na místě s podporou IBM. Postupně se došlo k tomu, že velmi pravděpodobně během startu pole zhavaroval jeden z disků tak nešťastně, že se rozhodila konfigurace řadičů. Podpoře IBM se přes vzdálenou správu pole podařilo problém vyřešit a data byla zpřístupněna kolem 02:30. Vadný disk byl následně vyměněn.

Zhavaroval jeden z dvou zdrojů police s řadiči na diskovém poli HPE 3PAR. Náhradní zdroj byl objednán u HPE a dorazil v sobotu ráno kolem 08:00 a byl následně vyměněn.

Ve dvou dalších serverech odešel disk, z toho u jednoho takovým způsobem, že byla poškozena data v celém mirroru a zřejmě bude nutná reinstalace.

U databázového serveru testovacích prostředí EPVDS došlo k poškození souborových systémů, naštěstí se to podařilo opravit.

U jednoho serveru v infrastruktuře DMS odešel zdroj.

Na centrálním firewallu došlo k poškození pravidel, byla nutná jejich úprava.

Pozn.: To zřejmě nebyl přímý následek vypnutí, spíše restartu, dále to zkoumáme.

Celou noc se bojovalo NAS clusterem, pravděpodobně nezvládnul věci kolem problémů s komunikací (a s nedostupnými některými síťovými porty u serverů v Kobylisích). Občas to znamenalo výpadek některých systémů a vyvrcholilo to kolem osmé totálním rozpadem NAS clusteru. Podařilo se ho zprovoznit, znamenalo to ale problémy v některých databázích (např. Nahlížení). Navíc, pravděpodobně z důvodu delší nedostupnosti druhého HPE 3PAR během odstávky vyjmul Oracle clusterware voting disky mapované z tohoto pole a tím pádem při každých problémech kolem NAS docházelo k restartu databází.

Celá akce skončila v sobotu ráno kolem 09:00, kdy všechny systémy opět běžely. Z naší strany ji řídil Jirka V., kterému sekundovali Petr S., Karol J., Ondřej R., Tomáš R. a Martin D. Patří jim velký dík, stejně jako GC System a Alef0 za noční spolupráci.

Závěr

Přemýšlím, jaké si z toho vzít ponaučení. To, že při vypínání, při našem množství techniky v budově, odejdou disky nebo zdroje, je už běžná věc a máme náhradní (nebo jsou redundantní). To, že sebou disk vezme celý RAID nebo znefunkční diskové pole už tak běžné není, ale i to se stane. Ale např. na to, že v obou DWDM odejdou optické zesilovače, se prostě připravit nemůžete (mimo přípravy mít nasmlouvaný dobrý servis).

Kritickou infrastrukturu a produkční část systémů máme v housingu, ale i přesto je v budově velká spousta techniky, která tam už z principu být musí. Pohrávám si s myšlenkou, zda bychom naopak neměli vypínání dělat častěji. Nikoli najednou, ale během celého roku, postupně, v kolečku, aby nebyly tak fatální následky. Možná by se tak podařilo odchytit načatý HW bez vážnějších dopadů. Možná by toho ale naopak díky častějšímu vypínání odešlo ještě více. Kdo ví...

Diskuze (67) Další článek: Nová čtečka Kindle Paperwhite odolá vodě, takže si můžete číst i ve vaně

Témata článku: IBM, Elektřina, Servery, Oracle, Datacentra, NAS, Náhradní zdroj, Hlavní systém, Druhá možnost, Správné pořadí, Celý rok, Druhá fáze, Databázový server, Odstávka, Funkční spojení, Switch, Uživatelské hledisko, Marný pokus, Velký dík, UPS, DWDM, Testovací prostředí, Elektrická energie, Technický pracovník, Pásková knihovna


Určitě si přečtěte

Samořídicí auto jezdilo po silnicích už v roce 1993. Nemělo radar ani GPS

Samořídicí auto jezdilo po silnicích už v roce 1993. Nemělo radar ani GPS

** Myslíte, že vývoj autonomních vozidel je záležitostí aktuálního století? ** Již před 25 lety Bosch předvedl první autonomní auto ** Historie však sahá ještě o něco hlouběji

Karel Kilián | 14

Užitečné funkce ve Windows 10, o kterých možná ani nevíte

Užitečné funkce ve Windows 10, o kterých možná ani nevíte

** Operační systém Windows 10 nabízí spoustu užitečných drobností ** O některých funkcích mnoho uživatelů není ** Ukážeme vám některé užitečné vychytávky

Vladislav Kluska | 81

Modelářský zázrak: Maketa raketoplánu Columbia, která létá jako skutečná raketa

Modelářský zázrak: Maketa raketoplánu Columbia, která létá jako skutečná raketa

** Model raketoplánu Columbia od českého konstruktéra umí i létat ** Obdivuhodný model si vzal 1600 hodin práce ** Podívejte se na fotografie ze stavby a prvního letu

Karel Jeřábek | 20

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

** Přečerpávací vodní elektrárna Dlouhé stráně je obdivuhodné technické dílo ** Stejná turbína vyrábí elektřinu i tlačí vodu zpět do horního jezera ** Strojovna elektrárny je zabudována v podzemí

David Polesný | 35


Aktuální číslo časopisu Computer

Odhalte skryté funkce Windows 10

Test levných Androidů do 4 000 Kč

Srovnání úsporných minipočítačů

Změřili jsme rychlost 10Gb/s ethernetu