co to používáte za krámy, co nevydrží vypnutímělo se to reklamovat
Ty umřelé switche mi nápadně připomínají Cat6500 a jejich SUP720-10G a WS-X6716-10G Byly tam chyby operačních pamětí, které se projevovaly obvykle tak po dvou letech běhu při zapínání. Zajímalo by mě, jestli jsem se trefil. Pár nocí jsem strávil plánovanými odstávkami s HW za pár mega naloženém v autě s tím, že až to budou zapínat, tak se ukáže kolik toho odešlo. Myslím že jsem nikdy nejel domů "s práznou" Ale byla to chyba ohlášená výrobcem, námi ohlášená zákazníkům a předem se vědělo do čeho jdem. A samozřejmě to bylo kryté podporou výrobce a v rámci ní bezplatně vyměňováno, což je běžná praxe.
Вот техника большая.Co takhle mimořádně silné erupce na Slunci, kterými nás straší vědátoři.Co se týká využívání počítačů, asi by méně bylo lepší.
Není to tak dávno (začátkem léta) co mě kamarád požádal jestli bych jim přes víkend nepomohl se stěhováním firemního HW do nové serverovny. Nebylo toho sice tolik co popisuje autor článku, zvládli jsme to odvézt v dodávce a dvou osobních autech. Když nepočítám jeden mrtvý server - který mimochodem experti při vytahování z auta upustili, tak vše co jsme na místě A vypnuli jsme na místě B úspěšně zapnuli. Tak nevím,... asi jsme něco udělali blbě, když nám neodešel žádný disk, žádné RAID pole, ani žádný síťový prvek.
Výjimka potvrzující pravidlo a děkujte za to veškerému technobožstvu 😀 Obvykle u veškeré elektroniky, která je konstruována na nepřetržitý provoz, je vypnutí noční můra, napříč celý průmyslem, nejen v IT
Jojo, dodnes si vybavuju, jak jsme vypinali serverovnu 31.12.1999 kvuli Y2K. Sice bylo vsechno otestovano, ale i tak bylo vedenim rozhodnuto, ze to radsi cele vypneme. Odeslo nastesti jen par disku. A plna zaloha DB serveru nam po 14 hodinach dobehla ve 23:41, bylo to o fous :)
Práve pre toto som nemal rád profylaktické prehliadky serverov. Vypol SRV, vyčistil, zapojil a zapol resp. nezapol 😀 zdroje, disky, raid polia. Na jednej prevádzke som strávil 15 hodín pri serveri, kedy po vypnutí odišli oba disky v RAIDe.
Ja hlavne nechapu proc vypinali tu elektrinu, dyt upravy na rozvodech se daji delat i pod napetim (PPN) viz: https://www.energetikainfo.cz/33/pravidla-pro-provadeni... Me elektrikar rict ze chce vypnout elektrinu i zalohy pro takovou serverovnu tak ho poslu do pr*ele jestli se nezblaznil, at si vezme 500CZK za hodinu vic a udela to pekne pod napetim bez vypadku... dyt to neni nic tezkeho a je to celkem standardni vec.
Protože třeba na 40 kV přívodu se dělá pod napětím fakt skvěle a všichni to dělají s radostí. 😀
Ehm... VN privody jsou u nas vetsinou 22kV... lidi jsou na to vycviceni a taky jsou za to dobre zaplaceni...A navic kdyby ten servis byl na VN tak by to bylo jeste jednodusi, stacilo si pronajmout diesel elektrocentralu a soupnout ji za trafo (odpojit kraviny) a VN se mohlo v klidu vypnout.Je tolik reseni jak to udelat bez vypadku...
Až si ti chlap usmaží hlavu v rozváděči, protože na něj někdo zrovna zařve "Honzo, pocem..." a on si neuvědomí, kde tu hlavu zrovna má, tak to pak vysvětluj jeho manželce se 2 děckama, že jsou servery přednější než život jejího starýho...
To mi připomíná zkušenost jednoho revizáka, kterou nám říkal na posledním školení vyhlášky 50. Prý když přišel poprvé dělat revizi do nějakého velkého rozvaděče v nějaké fabrice, tak tam hned za dveřmi bylo něco, co vypadalo jako zábradlí. Ale ještě než se toho stačil dotknout, tak pracovník, který ho doprovázel, ho varoval: "Toho se nechytejte, to je fáze a už to tady zabilo 2 revizáky před Vámi."
Proč vůbec firmy používají takový šunt, který jim s oblibou shoří při výpadku proudu?Prostě takový HW nebrat, a raději kupovat ten co neshoří jen tak bezdůvodně.
Jasne, staci si vybrat v e-shopu ty kusy HW, ktere jsou oznacene indexem horlavosti "A". Cokoli vyssiho nez "D" proste nebrat! 😉
Zajímalo by mě, jak to ekonomicky vychází když se na jedné straně použijí neskutečně drahé servery, raidy, disková pole apod. kde i náhradní komponenty jsou neskutečně drahé, stejně tak support. A na druhé straně levný komoditní HW, kterého lze za ty peníze pořídit mnohokrát více kusů a redundance a dostupnost se vyřeší na SW úrovni.Nemůžu se zbavit pocitu, že v první variantě se za těžký prachy pořizuje něco, co stejně na úrovni HW nezajistí to, kvůli čemu se to pořizuje (viz tento případ).Je tu někdo, kdo má zkušenosti s využitím obou řešení?
Je to prosté. Kdysi mi vypadla karta na ABB robotu a přišel ředitel a říkal: "Kolik to asi může stát? Pár stovek?" (v reálu více než 100k). Takže kdo to nakupuje a proč? A kde ty peníze ve výsledku jdou? Takto je to se vším. "Celek je tak slabý jako je ta nejslabší část" a každá ryba ve výsledku smrdí od hlavy. Prostě věci se kazí a takto to je. A já už jsem dávno přišel na to, že když to není moje tak mi je to prostě šumák. A zákazník? Boží prostoto, ten už dávno nikoho nezajímá. 😀
Ta "drazsi" varianta se nesklada jen z toho HW. Tam je (velmi, velmi dobre) predplaceny clovek, co sedi 24/7 u telefonu a v pripade problemu prijede a s sebou ma nahradni dily. Pak je tu jeste dalsi modni vec: ISO, audit, ... 😃 V tomhle se toci strasny penize.
Navíc hardware nikoho neživí. Důležitý je software. Autoři firemního informačního SW, kteří pro firmu tu věc léta vyvíjejí a udržují, garantují funkčnost na takové a takové verzi databáze, na takovém a takovém OS, kde to mají detailně otestované... Výrobci OS a databáze mají zase seznam podporovaných virtualizací a tam je zase nějaký compatibility guide. A to jde nejen na výrobce a typ serveru, ale často i na konkrétní verze firmware, biosů, verzí ovladačů a podobně.... A ono se to opravdu sleduje... Zkuste řešit třeba v vmware (a jinde je to stejné) nějaký problém, jako první je zajímá, zda to jede na podporovaném HW, zda jsou tam správné patche atd atd atd... Nezřídka vyžadují poslání výpisu z jejich diagnostiky, kde je i detailní konfigurace, jinak se tím vůbec nezačnou zabývat. Jo, vy tam máte HW, který není podporovaný? Aha. No, tak to je nám líto, takovou konfiguraci my nepodporujeme, nastudujte si dokument XYZ, pěkný den... A samozřejmě, podporovaný je většinou - nebo přinejmenším jako první - hardware od velkých výrobců, HP, Dell a tak..
Jasně, to je situace, kdy chce firma použít nějaký hotový systém.Ale co v případě, kdy se celý ten SW píše přímo na zakázku, jako třeba zde pro katastr?
No, pochybuji, že by někdo napsal systém od nuly stylem COPY CON PROGRAM.EXE . 😉 Vždycky tam jsou nějaké standardní databáze, když nic jiného, vždycky je to vyvíjené v nějakém prostředí, počítám. A i kdyby to teoreticky bylo opravdu napsané naprosto na míru, od prvního bitu do konce, ve svém vlastním světě, kdo by to ladil v nějakém noname prostředí? Když to za rok přestanou dělat a už toho výrobce nikdo nikdy neuvidí? Nebo stačí, aby jen zmizel a přestal vydávat drivery a podobně.
Na zakázku neznamená od nuly. Přece existují DB, které nepotřebují k běhu jen diskový pole od IBM, stejně tak jsou nástroje na výpočty v clusteru, rozkládání zátěže atd.Vím, že existuje třeba Hadoop, ale nemám s tím žádné zkušenosti, tak nevím jak to vypadá v praxi...
No vyjde to ekonomicky lepe pro low-end HW pokud mate lidi co to dokazi osefovat a udrzet v chodu viz napr. google a jeho datacentra postaveny na bazi "slef-made" PC.
Ekonomicky to vyjde lepe pro low-end jen z hlediska nakupu HW. Provoz (vcetne treba el. energie), administrace a vyvoj budou pro ten low-end HW drazsi. Nehlede na to, ze nesezenes lidi, kteri by to na tom low-end HW dokazali spolehlive provozovat.
"Už jsem Vám jednou řekl, že to není moje auto" (Policajt nebo rošťák) 😀
Imho, to ze odejdou disky/nic je asi bezna zalezitos. Navic kvalita jde cim dal tim vice do riti, resp. technologie jsou na hranici materialu a to se pak projevi. Sveho casu jsem adminoval malou serverovnu kde byly servriky SunFire VZ20 ( 1U udelatka, ale bezely 14 let a ani v jednom z nich nechcipnul disk ) dneska se TCO pocita vetsinou na 5let a chcipe to jeste drive. Zrovna ted v tejdnu jsem kolegovi pomahal vynaset elektroodpad v podobe nekolika krabic mrtvejch SAS/SATA disku 🙂. Jo a perlicka nakonec, svyho casu jsem delal v jedne firme kde byla opravdu tuna zeleza ( pocitano na 100vky kusu serveru a tisice PC ) a do jedne ze servereoven prisel jakysi smoula elektrikar na revizi tusim. Nahodili se agregaty, prehodilo se to na UPSky a vypnul hlavni privod a ten smoula hrabnul sroubovakem do vetve s UPSkama a cely to poslal dolu ... servery se nahazovaly cele dopoledne admini ho milovali.
Jeste jsem chtel napsat, ze to ze toho pochcipalo tolik je divny, tipoval bych to na nejakou "kulisarnu" na rozvodech el.energie v dobe toho vypinani "technikem specialistou" co to adminum vypnul pod rukama.
To je tak, když se celá architektura spoléhá na krabice za miliony.Když je pěkně všechno komoditní hardware a architektura systému s výpadkem libovolné části počítá, nikdy z toho nemůže být takový problém.
přesně tak, musí se počítat s výpadkem , architektura na to musí být připravena
Jestli je u těch zařízení 50% šance, že po vypnutí už nenaběhnou, tak to aby měli všechno 10x 🙂.
"Když je pěkně všechno komoditní hardware a architektura systému s výpadkem libovolné části počítá, nikdy z toho nemůže být takový problém."Jenze takovy system je vyrazne slozitejsi na vyvoj a testovani. A obvykle drazsi na provoz.Ja ten clanek ctu jako velky uspech. Systemy bezi, administratori se zapotili, ale vetsinu dali do poradku prakticky hned. Smlouvy s dodavateli zafungovaly (je levnejsi mit nasmlouvane ze vam do dvou nebo ctyr hodin privezou nahradni switch, nez na switch za par set tisic nechat padat prach ve skladu), dodavatele uprostred noci byli dostupni a prakticky obratem dodali/vyresili co meli...Za mne velke plus.
totální neschopnost adminu, v korporátní sféře by všichni letěli1/jak může vypínat elektriku nějaký technický pracovník to si přece mají hlídat sami2/proč vůbec vypínat elektriku vždycky to jde nějak udělat bez vypnutí3/když už vypínám mám připravenou druhou lokalitu kde je stejná konfigurace aby systémy bežely dál , je jasné že zapnutí nebude jen tak
Zkuste jim poslat CV, takové odborníky určitě využijí.
tak já už práci mám ..proč třeba neměli rezervní ten hlavní switch ve skladě když už neměli zapojené dva vedle sebe vždycky muže odejít a spolehat jen na 1 nejde
Nevím, já takovéhle věci neadministruji tak neposoudím, co je všechno (ne)realizovatelné. Ale nemyslím, že tam budou úplní blbci, co neví, jak to mají dělat. To vypínání proudu by asi taky nedělali zbytečně, ale mohli napsat důvod, proč se to musí dělat a proč to nejde nechat třeba na UPS a diesel agregátu. Že u zařízení za tisíce EUR stačí, aby se jednou za čas vypnulo a pak už nenaběhne je taky zajímavé. U disku bych to ještě pochopil, ale proč to dělá elektronika bez pohyblivých částí v klimatizované místnosti. A jestli tomu vadí kolísání teplot, proč to nikdo nezkusí během odpojení třeba zahřívat, aby ta nebyla taková změna teploty...
šetří se na materiálech, na návrzích, na komponentech, na kontrole. Podle hardwerářů má na to vliv dokonce i složení pájecí směsi, ve které se zákonem nebo předpisem musel snížit podíl olova. Podobně třeba kondenzátory, když se použijí méně kvalitní, ale ještě v toleranci, ušetří se cent na kuse a v produkci to znamená statisíce... Takových "nepodstatných" drobností je v tom počítači nebo serveru ušetřeno sto a ve výsledku se to už pozná docela hodně...
To chápu u spotřební elektroniky, ale těch serverů a dalších zařízení za milion se snad neprodává tolik a kdyby to cenu zvýšilo o pár tisíc, tak to už zákazníka nevytrhne. Třeba ty ekologické pájky s blbými vlastnostmi už ale asi nezachrání nic, to je fakt...
Setri se uplne vsude. Krome armady a zdravotnictvi. V EU je zakaz pouzivani olova a tak casem letovane spoje praskaji. Pokud je neco dlouho zapnute, funguje to do okamziku vypnuti. Mam doma nejmin pet let nonstop zapnuty zdroj na UPC modem. Plastova krabicka bez otvoru, pekne topi. V ulici byl na jedno dopoledne vypnuty proud. Po zapnuti modem nenajel, odesel zdroj (nafouknute kondenzatory). Po jejich vymene je opet vse funkcni. Pokud by nic nevypinali, jel by zdroj doted. Stejne tak kdysi v praci odesel monitor na ovladani provozu (dotykovy). Vypnul se a pak uz nenajel. Zkusil se pouzit vedle stojici jiny. Vypnul se, prenesl, zapnul a .. bylo po nem. Jestli tu je nejaky pametnik, tak si treba pamatuje, ze na tehdejsich flash discich byl mechanicky prepinac, ktery zamezil zapisu dat. Clovek tak mel jistotu, ze si odnikud neprinese vir. Jeho cena urcite neni vyssi nez par korun. Proste jak jde usetrit, tak se usetri. Podivejte se do USB kabelu, kolik je tam medi :) Malinke ozubene kolecko z kovu je taky jen nepatrne drazsi nez plastove. Ale zeptam se jinak. Chcete prijit o praci jen proto, ze vyrabite neco, co vydrzi vecne? Nebo jste radeji, ze mate staly prodej veci s planovanou zivotnosti?
... a navíc divize servisu a technické podpory přece taky má vlastní plány a rozpočty, které musí splnit...
Tohle bohužel není o šetření "tisíců". Kdysi jsem pracoval pro firmu co vyvíjela a nechávala si vyrábět serverové desky na zakázku do specielního šasi. Když "otestované" desky přišly od dodavatele, daly se do "pece" kde se několikrát ohřály a ochladily definovaným profilem a následně se znovu otestovaly. 1. Závad bylo relativně hodně, hlavně po nástupu RoHS (pájka bez olova = mnohem vyšší počet studených spojů)2. tohle jde dělat v malém počtu, těžko předpokládat něco takového u výrobce který chrlí deseti tisíce desek týdně3. výsledek: <1% závadovost během prvních 5 let provozu (5 let se sledovalo)4. Z pohledu nás výrobce cena vzrostla na dvojnásobek. Kolik lidí bude ochotno investovat dvojnásobek? Aby potenciální závadovost byla 1% vs 5% (10%) - netuším jaká může být dlouhodobá závadovost u běžného HW.5. tohle se vyplatí u speciálu, kde to zákazník požaduje a počítá i se specielní cenou, ale takových je málo6. Nám se to tehdá vyplatilo, jelikož jsme náklady na případnou výměnu nesli my a větší počet problémů mohl znamenat přechod zákazníka ke konkurenci a náš konec.
haha, je videt ze jste ve statni sprave nikdy nedelal.. co takhle deset let stary PC (core2duo) u uzivatelu, u nekterejch na desce nafoukly kondenzatory, zazrak ze to jeste funguje a samozrejme na nove PC nejsou penize. Delal by jste informatika ktery je jediny na urade s 50 zemestnanci a mel by jste na starosti uplne vse od serveru az po podporu uzivatelu za plat cca 20tis hrubyho?
Co má říkat školství - učebna s dc7900, polovina z nich má vyteklé kondenzátory, občas se jim nechce startovat. Podle obce není třeba měnit, vždyť to ještě funguje 🙁
To je všechno o penězích. Alternativní lokalita znamená náklady krát dva, či spíš více. Ajťákům by se to asi líbilo, ale otázka je, zda vedení ty prachy dá, nebo bude nějaké výpadky - notabene plánované - brát jako snesitelnou cenu za úsporu nákladů. Záleží, co to je za obor, zda jde o technologie pro vlastní potřebu, nebo pro zákazníky, nakolik to jsou kritické provozy atd atd atd...
tak zrovna nahlížení do katastru mi přijde jako kritická státní infrastruktura co by si zasloužila záložní lokalitu aspoň jednu, myslím že jsem v ten pátek zrovna nadával proč to nejde
Pokud se nepletu, katastr se záložní lokalitou počítá, ale nemá ji aktivní. Pokud by došlo ke katastrofickému scénáři, existuje distaster recovery scenario na obnovu těhle věcí v záložní lokalitě. Nejedná se ale o kritickou záležitost, která by nemohla 24 hodin počkat, takže nemá smysl za to utrácet ty peníze, který takový provoz stojí.Některé státní databáze a systémy v active/active datacentrech fungují, a nechtějte vědět, kolik to stojí. To, co si za to může stát dovolit utratit, by si žádný korporát nedovolil 😀 těch rozdílů mezi státem a korporátem je hodně, v tomto případě jde o to, že stát tyhle věci z nějakého záhadného důvodu stojí řádově víc než ten korporát, byť se jedná o stejné služby.
aha není to kritická infrastruktura..proto to tu tak vypadá..měl jsem na pozemku odpoledne geodeta a hodinu chodil že se mu nenačítají data z katastru ..ale to stát nezajímá..korporace musí trvdě bojovat aby se uživily , ale občan ať platí daně a kde co a za to dostane 20let stary sw nahližení do katastru co má jednodenní výpadky
Nevím, do katastru nevidím. A upřímně se snažím se státu vyhýbat, ta neefektivita je nakažlivá.Ale když si vezmete, že za správu (tj. lidi, co to budou dělat, ne licence, ne HW, ne prostory, ne provoz...) failover řešení v active/active budete jako stát platit 400k měsíčně, a to se bavíme jen o jedné databázi, nechtěl byste se o to starat?A to, jaké to řešení bude, se nestará ajťák, co psal článek, ale někdo, kdo žádnou takovou údržbu dělat nemusí, a rozhoduje od stolu. Stejně tak se ho vůbec nijak nedotkne, že váš geodet pobíhal a stál vás peníze, zatímco nemohl nic dělat.
Podle článku ale v tom popisovaném případě šlo právě o výluku v té záložní lokalitě. Nevím, o tomhle konkrétním případu pochopitelně nic nevím, ale obecně popisuji, proč všechny systémy nejedou v geografických clusterech a podobných řešeních. Je to jen otázka peněz a toho, kolik stojí výpadek. Často se navrhne - i v komerční sféře - opravdu robustní řešení, ale pak se z něj začne pod tlakem managementu škrtat, i za cenu nárůstu rizika, délky výpadků, časů obnovení provozu a podobně. Taková je realita, všechno stojí prachy. Samozřejmě, že když pak někdy dojde na lámání chleba, tak vedení má tendenci na ty vyjednané kompromisy a ušetřené prachy zapomínat, to už je ale zase trochu jiná věc...
Otevřel jsem tuhle diskusi a čekal takovéhleho rozumbradu - a vida, je tu! 😀 😁 Jinak ale je super, že ostatní příspěvky až do tohoto tu byli k věci a chápající od lidí, kteří tomu nejspíš doopravdy rozumí (narozdíl od tohoto pisatele:).
veř mi že žádná korporace nemá jen jednu lokalitu, vždycky se tam může neco stát požár nebo povodeň nebo tak, u nás se dělají pravidelné testy přepínání na záložní lokalitykdyž by to nebyl stát je mi to jedno ale tak to překvapí při těch miliardách co stojí každý projekt
No vidíš, nedávno jsem se bavil s jedním vysokým managemerem IT jedné takové mega korporace, která má vícero lokací a data center a DR i pro některé služby ne do druhého data centra, ale lokálně kvli odezvám. A stejně se najdou service, kde business ví, že to má na jednom místě a pokud o tu servicu příjde a řádově ve dnech (mission critical service) a trvá mu 5 let postavit mirror v druhé lokaci, protože šetří.A taky ví, že určité katastrofické scénáře, které sestřelí celé data centrum by sestřelily celou firmu a brutálně dopadne na holding zaměstnávající > 100 000 lidí. Za tu jednu service může jeden konkrétní manager na relativně vysoké pozici. Za to, že se nic neděje s katastrofickými scénáři přestože CTO a CEO jsou si toho vědomi, domyslete si sami.
Vy zrejme poznate korporatnu sferu len z knizky. Jednak to vobec nie je v kompetencii adminov, vypinat elektrinu v budove, druhak admini robia pracu podla toho co je im zadane (t.j. ak spravca budovy povie ze to vypnu, tak to asi vypnu a admini sa s nim nebudu hadat), a po tretie admini (operations) nemaju v korporatnej sfere s dizajnom vobec ale abosultne vobec nic (tieto role sa v korporate vacsinou neprekryvaju alebo prekryvaju minimalne a rozhodne nie su zastupitelne) tak pripravit si druhu lokalitu mozu tak vo Visual Studiu a ked je risk pri takychto udalostiach prilis vysoky, management moze uvolnit zdroje na risk mitigation.
No nevím, nevím s tím korporátem. Švagr dělal dlouhé roky ve velké pojišťovně se zahraničním vlastníkem. Byl vedoucím jednoho z týmu v centrále a hodně často popisoval, jaké jsou problémy s podfinancováním jak hardwaru, tak lidí. Když vše fungovalo, tak se snižovaly počty techniků (vždyť tam jenom sedí a nic nedělají), omezovaly se nákupy (proč máme mít na skladě tolik náhradních dílů, když je má dodavatel) atd. Při průseru pak samozřejmě zase nadávání, proč není dost lidí a techniky... Pokaždé se to na chvíli zlepšilo, pak se obměnilo pár lidí ve vedení a už se znovu "katovaly kosty".
Přesně tak. Manageři jsou hodnocení za to, co ušetří na nákladech. A hejno techniků a záložní systémy jsou z manažerského pohledu jen neproduktivní náklady, které nevydělávají, jen žerou prachy. Ideální kandidáti na zrušení. To je trvalý boj.
Technický pracovník zodpovědný za elektrické rozvody bývá často právě správce budovy nebo hlavní energetik. Málokterý admin má ze své pracovní pozice úplný přehled o všech elektrických rozvodech v dané lokalitě. Ačkoliv jeden známý mi nedávno říkal historku z technické podpory, kdy tam volala paní, že jim nejdou ve firmě počítače. První otázka technické podpory byla: "Jede Vám v budově výtah?". "No to já nevím, to je daleko." "Tak tam skočte a zjistěte to". Za chvíli: "Výtah nejede." "Ok, posílám tam pracovníka, za půl hodiny to pojede." Zkrátka na té technické podpoře už věděli, že počítačové rozvody v dané lokalitě jsou na stejném přívodu, ze kterého je napájený i výtah ... 😉
admin ne ale vedoucí řiditel IT MUSÍ mít pod sebou i elektriku nebo ty servery jedou bez elektriky ? je to spolu provázané.. lidi co tady píšete to zírám :) jsem zodpovědný v korporátech za infrastruktutu 20let v it dělám skoro 30 let.. je to jako u armády , nikoho nezajímá že člověk nebyl na obědě nikdy atd.. ale zas je volná pracovní doba..ale jakýkoli problém musí být vyřešený okamžitě... když by hodinu nejely servery mužu se akorád zabít a to doslova..doporučuju cigara, kafe a neustale zdokonalovat nagios
Ono to záleží i od typu provozu. Pokud je to nějaké datové centrum, tak tam asi pod IT ředitele může patřit celá infrastruktura včetně elektrických rozvodů. Ale jsou provozy, kde tomu tak není a ani všechny problémy nemusí být vyřešeny okamžitě. To závisí od anylýzy rizik, BIA a podobných věcí popsaných třeba v ISO27000 a jak si to každá firma pro sebe vyhodnotí. Armáda je asi kapitola sama pro sebe, s několika bývalými IT vojáky jsem se setkal. Např. jeden takový dlouholetý bývalý IT ředitel prý odněkud z armády sice naprosto brilantně ovládal všechny směrnice ISO, AQAP a další, ale jak měl ve své firmičce v pronajatém areálu zapojené jističe a IT techniku, to tedy opravdu netušil. Hodně se divil, když se tam po navýšení počtu IT zařízení následně zvedl i účet za elektřinu.
Co jsou platné předpisy a směrnice, když vloni v létě při rekonstrukci prostor kolem serverovny si ukáčka otevřeli serverovnu, natáhli prodlužovák, vysbíjeli podlahy v okolí, na závěr přesekli hlavní přívod a spokojeně odešli. Na všem a ve všem včetně serverů a switchů je centimetr betonového prachu, ložiska větráků trop. Přes všechen úklid doteď se z nějakého kouta vyvalí oblak svinstva.
haha, ale v korporatni sfere asi nemaji 20-22hrubyho mesicne 😝
Zajímalo by mě, jaký byl důvod tak rozsáhlé odstávky napájení a zda to bylo nezbytné? Není to chyba návrhu? Provozujeme malé firemní datacentrum, fyzických serverů cca 10, diskové pole jen jedno. Diesel je jen jeden, UPSky jsou ale samozřejmě dvě takže jsou za nimi dva zálohované okruhy. Věci podstatné jsou v HA, servery mají dva zdroje. Neumím si představit situaci, která mě donutí to celé vypnout. I při pravidelných revizích přívodu je přece možné zajistit náhradní napájení (i kdyby to měl být diesel před budovou), nebo přívod pro UPS vypínat jen krátkodobě po dobu měření (i kdyby se to mělo měřit postupně, 10min měřit, 4hod dobíjet baterie), okruhy za UPS je možné vypínat po jednom (kritická technologie se nevypne)....
Ona to asi nemusí být jen revize. Pokud se musí předělávat něco např. v hlavních rozvaděčích v budově, tak se celá budova nebo lokalita musí vypnout. Vzpomínám si na situaci, kdy v jakési hale předělávali nějaký hlavní rozvaděč a připojovali na něj nějaké nové okruhy, měnili jističe, atp. A když už to bylo skoro hotové a pod proudem, tak tam někde při měření spadl nějakému elektromontérovi klíč mezi fázi a nulák, halou proletěl úžasný záblesk a vypadl samozřejmě i hlavní jistič na přívodu do budovy. Myslím, že pak museli měnit na rozvaděči na hraně pozemku i nějaké nožové pojistky. A při té příležitosti tento "zážitek" nějak nepřežilo i pár napájecích zdrojů PC serverech, které měly jeden zdroj na UPS a druhý napřímo.
"Neumím si představit situaci ...." Krach na newyorské burze (též zvaný Černý čtvrtek, anglicky Black Thursday) 24. října 1929 byl největší burzovní krach v dějinách. Většinou je ale ve Spojených státech nazýván Černé úterý, anglicky Black Tuesday, protože největší propad nastal v úterý 29. října 1929, které bývá v anglickojazyčných zdrojích označováno za počátek krachu.
Jsou firmy, ktere takhle vypinaji planovane, i kdyz nemusi. Treba banky, ktere maji nekolik nezavislych datovych center. To hlavni se proste jednou za cas vypne, aby se potvrdilo, ze ta ostatni centra zvladnou provoz na 100%. Casto se ukaze, ze nejaky novy system, aplikace nebo konfigurace nejsou na kompletni prehozeni jinam pripravene, protoze pri nasazovani se spechalo a "ze se to dodela potom".Je lepsi tohle mit nacvicene a hledat uz jenom male chyby, nez mit jednou za par let neplanovane prehozeni. A pri nem zjistit, ze nefunguje polovina systemu, protoze pred lety nekdo na neco zapomnel.A pri tom vypnuti primarniho datoveho centra (obvykle na cely tyden nebo aspon vikend) se rovnou udela i revize elektriky a UPS.
Samozřejmě, že jdou věci navrhnout tak, aby se to vypínat celé nemuselo. Viz vešškeré certifikace na design datacenter od uptime institute. Tam ne jenom, že máš redundantní přívody elektrické energie, ale i rozvody k redundantním zdrojům na další infrastructuře, takže se večkeré revize a změny dají dělat na části infrastructury, která je vypnutá a přemostěná. Nicméně takové systémy jsou absolutně oddělené od infrastruktury budovy ve které jsou. Ve chvíli, kdy je to malé datacentrum vybudované v kancelářské budově, která je není navržená na hostování mission critical infrastructury, tak se semtam musí něco podobného udělat.Nicméně to stojí spoustu peněz navrhnout, postavit a udržovat. Proto to se tak staví víceméně pouze skutečná datacentra na minimálně desítky, ale spíš stovky nebo tisíce serverů.
Možná bych ty problémy navíc přisuzoval tomu "plánovanému" vypnutí uvědomělým technickým pracovníkem 🙂
No, ale ono to fakt je tak, že pokud zařízení (třeba server nebo diskové pole) je v provozu, tak drží a funguje. Pokud se vypne, třeba i řízeně a plánovaně, odpojí od proudu, "nechá vychladnout" a pak zase zapne, velmi často něco nevydrží a už nenaběhne. Nejčastěji zdroj, ale i disky a další komponenty. To je praxí dlouhodobě ověřený fakt. Ty věci jsou dělané na nonstop provoz a vypínání jim nesvědčí.
To budou z většiny tepelné závady. Ale že v takovém množství. Není na vině příliš velké provozní zahřívání?
nemyslim si ze by hardware za niekolko sto tisic EUR bol len tak pohodeny niekde v neklimatizovanych serverovniach :)
Možná záleží i na tom, kdy se ty klimatizace vypnou. Před mnoha lety jsem se bavil s jedním technikem, který tenkrát servisoval diskové pole EMC Symmetrix. Tehdy tyto pole třídy Enterprise přes modem hlásily chyby do dohledových center někde v Irsku nebo USA a technik se mohl vzdáleně modemem přímo na pole připojit a nějak to zkontrolovat. Prý mu v noci volali z Irska, že u nějakého zákazníka jim hlásí pole Symmetrix vysokou teplotu. Tak se tam připojil, teplota uvnitř pole přes 50°C, ale jinak žádná závada. Radši tam zajel a byl tam jen vrátný, který o ničem nevěděl. Ale sehnali místního admina, který je pustil do serverovny. Byl tam výpadek proudu, ale všechno měli přes UPS nebo generátor, ovšem kromě klimatizací. Takže úžasné horko, veškerá technika se prý už kvůli přehřátí vypnula a uprostřed toho pořád jelo diskové pole Symmetrix, intenzivně topilo a volalo v pravidelných intervalech na servisní linku informaci o překročení teploty. Tak to tenkrát vypnuli, aby to vychladlo a řešili to až po víkendu. Co z té přehřáté techniky tenkrát museli měnit, to netuším, ale tomu poli prý tenkrát nic nebylo, protože bylo na takové situace před dodáním zákazníkovi otestováno. Zkrátka by se klimatizace měly vypínat vždy až naposled, aby se tam něco náhodou nepřehřálo.
Já mám zase historku, když se budovala záložní serverovna v jednom mrazírenském podniku, respektive v jeho pobočce, kde bylo expediční středisko a sklady, kousek za Prahou. Navrhlo se nějaké technické řešení, včetně klimatizace, jenže firma chtěla ušetřit a měla vlastní dodavatele, kteří jim dělali a dohledovali ty mrazáky a sklady v celé Evropě, tak jim zadala, ať zkrátka v tom prostoru zajistí teplotu 20C. Není problém, udělali tam nějakou odbočku z hlavního okruhu nebo co, z obří haly hned vedle, nastavili termostaty na 20C, zapojili na dohled. Pak IT technici tam přivedli napájení, datové linky, navezli racky, servery a všechno ostatní, rozběhli to, všechno v pohodě. Po asi měsíci provozu ale došlo k nějakému výpadku dohledového systému těch mrazících místností a někde vypadla aktuální konfigurace, detaily nevím. Při obnovování z nějaké staré verze si to někde v centrále kdesi v Hamburku všimlo, že teploměry v místnosti XY na pobočce AB ukazují 20C, přestože podle nějakého starého nastavení tam všude má být -30C nebo kolik, zkrátka mrazáky na zeleninu. Na dohledu to začalo svítit červeně, někdo přesně podle postupu někam klikl, roztočily se vrtule a začalo se tam obřím centrálním systémem chladit. Cožpak o to, servery i pole ten mráz překvapivě docela dobře přežily a docela i fungovaly, velký malér nastal, až když si toho za pár dní někdo v té pobočce všiml, vypnul to chlazení a nenapadlo jej nic lepšího, než že otevře všechny dveře a okna ven, aby se tam ohřálo. Venku bylo normálně léto, vevnitř byly kovové díly podchlazené na -30... V řádu vteřin se prý všechno pokrylo několika centimetrovou vrstvou ledu... Škoda v řádu milionů...
No, na tom něco je. Nám se občasné plánované vypnutí serverů a diskových polí osvědčilo, protože úmrtnost třeba zdrojů a disků je při vypnutí a zapnutí opravdu neskonale vyšší. Pamatuji si jeden projekt, kdy se na všech okresních pobočkách jedné nejmenované instituce povyšovaly paměti a přidávaly disky do jednoho typu serveru, tři kusy na pobočce. Na první pohled rutinní záležitost pro cvičenou opičku, technik dorazí s díly, z centra mu vypnou server, on to tam zastrčí, server zapne, z centra mu ověří funkčnost, podpis na dodák, pěkný den a frčí se na další... Vedení se domnívalo, že jeden technik jistě udělá za den minimálně tři okresy, to je přece brnkačka... No... Dělali jsme si pak statistiku... Na více než 60% lokalit s tím byl nějaký problém, měnily se doslova hromady disků, zdrojů, dokonce i desek, hroutily se RAIDy, servery nestartovaly, odcházely síťovky... Po pár dnech si technici začali vozit náhradní zdroje a disky, pak už měli v autě vždy i celý náhradní server... Časové plány se pochopitelně zhroutily, zpoždění, komplikace, bylo třeba nasadit další lidi... A to byla ještě ohromná výhoda, že to bylo unifikované, všude naprosto stejný hardware a po pár dnech už se s komplikacemi počítalo téměř najisto... No a pak mějte server na UPS, který se dva roky od instalace fakticky nikdy nevypnul a spoléhejte na něj...
Diky za clanek z praxe. Vice takovych.
Potvrďte prosím přezdívku, kterou jsme náhodně vygenerovali, nebo si zvolte jinou. Zajistí, že váš profil bude unikátní.
Tato přezdívka je už obsazená, zvolte prosím jinou.