Dátoví operátori niekedy robia chyby, ktoré môžu viesť k vypnutiu celého dátového centra. Väčšine z týchto problémov sa však dá vyhnúť opatreniami údržby, kontrolnými postupmi a zdravým rozumom a skúsenosťami prevádzkovateľov systému.
„Neplánovaný výpadok dátového centra“ je zdvorilý spôsob, ako hovoriť o problémoch dátového centra, ktoré vedú k výpadkom. Či už je hlavnou príčinou hardvérová chyba, softvérová chyba alebo ľudská chyba, väčšine týchto chýb sa dá a malo by sa predchádzať vopred. S vysokou úrovňou redundancie rizika v dnešných dátových centrách je úplne možné predchádzať incidentom vopred.
Jednou zaujímavou vecou je, že v dátovom centre sa stále môžu vyskytovať veľké aj malé chyby a škody spôsobené prerušením prevádzky dátových centier nie sú malé, hoci len na krátky čas. Podľa štúdie Data Center Knowledge môže výpadok dátového centra stáť podniky približne 7 900 USD za minútu. V skutočnosti 93 % spoločností s výpadkami dátových centier na 10 a viac dní do roka skrachovalo a 40 % skolabovalo okamžite. A ďalšia štúdia 41 hodnotených dátových centier zistila, že priemerné náklady na neplánované výpadky zahŕňajú viac ako 179 tisíc dolárov v prerušení podnikania, približne 118 tisíc dolárov v stratených príjmoch a približne 42 tisíc dolárov v produktivite. Ak by sa manažéri dátových centier jednoducho viac zamerali na výskum a opravu hlavných príčin bežných chýb, výrazne by znížili potenciálne riziká.

Problémom je, že mnohí prevádzkovatelia a operátori dátových centier sa často zameriavajú viac na rast a výnosy namiesto toho, aby udržiavali a posilňovali to, čo už existuje. Ak dnes venujete pozornosť správcom v mnohých verejných a súkromných dátových centrách, uvidíte, že sa takmer výlučne zaoberajú zvyšovaním kapacity úložiska, zvyšovaním hustoty serverov a zvyšovaním hustoty serverov. chladiace systémy, napr. Aj keď je toto všetko skvelé, veľmi potrebné a ukazuje neuveriteľný rast v odvetví ukladania údajov, ukazuje to aj to, prečo dátové centrá zlyhávajú, čo sa deje čoraz častejšie.
V tomto článku preskúmame bežné dôvody, prečo sú dátové centrá zakázané, a poukážeme na to, čo môžu správcovia urobiť, aby ich minimalizovali alebo dokonca odstránili. Tieto problémy úplne vyriešite a zároveň zlepšíte stabilitu vášho systému.
Príčiny kolapsu dátového centra
Chyba spôsobená ľuďmi
Toto sú najjednoduchšie príčiny a tiež jedna z najťažších, ktorej sa treba vyhnúť. Jednoducho, každý sa môže pomýliť. Pri 22 % výpadkov spôsobených ľudskou chybou sa táto príčina oplatí dôkladne zvážiť a čo je dôležité, dá sa jej pomerne ľahko predísť.
Nesprávna autorizácia systému

V skutočnosti má len veľmi málo administrátorov úplný a neobmedzený prístup ku všetkým systémom v dátovom centre. Namiesto udelenia tohto povolenia viacerým ľuďom musí byť prístup prísne riadený. V opačnom prípade je celkom možné, že v systéme dôjde k závažnej chybe. Napríklad pri incidente Joyent v roku 2014 skúsený správca omylom reštartoval všetky virtuálne stroje vo východnom dátovom centre spoločnosti len niekoľkými kliknutiami.
Zlé postupy zálohovania

Pri plánovaní úloh údržby je dôležitým, no často zabudnutým krokom proces zálohovania. Často sú procesy zdokumentované, ale nie sú dôkladne preskúmané a veľakrát sa veci po údržbe úplne nevrátia do pôvodnej podoby.
Robiť príliš veľa zmien

Ak sa počas údržby správca pokúsi vykonať príliš veľa zmien naraz, môže to spôsobiť problémy. Po prvé, správcovia majú často uponáhľanú mentalitu, pretože musia dokončiť veľké množstvo úloh v krátkom čase, čo často vedie k chybám. Po druhé, pretože sa v rovnakom časovom rámci deje toľko zmien, riešenie problémov po zmene je oveľa náročnejšie.
Laxnosť v riadení ľudských zdrojov

Znie to trochu drsne, ale zamestnanci musia vedieť prísne dodržiavať pravidlá v centre a pri ich porušovaní musia byť prísne disciplinovaní. Napríklad žiadne dátové centrum neumožňuje zamestnancom jesť alebo piť počas práce, alebo núdzové spínače musia byť jasne označené a zabezpečené. Tieto veci sa môžu zdať malé, ale môžu viesť k veľkým incidentom, preto sa uistite, že sa pravidlá vždy prísne dodržiavajú.
Systémová chyba
Záložné napájanie nie je zaručené, zariadenie je staré alebo nesprávne nakonfigurované.

Najčastejším dôvodom výpadku dátového centra je výpadok prúdu. K výpadku prúdu môže dôjsť kedykoľvek. Preto sú dátové centrá navrhnuté so záložnými zdrojmi energie pre prípad výpadku hlavného napájania. Ako záložné napájanie sa často používajú batérie alebo generátorové systémy. Problémom je, že batéria sa nemusí včas vymeniť, generátor nemusí byť kontrolovaný a udržiavaný, čo vedie k problémom, keď dôjde k výpadku prúdu. To všetko znamená, že vaše možnosti zálohovania nemusia byť dostupné, keď ich najviac potrebujete.
V prípade výpadku napájania používajú systémy UPS batérie ako záložné napájanie, čo z nich robí nevyhnutnú súčasť udržiavania prevádzkyschopnosti dátových centier. Batéria však nie vždy funguje dobre. Vykonajte údržbu odporúčanú samotnými výrobcami na kontrolu stavu batérie. Minimálne štvrťročne by sa mali batérie kontrolovať, či sú správne nainštalované, vybité a nabité. To zahŕňa vizuálne kontroly, kontroly kapacity a pravidelné monitorovanie prostredníctvom softvéru alebo samotného dodávateľa UPS.
Okrem toho môžu vysoké teploty skrátiť životnosť batérie systému. Vybudovanie vyhradenej miestnosti UPS môže pomôcť znížiť opotrebovanie životnosti batérie. Tiež by ste sa mali vyhýbať častému vybíjaniu batérie a dávať dobrý pozor na uvoľnené spoje alebo opotrebované konektory. Stručne povedané, UPS je obzvlášť dôležitý systém, vyžaduje rozumnú konštrukciu, správne používanie a prísnu údržbu.
Porucha v chladiacom systéme

Mechanické systémy v dátovom centre spotrebúvajú veľa elektriny, čo znamená, že počas prevádzky vydávajú veľké množstvo tepla. Z dátového centra sa môže po jednej minúte prevádzky stať krematórium. Preto je chladiaci systém taký dôležitý. A aj keď necháte čítať snímače teploty a posielať upozornenia správcom, musíte si byť istí, že máte dostatok času na implementáciu postupov záložného chladenia centra skôr, než sa všetko roztopí.
Okrem toho mnohé chladiace systémy nie sú v skutočnosti navrhnuté tak, aby držali krok so zvýšenou úrovňou tepla v modernom vysokokapacitnom dátovom centre. Opäť platí, že zmapovanie situácií, v ktorých vaše dátové centrum funguje na 100 % kapacity, môže pomôcť pri plánovaní lepších chladiacich systémov v budúcnosti. Nevyhnutné je aj nastavenie varovných systémov pre kolísanie teploty systému. Môžete použiť softvér na tepelné modelovanie a niektoré systémy DCIM. Okrem toho sú chemické chladivá lepšou voľbou ako systémy na báze vody.
Proces automatickej konverzie nefunguje správne

Väčšina poskytovateľov služieb a organizácií a podnikov má záložné dátové centrá používané pre produkčné dátové centrá. V prípade výpadku prúdu v primárnom dátovom centre sa automaticky spustí záložné dátové centrum a všetka prevádzka bude smerovaná do tohto záložného zariadenia. Ak sa to urobí správne, proces by mal byť bezproblémový až ku koncovému používateľovi. Bohužiaľ, automatické prepnutia často nefungujú podľa očakávania. Bežnou príčinou tohto problému je nedostatok pravidelného testovania. Dokonca aj malé zmeny vo výrobnej infraštruktúre môžu mať veľký vplyv na automatizované prepnutie pri zlyhaní. Preto pri vykonávaní akýchkoľvek zmien v infraštruktúre bude potrebné otestovať automatizované postupy prepnutia pri zlyhaní, aby sa zabezpečilo, že sa nič neodchýlilo od procesu.
Zastaraný hardvér

Všetok hardvér každého systému má určitú životnosť. A čím dlhšie používate hardvér, tým je pravdepodobnejšie, že narazíte na problémy. Každý to vie, ale je bežné, že dôležitá aplikácia spadne len preto, že beží na 10 rokov starom hardvéri. Tieto problémy často vznikajú kvôli nedostatku komplexných plánov výmeny a upgradu nových hardvérových alebo softvérových platforiem alebo kvôli nedostatku rozpočtu. Ak ide o peniaze, nedá sa nič robiť. Ale ak sa jednoducho pokúsite využiť výhodu tak dlho, ako je to možné, problém sa môže vyskytnúť kedykoľvek, a keď sa tak stane, škody spôsobené problémom môžu byť oveľa väčšie.
Protipožiarny systém má problém s únikom vody

Väčšina moderných dátových centier používa bezvodé protipožiarne systémy, aby nepoškodili zariadenia, ak sa aktivujú úmyselne alebo náhodne. Mnohé staršie zariadenia však vo svojich dátových centrách stále používajú tradičné protipožiarne systémy. Mnohé úniky vody spôsobili veľké výpadky.
Núdzové vypnutie sa aktivuje náhodne

Vysoká úroveň fyzického zabezpečenia vo väčšine dátových centier zlodejov len tak neodradí. Sú tiež na mieste, aby sa vyhli zamestnancom, ktorí nerozumejú tomu, ako funguje dátové centrum. Napríklad správca aplikácie vojde do dátového centra a náhodne spustí núdzové vypnutie (EPO). EPO je veľké červené tlačidlo, ktoré je zodpovedné za vypnutie napájania celého systému. A samozrejme, pre tých, ktorí nerozumejú alebo nemajú žiadne odborné znalosti, je takýto zmätok úplne možný.
Pod kybernetickým útokom, ddos

V priebehu rokov sa kybernetické útoky stali jednou z hlavných príčin zlyhaní dátových centier, a to z iba 2 % v roku 2010 na 22 % v roku 2016. Prevádzkovatelia dátových centier musia podniknúť kroky na vytvorenie systémov na včasnú detekciu a zmiernenie rizík útokov.
Dátové centrá sa ťažko bránia pred rozsiahlym DDoS útokom . Väčšina poskytovateľov internetových služieb poskytuje určitú ochranu na 3. a 4. vrstve siete, ale vaše služby potrebujú dodatočnú ochranu na 7. vrstve, na ktorú možno špecificky zacieliť prostredníctvom HTTP GET alebo volaní. Služby zmierňovania, ako sú brány firewall, IPS/IDS a DDoS, možno kombinovať na presmerovanie prevádzky.
Prírodná katastrofa
Nedávny nárast búrok a záplav môže spôsobiť značné narušenie dátových centier. V roku 2010 došlo v Spojených štátoch k viac ako 250 prírodným katastrofám. Podľa štatistík utrpel štát New Jersey v USA straty vo výške 63,9 miliardy dolárov v dôsledku prerušenia podnikania spôsobeného superbúrkou Sandy v roku 2012.
Kroky na obmedzenie škôd spôsobených incidentmi „kolapsu“ dátového centra
Ak sa prestoje na bežnú údržbu dôkladne naplánujú a zákazníci budú vopred upozornení na odstávky centra, najmä v období nízkej premávky, budú k tomu Zákazníci súcitnejší a škody sa výrazne znížia. Najväčšie škody nastanú vtedy, keď k nemu dôjde nečakane, a najmä ak trvá dlho, a vznikajú ďalšie problémy. Udržujte systém zdrojov celej spoločnosti stabilný, aby zamestnanci mohli efektívne vykonávať svoju prácu, čím sa zníži zaťaženie oddelení IT.
Konkrétne:
- Zálohujte si dáta: V prípade, že budete čeliť výpadku dátového centra, vaše dáta (a čo je dôležitejšie, dáta vašich zákazníkov) by mali byť pripravené, keď začnete. Začnite odstraňovať problémy a znova spustite. Vykonávanie pravidelných záloh obmedzuje riziko skutočného zlyhania. Ak si to vaša spoločnosť môže dovoliť, niektoré produkty, ako napríklad produktový rad VPLEX od EMC alebo softvér VEEAM Backup and Replication, môžu pomôcť minimalizovať prestoje automatickým prepnutím na miesto.
- Udržiavajte pravidelné monitorovanie serverového systému: Monitoring je služba, ktorú môžete vykonávať pravidelne a zvyčajne nestojí príliš veľa. Monitorovacia služba tretej strany vás upozorní na možný výpadok servera, takže môžete problém okamžite vyriešiť.
- Minimalizujte ľudské chyby: Buďte opatrní pri práci alebo prechádzaní okolo serverových systémov alebo elektrických rozvodov, aby ste ich náhodne nepoškodili, alebo sa jednoducho nedotýkajte záhadných spínačov bez vašej odbornosti. Kvapaliny držte mimo dosahu mechanických systémov. Zavolajte špecialistu na ochranu údajov vždy, keď server potrebuje inováciu alebo údržbu, a dodržiavajte pravidlá centra.
Každé dátové centrum, od malých centier až po podnikové zariadenia a poskytovateľov služieb, sa musí 100% snažiť poskytovať používateľom spoľahlivé služby. Ak si nájdete čas na plánovanie budúcnosti, dodržiavaním zásad údržby a ľudských faktorov, vaše dátové centrum sa môže vyhnúť niektorým z najbežnejších príčin zlyhania.
pozrieť viac