Duomenų operatoriai kartais daro klaidų, dėl kurių gali išsijungti visas duomenų centras. Tačiau daugumos šių problemų galima išvengti taikant priežiūros priemones, tikrinimo procedūras ir sveiku protu bei sistemos operatorių patirtimi.
„Neplanuotas duomenų centro gedimas“ yra mandagus būdas kalbėti apie duomenų centro problemų, dėl kurių atsiranda prastovos. Nesvarbu, ar pagrindinė priežastis yra aparatinės įrangos klaida, programinės įrangos klaida ar žmogaus klaida, daugumos šių klaidų galima ir reikia iš anksto užkirsti kelią. Šiuolaikiniuose duomenų centruose egzistuojantis didelis rizikos pertekliaus lygis, visiškai įmanoma užkirsti kelią incidentams iš anksto.
Įdomus dalykas yra tai, kad didelių ir mažų klaidų duomenų centre vis tiek gali pasitaikyti nuolat, o nustojus veikti duomenų centrams daroma žala nemaža net ir trumpam. Remiantis „Data Center Knowledge“ atliktu tyrimu, duomenų centro prastovos įmonėms gali kainuoti apie 7900 USD už minutę. Tiesą sakant, 93% įmonių, kurių duomenų centrų prastovos truko 10 ar daugiau dienų, bankrutavo per metus, o 40% žlugo iškart. Be to, kitame 41 duomenų centre atliktame tyrime nustatyta, kad vidutinė neplanuotų gedimų kaina apima daugiau nei 179 tūkst. USD verslo nutraukimo, apie 118 tūkst. USD prarastų pajamų ir apie 42 tūkst. USD našumo. Jei duomenų centrų vadovai tiesiog daugiau dėmesio skirtų pagrindinių dažnai pasitaikančių klaidų priežasčių tyrimui ir šalinimui, jie žymiai sumažintų galimą riziką.

Problema ta, kad daugelis duomenų centrų operatorių ir operatorių dažnai daugiau dėmesio skiria augimui ir pajamoms, o ne tam, kad išlaikytų ir stiprintų tai, kas jau yra. Jei šiandien atkreiptumėte dėmesį į daugelio viešųjų ir privačių duomenų centrų administratorius, pamatytumėte, kad jie beveik vien rūpinasi saugyklos talpos didinimu, serverių tankio didinimu ir serverių tankio didinimu. Patobulinkite pasenusias serverių fermas į modernesnes patalpas ir efektyviau. pavyzdžiui, aušinimo sistemos. Nors visa tai yra puiku, labai reikalinga ir rodo neįtikėtiną duomenų saugojimo pramonės augimą, tai taip pat parodo, kodėl duomenų centrai žlunga.
Šiame straipsnyje išnagrinėsime dažniausias duomenų centrų išjungimo priežastis ir pabrėžsime, ką administratoriai gali padaryti, kad juos sumažintų ar net pašalintų. visiškai išspręskite šias problemas ir pagerinsime sistemos stabilumą.
Duomenų centro žlugimo priežastys
Žmonių sukelta klaida
Tai yra paprasčiausios priežastys ir viena iš sunkiausiai išvengiamų. Paprasčiau tariant, kiekvienas gali padaryti klaidų. Kadangi 22 % gedimų sukelia žmogaus klaidos, šią priežastį verta atidžiai apsvarstyti ir, svarbiausia, jos galima gana nesunkiai išvengti.
Netinkamas sistemos autorizavimas

Iš tikrųjų labai nedaug administratorių turi visišką ir neribotą prieigą prie visų duomenų centro sistemų. Užuot suteikus šį leidimą daugiau žmonių, prieiga turi būti griežtai valdoma. Priešingu atveju visiškai įmanoma, kad sistemoje gali įvykti rimta klaida. Pavyzdžiui, 2014 m. Joyent incidento metu patyręs administratorius vos keliais paspaudimais netyčia iš naujo paleido visas virtualias mašinas įmonės rytiniame duomenų centre.
Prastos atsarginės kopijos kūrimo procedūros

Planuojant priežiūros darbus svarbus, bet dažnai pamirštamas žingsnis yra atsarginės kopijos kūrimo procesas. Dažnai procesai yra dokumentuojami, bet nėra nuodugniai peržiūrimi, ir dažnai po priežiūros viskas nėra visiškai atkurta į pradinę formą.
Per daug pakeitimų

Jei priežiūros metu administratorius vienu metu bando atlikti per daug pakeitimų, gali kilti problemų. Pirma, administratoriai dažnai turi skubotą mentalitetą, nes per trumpą laiką turi atlikti daugybę užduočių, o tai dažnai sukelia klaidų. Antra, kadangi tiek daug pakeitimų įvyksta per tą patį laikotarpį, trikčių šalinimas po pakeitimo tampa daug sunkesnė užduotis.
Atsainumas žmogiškųjų išteklių valdyme

Skamba kiek žiauriai, bet darbuotojai turi mokėti griežtai laikytis centre galiojančių taisyklių ir jas pažeidę turi būti griežtai drausminami. Pavyzdžiui, jokiame duomenų centre neleidžiama darbuotojams valgyti ar gerti darbo metu, arba avariniai jungikliai turi būti aiškiai pažymėti ir apsaugoti. Šie dalykai gali atrodyti nedideli, bet gali sukelti didelių incidentų, todėl įsitikinkite, kad visada griežtai laikomasi taisyklių.
Sistemos klaida
Atsarginis maitinimas negarantuojamas, įranga sena arba netinkamai sukonfigūruota.

Dažniausia priežastis, dėl kurios sugenda duomenų centras, yra dėl elektros energijos tiekimo nutraukimo. Elektros tiekimas gali trūkti bet kuriuo metu. Todėl duomenų centrai suprojektuoti su atsarginiais maitinimo šaltiniais, jei nutrūktų pagrindinis maitinimas. Baterijos arba generatorių sistemos dažnai naudojamos kaip atsarginė energija. Problema ta, kad akumuliatorius gali būti nepakeistas laiku, generatorius gali būti netikras ir neprižiūrimas, todėl nutrūkus elektrai gali kilti problemų. Visa tai reiškia, kad atsarginės kopijos galimybės gali būti nepasiekiamos, kai jų labiausiai reikia.
Nutrūkus maitinimui, UPS sistemos naudoja baterijas kaip atsarginę energiją, todėl jos yra esminė duomenų centrų veikimo laiko dalis. Tačiau baterija ne visada gerai veikia. Atlikite pačių gamintojų rekomenduojamą techninę priežiūrą, kad patikrintumėte akumuliatoriaus būklę. Bent kartą per ketvirtį reikia patikrinti, ar akumuliatoriai tinkamai sumontuoti, iškrauti ir įkrauti. Tai apima vizualinius patikrinimus, pajėgumų patikras ir reguliarų stebėjimą naudojant programinę įrangą arba patį UPS tiekėją.
Be to, aukšta temperatūra gali sutrumpinti sistemos baterijos veikimo laiką. Specialios UPS patalpos sukūrimas gali padėti sumažinti akumuliatoriaus naudojimo laiką. Taip pat neturėtumėte dažnai iškrauti akumuliatoriaus ir atidžiai pasirūpinkite, kad jungtys būtų atsilaisvinusios ar susidėvėjusios. Trumpai tariant, UPS yra ypač svarbi sistema, reikalaujanti protingo dizaino, tinkamo naudojimo ir griežtos priežiūros.
Gedimas aušinimo sistemoje

Duomenų centre esančios mechaninės sistemos sunaudoja daug elektros, vadinasi, veikdamos išskiria didelį šilumos kiekį. Duomenų centras gali tapti krematoriumu po vienos minutės veikimo. Štai kodėl aušinimo sistema yra tokia svarbi. Ir net jei temperatūros jutikliai skaito ir administratoriams siunčia įspėjimus, turite būti tikri, kad turite pakankamai laiko atlikti atsarginio centro aušinimo procedūras, kol viskas ištirps.
Be to, daugelis aušinimo sistemų iš tikrųjų nėra sukurtos taip, kad neatsiliktų nuo padidėjusio šilumos lygio šiuolaikiniame didelės talpos duomenų centre. Vėlgi, situacijų, kai jūsų duomenų centras veikia 100 % pajėgumu, planavimas gali padėti planuoti geresnes aušinimo sistemas ateityje. Taip pat būtina nustatyti įspėjimo sistemas apie sistemos temperatūros svyravimus. Galite naudoti tam tikrą terminio modeliavimo programinę įrangą ir kai kurias DCIM sistemas. Be to, cheminiai šaltnešiai yra geresnis pasirinkimas nei vandens sistemos.
Automatinis konvertavimo procesas neveikia tinkamai

Daugelis paslaugų teikėjų ir organizacijų bei įmonių turi atsarginius duomenų centrus, naudojamus gamybos duomenų centrams. Nutrūkus maitinimui pirminiame duomenų centre, atsarginis duomenų centras bus paleistas automatiškai, o visas srautas bus nukreiptas į tą atsarginį įrenginį. Jei tai daroma tinkamai, procesas turėtų vykti sklandžiai iki galutinio vartotojo. Deja, automatinis perjungimas dažnai neveikia taip, kaip tikėtasi. Įprasta šios problemos priežastis yra reguliarių testų trūkumas. Net ir nedideli gamybos infrastruktūros pakeitimai gali turėti didelės įtakos automatizuotam perjungimui. Todėl atliekant bet kokius infrastruktūros pakeitimus, automatizuotos perkrovos procedūros turės būti išbandytos, siekiant užtikrinti, kad niekas nenukryptų nuo proceso.
Pasenusi techninė įranga

Visa kiekvienos sistemos techninė įranga turi tam tikrą tarnavimo laiką. Ir kuo ilgiau naudosite aparatinę įrangą, tuo didesnė tikimybė, kad susidursite su problemomis. Visi tai žino, tačiau dažnai svarbi programa sugenda vien dėl to, kad ji veikia 10 metų senumo aparatinėje įrangoje. Šios problemos dažnai kyla dėl to, kad trūksta išsamių naujos aparatinės ar programinės įrangos platformų pakeitimo ir atnaujinimo planų arba dėl biudžeto trūkumo. Jei tai pinigų reikalas, nieko nepadarysi. Tačiau jei paprasčiausiai stengsitės kuo ilgiau pasinaudoti, problema gali įvykti bet kuriuo metu, o kai taip atsitiks, problemos padaryta žala gali būti daug didesnė.
Gaisro gesinimo sistemoje yra vandens nuotėkio problema

Daugumoje šiuolaikinių duomenų centrų naudojamos bevandenės priešgaisrinės apsaugos sistemos, kad jos nesugadintų įrangos, jei jos būtų įjungtos tyčia ar netyčia. Tačiau daugelis senesnių įrenginių savo duomenų centruose vis dar naudoja tradicines priešgaisrinės apsaugos sistemas. Dėl daugelio vandens nutekėjimų įvyko didelių gedimų.
Avarinis išjungimas įjungiamas atsitiktinai

Daugumoje duomenų centrų taikomas aukštas fizinio saugumo lygis ne tik atbaido vagis. Jie taip pat skirti išvengti darbuotojų, kurie nesupranta, kaip veikia duomenų centras. Pavyzdžiui, programos administratorius įeina į duomenų centrą ir netyčia įjungia avarinį išjungimą (EPO). EPO yra didelis raudonas mygtukas, atsakingas už visos sistemos maitinimo nutraukimą. Ir akivaizdu, kad tiems, kurie nesupranta ar neturi jokios kompetencijos, tokia painiava yra visiškai įmanoma.
Kibernetinės atakos metu ddos

Bėgant metams kibernetinės atakos tapo viena iš pagrindinių duomenų centrų gedimų priežasčių – nuo 2 % 2010 m. iki 22 % 2016 m. Operatoriai Duomenų centrai turi imtis veiksmų, kad sukurtų sistemas, kurios anksti aptiktų ir sumažintų atakų riziką.
Duomenų centrus sunku apginti nuo didelio masto DDoS atakos . Dauguma IPT suteikia tam tikrą apsaugą 3 ir 4 tinklo sluoksniuose, tačiau jūsų paslaugoms reikia papildomos apsaugos 7 lygmenyje, kuri gali būti konkrečiai nukreipta per HTTP GET arba skambučius. Sušvelninimo paslaugas, tokias kaip ugniasienės, IPS/IDS ir DDoS, galima derinti, kad nukreiptų srautą.
Stichinė nelaimė
Pastaruoju metu išaugusios audros ir potvyniai gali labai sutrikdyti duomenų centrų veiklą. 2010 m. JAV įvyko daugiau nei 250 stichinių nelaimių. Remiantis statistika, JAV Naujojo Džersio valstija patyrė 63,9 milijardų dolerių nuostolių dėl verslo nutraukimo, kurį 2012 metais sukėlė superaudra Sandy.
Veiksmai siekiant apriboti žalą, kurią sukelia duomenų centro „žlugimo“ incidentai
Jei įprastinės priežiūros prastovos bus kruopščiai suplanuotos, o klientai iš anksto įspėjami apie prastovas centre, ypač esant mažam srautui, klientai bus labiau užjaučiantys ir žala žymiai sumažės. Didžiausia žala atsiranda tada, kai ji atsiranda netikėtai, o ypač ilgai trunkanti, atsiranda papildomų problemų. Palaikykite visos įmonės resursų sistemos stabilumą, kad darbuotojai galėtų efektyviai atlikti savo darbą ir sumažintų IT skyrių naštą.
Tiksliau:
- Kurkite atsargines duomenų kopijas: jei susidurtumėte su duomenų centro veiklos sutrikimu, jūsų duomenys (o dar svarbiau – klientų duomenys) turėtų būti paruošti, kai tik pradėsite. Pradėkite trikčių šalinimą ir paleiskite iš naujo. Reguliarus atsarginių kopijų darymas sumažina tikrojo žlugimo riziką. Jei jūsų įmonė gali tai sau leisti, kai kurie produktai, pvz., EMC VPLEX produktų linija arba VEEAM atsarginių kopijų kūrimo ir replikavimo programinė įranga, gali padėti sumažinti prastovos laiką automatiškai persijungiant į vietą.
- Reguliariai stebėkite serverio sistemą: Stebėjimas yra paslauga, kurią galite atlikti reguliariai ir paprastai nekainuoja per daug. Trečiosios šalies stebėjimo paslauga praneša apie galimą serverio prastovą, kad galėtumėte nedelsiant išspręsti problemą.
- Sumažinkite žmogiškąsias klaidas: būkite atsargūs dirbdami ar vaikštinėdami po serverių sistemas ar elektros laidus, kad netyčia jų nepažeistumėte, arba tiesiog nelieskite paslaptingų jungiklių be savo žinių. Skysčius laikykite toliau nuo mechaninių sistemų. Skambinkite duomenų apsaugos specialistui bet kuriuo metu, kai serverį reikia atnaujinti ar prižiūrėti, ir laikykitės centro taisyklių.
Kiekvienas duomenų centras, nuo mažų centrų iki įmonės masto įrenginių ir paslaugų teikėjų, turi 100 % stengtis teikti patikimas paslaugas vartotojams. Skirdami laiko ateities planavimui, vadovaudamiesi priežiūros ir žmogiškųjų veiksnių principais, jūsų duomenų centras gali išvengti kai kurių dažniausiai pasitaikančių gedimų priežasčių.
Žiūrėti daugiau