Datu operatori dažkārt pieļauj kļūdas, kas var novest pie visa datu centra slēgšanas. Tomēr lielāko daļu šo problēmu var novērst, veicot apkopes pasākumus, pārbaudes procedūras un sistēmas operatoru veselo saprātu un pieredzi.
"Neplānots datu centra darbības pārtraukums" ir pieklājīgs veids, kā runāt par datu centra problēmām, kas izraisa dīkstāvi. Neatkarīgi no tā, vai galvenais iemesls ir aparatūras, programmatūras vai cilvēka kļūdas, lielāko daļu no šīm kļūdām var un vajadzētu novērst iepriekš. Tā kā mūsdienu datu centros pastāv augsts riska dublēšanas līmenis, ir pilnībā iespējams novērst incidentus jau iepriekš.
Viena interesanta lieta ir tā, ka lielas un mazas kļūdas joprojām var rasties datu centrā visu laiku, un bojājumi, kas rodas datu centru darbības pārtraukšanas gadījumā, nav mazi, pat tikai uz īsu brīdi. Saskaņā ar Data Center Knowledge pētījumu, datu centra dīkstāve uzņēmumiem var izmaksāt aptuveni 7900 USD minūtē. Faktiski 93% uzņēmumu ar datu centru dīkstāvi 10 dienas vai ilgāk bankrotēja gada laikā, un 40% sabruka nekavējoties. Un citā pētījumā, kurā tika novērtēts 41 datu centrs, atklājās, ka vidējās izmaksas par neplānotiem pārtraukumiem ietvēra vairāk nekā 179 000 ASV dolāru uzņēmējdarbības pārtraukumus, aptuveni 118 000 ASV dolāru zaudētos ieņēmumus un aptuveni 42 000 ASV dolāru produktivitāti. Ja datu centru vadītāji vienkārši vairāk koncentrētos uz bieži sastopamo kļūdu galveno cēloņu izpēti un novēršanu, viņi ievērojami samazinātu iespējamos riskus.

Problēma ir tā, ka daudzi datu centru operatori un operatori bieži vien vairāk koncentrējas uz izaugsmi un ieņēmumiem, nevis saglabā un stiprina jau esošo. Ja šodien pievērsīsiet uzmanību administratoriem daudzos publiskos un privātos datu centros, jūs redzēsiet, ka viņi gandrīz tikai nodarbojas ar atmiņas ietilpības palielināšanu, serveru blīvuma palielināšanu un serveru blīvuma palielināšanu. modernizēt novecojušas serveru fermas modernākās iekārtās ar efektīvāku piemēram, dzesēšanas sistēmas. Lai gan tas viss ir lieliski, ļoti vajadzīgs un liecina par neticamu izaugsmi datu uzglabāšanas nozarē, tas arī parāda, kāpēc datu centri nedarbojas. Tas notiek arvien biežāk.
Šajā rakstā mēs izpētīsim izplatītākos iemeslus, kāpēc datu centri tiek atspējoti, un uzsvērsim, ko administratori var darīt, lai tos samazinātu vai pat novērstu. pilnībā novērst šīs problēmas, kā arī uzlabot jūsu sistēmas stabilitāti.
Datu centra sabrukšanas iemesli
Cilvēku izraisīta kļūda
Šie ir vienkāršākie cēloņi un arī viens no visgrūtāk novēršamajiem. Vienkārši sakot, ikviens var kļūdīties. Tā kā 22% atslēgumu gadījumu izraisa cilvēka kļūdas, šis iemesls ir rūpīgi jāapsver, un, kas ir svarīgi, to var novērst salīdzinoši vienkārši.
Nepareiza sistēmas autorizācija

Patiesībā ļoti nedaudziem administratoriem ir pilnīga un neierobežota piekļuve visām datu centra sistēmām. Tā vietā, lai piešķirtu šo atļauju lielākam skaitam cilvēku, piekļuve ir rūpīgi jāpārvalda. Pretējā gadījumā ir pilnīgi iespējams, ka sistēmā var rasties nopietna kļūda. Piemēram, Joyent incidentā 2014. gadā pieredzējis administrators nejauši restartēja visas virtuālās mašīnas uzņēmuma austrumu datu centrā, veicot tikai dažus klikšķus.
Sliktas dublēšanas procedūras

Plānojot apkopes darbus, svarīgs, bet bieži vien aizmirsts solis ir dublēšanas process. Bieži procesi tiek dokumentēti, bet netiek rūpīgi pārskatīti, un daudzas reizes pēc apkopes lietas netiek pilnībā atjaunotas sākotnējā formā.
Pārāk daudz izmaiņu veikšana

Apkopes laikā, ja administrators mēģina vienlaikus veikt pārāk daudz izmaiņu, tas var radīt problēmas. Pirmkārt, administratoriem bieži ir sasteigta mentalitāte, jo viņiem īsā laika periodā ir jāpaveic liels skaits uzdevumu, kas bieži noved pie kļūdām. Otrkārt, tā kā tik daudz izmaiņu notiek vienā laika posmā, tas padara problēmu novēršanu pēc izmaiņām daudz grūtāku.
Atslābums cilvēkresursu vadībā

Izklausās mazliet skarbi, taču darbiniekiem ir jāprot strikti ievērot centrā esošos noteikumus un, tos pārkāpjot, jābūt bargi disciplinētiem. Piemēram, neviens datu centrs neļauj darbiniekiem ēst vai dzert darba laikā, vai arī avārijas slēdžiem jābūt skaidri marķētiem un nostiprinātiem. Šīs lietas var šķist mazas, bet var izraisīt lielus incidentus, tāpēc vienmēr stingri ievērojiet noteikumus.
Sistēmas kļūda
Rezerves jauda netiek garantēta, aprīkojums ir vecs vai nepareizi konfigurēts.

Visbiežākais datu centra darbības traucējumu iemesls ir strāvas padeves pārtraukums. Strāvas padeves pārtraukumi var notikt jebkurā laikā. Tāpēc datu centri ir izstrādāti ar rezerves barošanas avotiem gadījumam, ja tiek pārtraukta galvenā barošana. Baterijas vai ģeneratoru sistēmas bieži izmanto kā rezerves barošanu. Problēma ir tā, ka akumulators var netikt nomainīts laikā, ģenerators var netikt pārbaudīts un apkopts, kā rezultātā rodas problēmas, ja rodas strāvas padeves pārtraukums. Tas viss nozīmē, ka jūsu dublēšanas iespējas var nebūt pieejamas, kad tās visvairāk nepieciešamas.
Strāvas padeves pārtraukuma gadījumā UPS sistēmas izmanto baterijas kā rezerves strāvu, padarot tās par būtisku datu centru darbspējas laika uzturēšanas sastāvdaļu. Tomēr akumulators ne vienmēr darbojas labi. Veiciet pašu ražotāju ieteikto apkopi, lai pārbaudītu akumulatora stāvokli. Vismaz reizi ceturksnī ir jāpārbauda akumulatoru pareiza uzstādīšana, izlāde un uzlāde. Tas ietver vizuālas pārbaudes, jaudas pārbaudes un regulāru uzraudzību, izmantojot programmatūru vai pašu UPS piegādātāju.
Turklāt augsta temperatūra var saīsināt sistēmas akumulatora darbības laiku. Īpašas UPS telpas izveide var palīdzēt samazināt akumulatora darbības laiku. Jums arī jāizvairās no biežas akumulatora izlādes un rūpīgi jārūpējas par vaļīgiem savienojumiem vai nodilušiem savienotājiem. Īsāk sakot, UPS ir īpaši svarīga sistēma, tai ir nepieciešams saprātīgs dizains, pareiza lietošana un stingra apkope.
Nepareiza darbība dzesēšanas sistēmā

Datu centra mehāniskās sistēmas patērē daudz elektrības, kas nozīmē, ka darbības laikā tās izdala lielu daudzumu siltuma. Datu centrs var kļūt par krematoriju pēc vienas darbības minūtes. Tāpēc dzesēšanas sistēma ir tik svarīga. Un pat ja jums ir temperatūras sensori, kas nolasa un nosūta brīdinājumus administratoriem, jums ir jābūt pārliecinātam, ka jums ir pietiekami daudz laika, lai ieviestu centra rezerves dzesēšanas procedūras, pirms viss izkusis.
Turklāt daudzas dzesēšanas sistēmas nav īsti izstrādātas, lai neatpaliktu no paaugstinātā siltuma līmeņa modernā lielas ietilpības datu centrā. Atkal, situāciju kartēšana, kad jūsu datu centrs darbojas ar 100% jaudu, var palīdzēt plānot labākas dzesēšanas sistēmas nākotnē. Nepieciešams arī iestatīt brīdinājuma sistēmas par sistēmas temperatūras svārstībām. Varat izmantot termiskās modelēšanas programmatūru un dažas DCIM sistēmas. Turklāt ķīmiskie aukstumnesēji ir labāka izvēle nekā sistēmas uz ūdens bāzes.
Automātiskais konvertēšanas process nedarbojas pareizi

Lielākajai daļai pakalpojumu sniedzēju un organizāciju un uzņēmumu ir rezerves datu centri, ko izmanto ražošanas datu centriem. Strāvas padeves pārtraukuma gadījumā primārajā datu centrā automātiski tiks palaists rezerves datu centrs un visa trafika tiks novirzīta uz šo rezerves iekārtu. Ja process tiek veikts pareizi, procesam jābūt vienmērīgam līdz pat gala lietotājam. Diemžēl automātiskās kļūmjpārlēces bieži nedarbojas, kā paredzēts. Parasti šīs problēmas cēlonis ir regulāras pārbaudes trūkums. Pat nelielas izmaiņas ražošanas infrastruktūrā var būtiski ietekmēt automatizēto kļūmjpārlēci. Tāpēc, veicot jebkādas izmaiņas infrastruktūrā, automatizētās kļūmjpārlēces procedūras būs jāpārbauda, lai pārliecinātos, ka nekas nav novirzījies no procesa.
Novecojusi aparatūra

Visai katras sistēmas aparatūrai ir noteikts kalpošanas laiks. Un jo ilgāk lietojat kādu aparatūru, jo lielāka iespēja, ka radīsies problēmas. Ikviens to zina, taču bieži vien svarīga lietojumprogramma avarē tikai tāpēc, ka tā darbojas ar 10 gadus vecu aparatūru. Šīs problēmas bieži rodas jaunas aparatūras vai programmatūras platformu visaptverošu nomaiņas un jaunināšanas plānu trūkuma vai budžeta trūkuma dēļ. Ja tas ir naudas jautājums, tad neko nevar darīt. Bet, ja jūs vienkārši mēģināt izmantot priekšrocības, cik ilgi vien iespējams, problēma var rasties jebkurā laikā, un, kad tā notiek, problēmas radītais kaitējums var būt daudz lielāks.
Ugunsdzēsības sistēmai ir ūdens noplūdes problēma

Lielākā daļa mūsdienu datu centru izmanto bezūdens ugunsdrošības sistēmas, lai tās nesabojātu aprīkojumu, ja tās tiek aktivizētas ar nolūku vai nejauši. Taču daudzas vecākas iekārtas savos datu centros joprojām izmanto tradicionālās ugunsdrošības sistēmas. Daudzas ūdens noplūdes ir izraisījušas lielus pārtraukumus.
Avārijas izslēgšanās tiek aktivizēta nejauši

Augstais fiziskās drošības līmenis lielākajā daļā datu centru ne tikai atbaida zagļus. Tie ir arī ieviesti, lai izvairītos no darbiniekiem, kuri nesaprot, kā darbojas datu centrs. Piemēram, lietojumprogrammas administrators ieiet datu centrā un nejauši aktivizē avārijas izslēgšanu (EPO). EPO ir liela sarkana poga, kas ir atbildīga par strāvas padeves pārtraukšanu visai sistēmai. Un acīmredzot tiem, kas nesaprot vai kuriem nav speciālo zināšanu, šāda neskaidrība ir pilnīgi iespējama.
Kiberuzbrukuma laikā ddos

Gadu gaitā kiberuzbrukumi ir kļuvuši par vienu no galvenajiem datu centru atteices cēloņiem — no tikai 2% 2010. gadā līdz 22% 2016. gadā. Operatori Datu centriem ir jārīkojas, lai izveidotu sistēmas, kas laikus atklātu un mazinātu uzbrukumu riskus.
Datu centrus ir grūti aizsargāt pret liela mēroga DDoS uzbrukumu . Lielākā daļa interneta pakalpojumu sniedzēju nodrošina zināmu aizsardzību tīkla 3. un 4. slānī, taču jūsu pakalpojumiem ir nepieciešama papildu aizsardzība 7. līmenī, kas var būt īpaši mērķēta, izmantojot HTTP GET vai zvanus. Lai pārorientētu trafiku, var apvienot tādus mazināšanas pakalpojumus kā ugunsmūri, IPS/IDS un DDoS.
Dabas katastrofa
Nesenais vētru un plūdu pieaugums var radīt ievērojamus traucējumus datu centros. 2010. gadā Amerikas Savienotajās Valstīs notika vairāk nekā 250 dabas katastrofas. Saskaņā ar statistiku, Ņūdžersijas štats, ASV cieta 63,9 miljardus dolāru lielus zaudējumus, jo 2012. gadā tika pārtraukta supervētra Sandy.
Pasākumi, lai ierobežotu datu centra "sabrukšanas" incidentu radītos bojājumus
Ja kārtējās apkopes dīkstāves ir rūpīgi plānotas un klienti jau iepriekš tiek brīdināti par centra dīkstāvi, īpaši mazas satiksmes laikā, klienti būs līdzjūtīgāki un ievērojami samazināsies zaudējumi. Vislielākais kaitējums rodas, ja tas notiek negaidīti, un jo īpaši, ja tas ilgst ilgu laiku, un rodas papildu problēmas. Saglabājiet visas uzņēmuma resursu sistēmas stabilitāti, lai darbinieki varētu efektīvi veikt savu darbu, samazinot IT nodaļu slogu.
Konkrēti:
- Dublējiet savus datus: ja saskaraties ar datu centra darbības pārtraukumu, jūsu datiem (un vēl svarīgāk – klientu datiem) jābūt gataviem, kad sākat darbu. Sāciet problēmu novēršanu un palaidiet vēlreiz. Regulāra dublēšana ierobežo reālas sabrukšanas risku. Ja jūsu uzņēmums to var atļauties, daži produkti, piemēram, EMC VPLEX produktu līnija vai VEEAM dublēšanas un replikācijas programmatūra, var palīdzēt samazināt dīkstāves laiku, automātiski pārslēdzoties uz atrašanās vietu.
- Uzturiet regulāru servera sistēmas uzraudzību: Uzraudzība ir pakalpojums, kuru varat veikt regulāri, un tas parasti nemaksā pārāk dārgi. Trešās puses uzraudzības pakalpojums informē jūs par iespējamu servera dīkstāvi, lai jūs varētu nekavējoties novērst problēmu.
- Samaziniet cilvēku kļūdas: esiet piesardzīgs, strādājot vai staigājot pa serveru sistēmām vai elektrības vadiem, lai nejauši nesabojātu tos, vai vienkārši nepieskarieties noslēpumainiem slēdžiem bez jūsu zināšanām. Neglabājiet šķidrumus no mehāniskām sistēmām. Zvaniet datu aizsardzības speciālistam jebkurā laikā, kad serverim ir nepieciešama jaunināšana vai apkope, un ievērojiet centra noteikumus.
Katram datu centram, sākot no maziem centriem līdz uzņēmuma mēroga iekārtām un pakalpojumu sniedzējiem, ir jācenšas 100% nodrošināt lietotājiem uzticamus pakalpojumus. Atvēlot laiku nākotnes plānošanai, ievērojot apkopes un cilvēka faktoru principus, jūsu datu centrs var izvairīties no dažiem visbiežāk sastopamajiem atteices cēloņiem.
redzēt vairāk