Razlozi koji dovode do kolapsa podatkovnog centra

Operateri podataka ponekad čine pogreške koje mogu dovesti do zatvaranja cijelog podatkovnog centra. Međutim, većina ovih problema može se izbjeći mjerama održavanja, inspekcijskim postupcima te zdravim razumom i iskustvom operatera sustava.

"Neplanirani ispad podatkovnog centra" pristojan je način da se govori o problemima podatkovnog centra koji dovode do prekida rada. Bilo da je temeljni uzrok pogreška hardvera, pogreška softvera ili ljudska pogreška, većina tih pogrešaka može se i treba spriječiti unaprijed. Uz visoku razinu redundantnosti rizika koja postoji u današnjim podatkovnim centrima, potpuno je moguće spriječiti incidente unaprijed.

Jedna zanimljivost je da se velike i male greške i dalje mogu događati cijelo vrijeme u podatkovnom centru, a šteta nastala kada podatkovni centri prestanu s radom nije mala, čak ni nakratko.minuta. Prema studiji koju je proveo Data Center Knowledge, prekid rada podatkovnog centra može stajati tvrtke oko 7900 USD po minuti. Zapravo, 93% tvrtki s prekidima rada podatkovnih centara 10 ili više dana bankrotiralo je u roku od godinu dana, a 40% odmah je propalo. A druga studija o 41 procijenjenom podatkovnom centru otkrila je da prosječni trošak neplaniranih prekida rada uključuje više od 179 tisuća dolara u prekidu poslovanja, oko 118 tisuća dolara u izgubljenom prihodu i oko 42 tisuće dolara u produktivnosti. Kad bi se upravitelji podatkovnih centara jednostavno više usredotočili na istraživanje i popravljanje glavnih uzroka uobičajenih pogrešaka, značajno bi smanjili potencijalne rizike.

Razlozi koji dovode do kolapsa podatkovnog centra

Problem je u tome što se mnogi operateri podatkovnih centara i operateri često više fokusiraju na rast i prihod umjesto na održavanje i jačanje onoga što već postoji. Ako obratite pozornost na administratore u mnogim javnim i privatnim podatkovnim centrima danas, vidjet ćete da su oni gotovo isključivo zabrinuti za povećanje kapaciteta pohrane, povećanje gustoće poslužitelja i povećanje gustoće poslužitelja. retrogradirajte zastarjele farme poslužitelja u modernije objekte s učinkovitijim sustavi hlađenja, na primjer. Iako je sve ovo sjajno, prijeko potrebno i pokazuje nevjerojatan rast u industriji pohrane podataka, također pokazuje zašto podatkovni centri propadaju, što se događa sve češće.

U ovom ćemo članku istražiti uobičajene razloge zašto su podatkovni centri onemogućeni i istaknuti što administratori mogu učiniti da ih svedu na najmanju moguću mjeru ili čak eliminiraju. u potpunosti riješiti te probleme, kao i poboljšati stabilnost vašeg sustava.

Razlozi koji dovode do kolapsa podatkovnog centra

Pogrešku uzrokuju ljudi
Sistemska greška
Koraci za ograničavanje štete uzrokovane incidentima "kolapsa" podatkovnog centra

Pogrešku uzrokuju ljudi

Ovo su najjednostavniji uzroci, ali i jedni od onih koje je najteže izbjeći. Jednostavno rečeno, svatko može pogriješiti. Uz 22% prekida rada uzrokovanih ljudskom greškom, ovaj uzrok vrijedi pažljivo razmotriti i, što je još važnije, može se relativno lako spriječiti.

Neispravna autorizacija sustava

U stvarnosti, vrlo malo administratora ima puni i neograničeni pristup svim sustavima u podatkovnom centru. Umjesto dodjele ove dozvole većem broju ljudi, pristupom se mora strogo upravljati. U suprotnom, sasvim je moguće da dođe do ozbiljne greške u sustavu. Na primjer, u incidentu Joyent 2014. godine, iskusni administrator je slučajno ponovno pokrenuo sve virtualne strojeve u istočnom podatkovnom centru tvrtke sa samo nekoliko klikova.

Loše sigurnosne kopije

Prilikom planiranja zadataka održavanja, važan, ali često zaboravljen korak je proces izrade sigurnosne kopije. Često su procesi dokumentirani, ali nisu temeljito pregledani, a mnogo puta stvari nisu potpuno vraćene u izvorni oblik nakon održavanja.

Previše promjena

Ako tijekom održavanja administrator pokuša napraviti previše promjena odjednom, to može uzrokovati probleme. Prvo, administratori često imaju mentalitet užurbanosti jer moraju obaviti velik broj zadataka u kratkom vremenskom razdoblju, što često dovodi do pogrešaka. Drugo, budući da se toliko promjena događa u istom vremenskom okviru, rješavanje problema nakon promjena čini mnogo težim zadatkom.

Opuštenost u upravljanju ljudskim resursima

Zvuči malo grubo, ali zaposlenici se moraju znati strogo pridržavati pravila u centru i moraju biti strogo disciplinirani pri njihovom kršenju. Na primjer, nijedan podatkovni centar ne dopušta zaposlenicima da jedu ili piju dok su na poslu, ili prekidači za hitne slučajeve moraju biti jasno označeni i osigurani. Ove se stvari mogu činiti malima, ali mogu dovesti do velikih incidenata, stoga se pobrinite da se pravila uvijek strogo poštuju.

Sistemska greška

Rezervno napajanje nije zajamčeno, oprema je stara ili pogrešno konfigurirana.

Najčešći razlog kvara podatkovnog centra je nestanak struje. Nestanak struje može se dogoditi bilo kada. Stoga su podatkovni centri dizajnirani s rezervnim izvorima napajanja u slučaju nestanka glavnog napajanja. Baterije ili generatorski sustavi često se koriste kao rezervno napajanje. Problem je u tome što baterija nije zamijenjena na vrijeme, generator nije pregledan i održavan, što dovodi do problema kada dođe do nestanka struje. Sve to znači da vaše sigurnosne mogućnosti možda neće biti dostupne kada su vam najpotrebnije.

U slučaju nestanka struje, UPS sustavi koriste baterije kao rezervno napajanje, što ih čini bitnim dijelom održavanja radnog vremena za podatkovne centre. Međutim, baterija ne radi uvijek dobro. Provedite održavanje koje preporučuju sami proizvođači kako biste provjerili ispravnost baterije. Najmanje jednom u tromjesečju, baterije treba pregledati radi pravilne ugradnje, pražnjenja i punjenja. To uključuje vizualne preglede, provjere kapaciteta i redoviti nadzor putem softvera ili samog dobavljača UPS-a.

Osim toga, visoke temperature mogu skratiti trajanje baterije sustava. Izgradnja namjenske prostorije za UPS može pomoći u smanjenju trošenja i habanja baterije. Također biste trebali izbjegavati često pražnjenje baterije i dobro paziti na labave spojeve ili istrošene konektore. Ukratko, UPS je posebno važan sustav, zahtijeva razuman dizajn, pravilnu upotrebu i strogo održavanje.

Kvar u rashladnom sustavu

Mehanički sustavi u podatkovnom centru troše puno električne energije, što znači da tijekom rada emitiraju veliku količinu topline. Podatkovni centar može postati krematorij nakon jedne minute rada. Zato je rashladni sustav tako važan. Pa čak i ako imate očitanja temperaturnih senzora i upozorenja poslana administratorima, morate biti sigurni da imate dovoljno vremena za implementaciju rezervnih postupaka hlađenja centra prije nego što se sve otopi. pokrenuti".

Dodatno, mnogi rashladni sustavi zapravo nisu dizajnirani da drže korak s povećanim razinama topline u modernom podatkovnom centru velikog kapaciteta. Opet, mapiranje situacija u kojima vaš podatkovni centar radi sa 100% kapaciteta može pomoći u planiranju boljih sustava hlađenja u budućnosti. Također je potrebno postaviti sustave upozorenja na fluktuacije temperature sustava. Možete koristiti neki softver za termalno modeliranje i neke DCIM sustave. Osim toga, kemijska rashladna sredstva su bolji izbor od sustava na bazi vode.

Proces automatske pretvorbe ne funkcionira ispravno

Većina pružatelja usluga, organizacija i tvrtki ima rezervne podatkovne centre koji se koriste za proizvodne podatkovne centre. U slučaju nestanka struje u primarnom podatkovnom centru, automatski će se pokrenuti pričuvni podatkovni centar i sav će se promet preusmjeriti na taj rezervni pogon. Ako se pravilno izvede, proces bi trebao biti besprijekoran sve do krajnjeg korisnika. Nažalost, automatski prijelazi često ne rade kako se očekuje. Uobičajeni uzrok ovog problema je nedostatak redovitih testiranja. Čak i male promjene u proizvodnoj infrastrukturi mogu imati veliki utjecaj na automatizirani failover. Stoga, kada se unose bilo kakve promjene u infrastrukturu, morat će se testirati automatizirani postupci prelaska u grešku kako bi se osiguralo da ništa nije odstupilo od procesa.

Zastarjeli hardver

Sav hardver svakog sustava ima određeni životni vijek. A što dulje koristite hardverski dio, veća je vjerojatnost da ćete naići na probleme. Svi to znaju, ali uobičajeno je da se važna aplikacija sruši samo zato što radi na hardveru starom 10 godina. Ovi problemi često nastaju zbog nedostatka sveobuhvatnih planova zamjene i nadogradnje za nove hardverske ili softverske platforme ili zbog nedostatka proračuna. Ako je u pitanju novac, ne možete ništa učiniti. Ali ako jednostavno pokušavate iskoristiti što je duže moguće, problem se može dogoditi bilo kada, a kada se dogodi, šteta uzrokovana problemom može biti puno veća.

Sustav za suzbijanje požara ima problema s curenjem vode

Većina modernih podatkovnih centara koristi sustave zaštite od požara bez vode kako ne bi oštetili opremu ako se aktiviraju namjerno ili slučajno. Ali mnogi stariji objekti još uvijek koriste tradicionalne sustave zaštite od požara u svojim podatkovnim centrima. Mnoga curenja vode uzrokovala su velike zastoje.

Slučajno se aktivira hitno isključivanje

Visoka razina fizičke sigurnosti koja postoji u većini podatkovnih centara ne odvraća samo lopove. Oni su također na mjestu kako bi izbjegli zaposlenike koji ne razumiju kako podatkovni centar funkcionira. Na primjer, administrator aplikacije uđe u podatkovni centar i slučajno aktivira hitno isključivanje (EPO). EPO je veliki crveni gumb, odgovoran za prekid napajanja cijelog sustava. I očito, za one koji ne razumiju ili nemaju stručnost, takva je zabuna sasvim moguća.

Pod cyber napadom, ddos

Tijekom godina kibernetički napadi postali su jedan od vodećih uzroka kvarova podatkovnih centara, sa samo 2% u 2010. na 22% u 2016. Operateri Podatkovni centri moraju poduzeti radnje kako bi uspostavili sustave za rano otkrivanje i ublažavanje rizika od napada.

Podatkovne centre teško je obraniti od DDoS napada velikih razmjera . Većina ISP-ova pruža određenu zaštitu na slojevima 3 i 4 mreže, ali vaše usluge trebaju dodatnu zaštitu na sloju 7, koja se može posebno ciljati putem HTTP GET-a ili poziva. Usluge ublažavanja kao što su vatrozidi, IPS/IDS i DDoS mogu se kombinirati za preusmjeravanje prometa.

Prirodna katastrofa

Nedavni porast oluja i poplava može uzrokovati značajne poremećaje u podatkovnim centrima. Više od 250 prirodnih katastrofa dogodilo se 2010. godine u Sjedinjenim Državama. Prema statistici, država New Jersey, SAD pretrpjela je 63,9 milijardi dolara gubitaka zbog prekida poslovanja izazvanog superolujom Sandy 2012. godine.

Koraci za ograničavanje štete uzrokovane incidentima "kolapsa" podatkovnog centra

Ako su zastoji radi rutinskog održavanja pažljivo isplanirani i klijenti su unaprijed upozoreni o zastoju centra, posebno tijekom razdoblja slabog prometa, kupci će biti suosjećajniji i štete će biti značajno smanjene. Najveće štete nastaju kada se pojave neočekivano, a posebno kada dugo traju, te nastaju dodatni problemi. Održavajte cijeli sustav resursa tvrtke stabilnim kako bi zaposlenici mogli učinkovito obavljati svoj posao, smanjujući opterećenje IT odjela.

Posebno:

Izradite sigurnosnu kopiju svojih podataka: U slučaju da se suočite s prekidom rada podatkovnog centra, vaši bi podaci (i što je još važnije, podaci vaših klijenata) trebali biti spremni kada počnete. Započnite s rješavanjem problema i pokrenite ponovno. Izvođenje redovitih sigurnosnih kopija ograničava rizik od stvarnog sloma. Ako si vaša tvrtka to može priuštiti, neki proizvodi poput EMC-ove linije proizvoda VPLEX ili VEEAM-ovog softvera za sigurnosno kopiranje i replikaciju mogu pomoći smanjiti vrijeme prekida rada automatskim prebacivanjem na lokaciju.
Održavajte redoviti nadzor poslužiteljskog sustava: Nadzor je usluga koju možete obavljati redovito i obično ne košta previše. Usluga nadzora treće strane obavještava vas o potencijalnom zastoju poslužitelja tako da možete odmah riješiti problem.
Smanjite ljudsku pogrešku: budite oprezni kada radite ili hodate oko poslužiteljskih sustava ili električnih žica kako biste izbjegli njihovo slučajno oštećenje ili jednostavno ne dirajte misteriozne prekidače bez svoje stručnosti. Držite tekućine dalje od mehaničkih sustava. Nazovite stručnjaka za zaštitu podataka svaki put kada je poslužitelju potrebna nadogradnja ili održavanje i pridržavajte se pravila centra.

Svaki podatkovni centar, od malih centara do objekata velikih poduzeća i pružatelja usluga, mora nastojati 100% pružiti pouzdane usluge korisnicima. Odvajanjem vremena za planiranje budućnosti, slijedeći načela održavanja i ljudskog faktora, vaš podatkovni centar može izbjeći neke od najčešćih uzroka kvarova, problem ispada.

vidi više

Najveći podatkovni centri na planeti
Izgradite podatkovne centre prema modelu računalstva u oblaku
Kako Facebook čuva svoje poslužitelje od rušenja?
Zavirite u Facebookove podatkovne centre u Europi

Tags: #podatkovni centar #podatkovni centar #incident podatkovnog centra #kolaps podatkovnog centra #prekid veze podatkovnog centra #gašenje podatkovnog centra

Instalirajte dinamičke zaslone i animirane pozadine na Windows

U Microsoftovom operativnom sustavu Windows Vista DreamScene je omogućio postavljanje dinamičke pozadine za računala, ali osam godina kasnije još uvijek nije dostupan na Windows 10. Zašto je ovaj običaj godinama predstavljao vraćanje u prošlost i što možemo učiniti da to promijenimo?

Kako spojiti mrežu između 2 prijenosna računala pomoću mrežnog kabela

Ako želimo spojiti dva prijenosna računala na mrežu, možemo koristiti mrežni kabel i zatim promijeniti IP adrese dvaju računala i to je to.

Kako popraviti Nemate dozvolu za spremanje na ovu lokaciju u sustavu Windows

Kada Windows prikaže pogrešku "Nemate dopuštenje za spremanje na ovoj lokaciji", to će vas spriječiti u spremanju datoteka u željene mape.

Najbolji besplatni i plaćeni softver Syslog Server za Windows

Syslog Server važan je dio arsenala IT administratora, osobito kada je riječ o upravljanju zapisima događaja na centraliziranoj lokaciji.

Što je pogreška 524 Došlo je do isteka vremena i kako popraviti pogrešku

Pogreška 524: Došlo je do isteka vremena je kod HTTP statusa specifičan za Cloudflare koji označava da je veza s poslužiteljem zatvorena zbog isteka vremena.

Što je pogreška 0x80070570? Kako popraviti ovu grešku?

Šifra pogreške 0x80070570 uobičajena je poruka o pogrešci na računalima, prijenosnim računalima i tabletima s operativnim sustavom Windows 10. Međutim, pojavljuje se i na računalima s operativnim sustavima Windows 8.1, Windows 8, Windows 7 ili starijim.

Upute za ispravljanje pogreške plavog ekrana PAGE FAULT IN NONPAGED AREA ili STOP 0x00000050

Pogreška plavog ekrana smrti BSOD PAGE_FAULT_IN_NONPAGED_AREA ili STOP 0x00000050 je pogreška koja se često pojavljuje nakon instaliranja upravljačkog programa hardverskog uređaja ili nakon instaliranja ili ažuriranja novog softvera, au nekim slučajevima uzrok je pogreška zbog oštećene NTFS particije.

Što učiniti kada dobijete unutarnju pogrešku Video Scheduler-a?

Interna pogreška Video Scheduler također je smrtonosna pogreška plavog ekrana, ova se pogreška često pojavljuje na Windows 10 i Windows 8.1. Ovaj članak će vam pokazati neke načine za ispravljanje ove pogreške.

Kako spriječiti pokretanje Epic Launchera sa sustavom Windows

Da biste ubrzali pokretanje sustava Windows 10 i smanjili vrijeme pokretanja, u nastavku su navedeni koraci koje morate slijediti kako biste uklonili Epic iz pokretanja sustava Windows i spriječili pokretanje programa Epic Launcher sa sustavom Windows 10.

3 bolja načina za spremanje datoteka na radnu površinu

Ne biste trebali spremati datoteke na radnu površinu. Postoje bolji načini za pohranu računalnih datoteka i održavanje radne površine urednom. Sljedeći članak pokazat će vam učinkovitija mjesta za spremanje datoteka u sustavu Windows 10.