Dataoperatører laver nogle gange fejl, der kan føre til, at hele datacentret lukker ned. De fleste af disse problemer kan dog undgås gennem vedligeholdelsesforanstaltninger, inspektionsprocedurer og ved systemoperatørernes sunde fornuft og erfaring.
Et "uplanlagt datacenterudfald" er en høflig måde at tale om, at et datacenter har problemer, der fører til nedetid. Uanset om årsagen er hardwarefejl, softwarefejl eller menneskelige fejl, kan og bør de fleste af disse fejl forhindres på forhånd. Med det høje niveau af risikoredundans på plads i nutidens datacentre, er det fuldt muligt at forhindre hændelser på forhånd.
En interessant ting er, at store og små fejl stadig kan opstå hele tiden i et datacenter, og skaden, der opstår, når datacentre stopper med at fungere, er ikke små, selv i et kort øjeblik. Ifølge en undersøgelse foretaget af Data Center Knowledge kan nedetid i datacentre koste virksomheder omkring 7.900 USD i minuttet. Faktisk gik 93 % af virksomheder med nedetid i datacentre i 10 dage eller mere konkurs inden for et år, og 40 % kollapsede med det samme. Og en anden undersøgelse af 41 evaluerede datacentre viste, at de gennemsnitlige omkostninger ved uplanlagte afbrydelser omfattede mere end $179 tusinde i forretningsafbrydelser, omkring $118 tusinde i tabt omsætning og omkring $42k i produktivitet. Hvis datacenterledere blot fokuserede mere på at undersøge og rette op på hovedårsagerne til almindelige fejl, ville de reducere de potentielle risici betydeligt.

Problemet er, at mange datacenteroperatører og -operatører ofte fokuserer mere på vækst og omsætning i stedet for at fastholde og styrke det, der allerede er der. Hvis du er opmærksom på administratorerne i mange offentlige og private datacentre i dag, vil du se, at de næsten udelukkende beskæftiger sig med at øge lagerkapaciteten, øge servertætheden og øge servertætheden. Retrofit forældede serverfarme til mere moderne faciliteter med mere effektive kølesystemer f.eks. Selvom alt dette er fantastisk, meget tiltrængt og viser en utrolig vækst i datalagringsindustrien, viser det også, hvorfor datacentre svigter. Det sker mere og mere almindeligt.
I denne artikel vil vi undersøge de almindelige årsager til, at datacentre er deaktiveret, og fremhæve, hvad administratorer kan gøre for at minimere eller endda eliminere dem. Fuldstændig løse disse problemer, samt forbedre stabiliteten af dit system.
Årsager, der fører til, at datacenter kollapser
Fejl forårsaget af mennesker
Disse er de enkleste årsager og også en af de sværeste at undgå. Kort sagt kan alle begå fejl. Med 22 % af afbrydelserne forårsaget af menneskelige fejl, er denne årsag værd at overveje nøje, og vigtigst af alt, kan den relativt let forebygges.
Ukorrekt systemautorisation

I virkeligheden har meget få administratorer fuld og ubegrænset adgang til alle systemer i et datacenter. I stedet for at give denne tilladelse til flere mennesker, skal adgangen styres stramt. Ellers er det meget muligt, at der kan opstå en alvorlig fejl i systemet. For eksempel, i Joyent-hændelsen i 2014, genstartede en erfaren administrator ved et uheld alle virtuelle maskiner i virksomhedens østlige datacenter med blot et par klik.
Dårlige sikkerhedskopieringsprocedurer

Når du planlægger vedligeholdelsesopgaver, er backup-processen et vigtigt, men ofte glemt trin. Ofte bliver processer dokumenteret, men ikke grundigt gennemgået, og mange gange bliver tingene ikke fuldstændigt genoprettet til deres oprindelige form efter vedligeholdelse.
Foretag for mange ændringer

Hvis en administrator under vedligeholdelse forsøger at foretage for mange ændringer på én gang, kan dette forårsage problemer. For det første har administratorer ofte en forhastet mentalitet, fordi de skal udføre et stort antal opgaver på kort tid, hvilket ofte fører til fejl. For det andet, fordi så mange ændringer sker inden for samme tidsramme, gør det fejlfinding efter ændring til en meget vanskeligere opgave.
Slaphed i forvaltning af menneskelige ressourcer

Det lyder lidt hårdt, men medarbejderne skal vide, hvordan de nøje følger reglerne i centret og skal være hårdt disciplineret, når de overtræder dem. For eksempel tillader intet datacenter medarbejderne at spise eller drikke, mens de er på jobbet, eller nødafbrydere skal være tydeligt mærket og sikret. Disse ting kan virke små, men kan føre til større hændelser, så sørg for, at reglerne altid følges nøje.
Systemfejl
Backup-strøm er ikke garanteret, udstyret er gammelt eller forkert konfigureret.

Den mest almindelige årsag til, at et datacenter går ned, er på grund af en strømafbrydelse. Strømafbrydelser kan ske når som helst. Derfor er datacentre designet med backup-strømkilder, hvis hovedstrømmen svigter. Batterier eller generatorsystemer bruges ofte som reservestrøm. Problemet er, at batteriet muligvis ikke udskiftes i tide, at generatoren muligvis ikke inspiceres og vedligeholdes, hvilket fører til problemer, når der opstår strømafbrydelse. Alt dette betyder, at dine sikkerhedskopieringsmuligheder muligvis ikke er tilgængelige, når du har mest brug for dem.
I tilfælde af strømafbrydelse bruger UPS-systemer batterier som backupstrøm, hvilket gør dem til en væsentlig del af opretholdelsen af oppetiden for datacentre. Batteriet fungerer dog ikke altid godt. Udfør vedligeholdelse anbefalet af fabrikanterne selv for at kontrollere batteriets sundhed. Mindst kvartalsvis skal batterier efterses for korrekt installation, afladning og opladning. Dette omfatter visuelle inspektioner, kapacitetstjek og regelmæssig overvågning gennem software eller UPS-leverandøren selv.
Derudover kan høje temperaturer forkorte systemets batterilevetid. Opbygning af et dedikeret UPS-rum kan hjælpe med at reducere sliddet på batterilevetiden. Du bør også undgå at aflade batteriet ofte og passe godt på løse forbindelser eller slidte stik. Kort sagt, UPS er et særligt vigtigt system, det kræver fornuftigt design, korrekt brug og streng vedligeholdelse.
Fejl i kølesystemet

Mekaniske systemer i et datacenter bruger meget elektricitet, hvilket betyder, at de afgiver en stor mængde varme under drift. Et datacenter kan blive et krematorium efter et minuts drift. Derfor er kølesystemet så vigtigt. Og selvom du har temperatursensorer, der aflæser og advarsler sendt til administratorer, skal du være sikker på, at du har tid nok til at implementere centrets backup-køleprocedurer, før alt smelter. køre".
Derudover er mange kølesystemer ikke rigtig designet til at holde trit med de øgede varmeniveauer i et moderne datacenter med høj kapacitet. Igen, kortlægning af situationer, hvor dit datacenter fungerer med 100 % kapacitet, kan hjælpe med at planlægge for bedre kølesystemer i fremtiden. Opsætning af advarselssystemer for systemtemperaturudsving er også nødvendigt. Du kan bruge noget termisk modelleringssoftware og nogle DCIM-systemer. Derudover er kemiske kølemidler et bedre valg end vandbaserede systemer.
Den automatiske konverteringsproces fungerer ikke korrekt

De fleste tjenesteudbydere og organisationer og virksomheder har backup-datacentre, der bruges til produktionsdatacentre. I tilfælde af strømafbrydelse i det primære datacenter, vil backup-datacenteret automatisk blive startet, og al trafik vil blive dirigeret til denne backup-facilitet. Hvis det gøres korrekt, bør processen være problemfri hele vejen til slutbrugeren. Desværre fungerer automatiske failovers ofte ikke som forventet. Den sædvanlige årsag til dette problem er mangel på regelmæssige tests. Selv små ændringer i produktionsinfrastrukturen kan have stor indflydelse på automatiseret failover. Derfor, når der foretages ændringer i infrastrukturen, skal de automatiserede failover-procedurer testes for at sikre, at intet har afviget fra processen.
Forældet hardware

Al hardware i hvert system har en vis levetid. Og jo længere du bruger et stykke hardware, jo større er sandsynligheden for, at du støder på problemer. Alle ved det, men det er almindeligt, at en vigtig applikation går ned, bare fordi den kører på 10 år gammel hardware. Disse problemer opstår ofte på grund af manglende omfattende udskiftnings- og opgraderingsplaner for ny hardware- eller softwareplatforme eller på grund af manglende budget. Hvis det er et spørgsmål om penge, er der ikke noget, du kan gøre. Men hvis du blot forsøger at udnytte det så længe som muligt, kan et problem opstå når som helst, og når det sker, kan skaden forårsaget af problemet være meget større.
Brandslukningssystemet har et problem med vandlækage

De fleste moderne datacentre bruger vandløse brandsikringssystemer, så de ikke beskadiger udstyr, hvis de aktiveres med vilje eller ved et uheld. Men mange ældre faciliteter bruger stadig traditionelle brandsikringssystemer i deres datacentre. Mange vandlækager har forårsaget store udfald.
Nødsluk aktiveres ved et uheld

Det høje niveau af fysisk sikkerhed på plads i de fleste datacentre afskrækker ikke blot tyve. De er også på plads for at undgå medarbejdere, der ikke forstår, hvordan et datacenter fungerer. For eksempel går en applikationsadministrator ind i datacentret og udløser ved et uheld en nødstrømslukning (EPO). EPO er en stor rød knap, ansvarlig for at afbryde strømmen til hele systemet. Og naturligvis, for dem, der ikke forstår eller ikke har nogen ekspertise, er en sådan forvirring helt mulig.
Under cyberangreb, ddos

I årenes løb er cyberangreb blevet en af de førende årsager til datacenterfejl, fra kun 2 % i 2010 til 22 % i 2016. Operatører Datacentre skal tage skridt til at etablere systemer til at opdage og afbøde risikoen for angreb tidligt.
Datacentre er svære at forsvare mod et storstilet DDoS-angreb . De fleste internetudbydere giver en vis beskyttelse på lag 3 og 4 af netværket, men dine tjenester har brug for yderligere beskyttelse på lag 7, som specifikt kan målrettes via HTTP GET eller opkald lignende angreb. Afhjælpningstjenester såsom firewalls, IPS/IDS og DDoS kan kombineres for at omdirigere trafik.
Naturkatastrofe
Den seneste stigning i storme og oversvømmelser kan forårsage betydelige forstyrrelser i datacentre. Mere end 250 naturkatastrofer fandt sted i 2010 i USA. Ifølge statistikker led staten New Jersey, USA, $63,9 milliarder i tab på grund af forretningsafbrydelser forårsaget af superstormen Sandy i 2012.
Trin til at begrænse skader forårsaget af hændelser med "sammenbrud" af datacenter
Hvis nedetid til rutinemæssig vedligeholdelse planlægges nøje, og kunderne advares på forhånd om nedetid i centeret, især i en periode med lav trafik, vil kunderne være mere sympatiske, og skaderne vil blive væsentligt reduceret. Den største skade opstår, når den opstår uventet, og især når den varer længe, og der opstår yderligere problemer. Hold hele virksomhedens ressourcesystem stabilt, så medarbejderne kan udføre deres arbejde effektivt, hvilket reducerer byrden på it-afdelinger.
Specifikt:
- Sikkerhedskopier dine data: I tilfælde af at du står over for et datacenterudfald, bør dine data (og endnu vigtigere, dine kunders data) være klar, når du starter. Start fejlfinding og kør igen. Udførelse af regelmæssige backups begrænser risikoen for en reel nedsmeltning. Hvis din virksomhed har råd til det, kan nogle produkter som EMC's VPLEX-produktlinje eller VEEAM's backup- og replikeringssoftware hjælpe med at minimere nedetid ved automatisk at skifte til en placering.
- Oprethold regelmæssig overvågning af serversystemet: Overvågning er en service, du kan udføre regelmæssigt og normalt ikke koster for meget. En tredjeparts overvågningstjeneste giver dig besked om potentiel servernedetid, så du kan tage dig af problemet med det samme.
- Minimer menneskelige fejl: Vær forsigtig, når du arbejder eller går rundt i serversystemer eller elektriske ledninger for at undgå at beskadige dem ved et uheld, eller rør simpelthen ikke ved mystiske kontakter uden din ekspertise. Hold væsker væk fra mekaniske systemer. Ring til en databeskyttelsesspecialist hver gang en server har brug for opgradering eller vedligeholdelse, og overhold centrets regler.
Ethvert datacenter, fra små centre til faciliteter i virksomhedsskala og tjenesteudbydere, skal stræbe 100 % efter at levere pålidelige tjenester til brugerne. Ved at tage sig tid til at planlægge fremtiden, følge vedligeholdelses- og menneskelige faktorers principper, kan dit datacenter undgå nogle af de mest almindelige årsager til fejl.
se mere