Dataoperatører gjør noen ganger feil som kan føre til at hele datasenteret stenges. De fleste av disse problemene kan imidlertid unngås gjennom vedlikeholdstiltak, inspeksjonsprosedyrer og med sunn fornuft og erfaring fra systemoperatørene.
Et «uplanlagt datasenterbrudd» er en høflig måte å snakke om at et datasenter har problemer som fører til nedetid. Enten årsaken er maskinvarefeil, programvarefeil eller menneskelig feil, kan og bør de fleste av disse feilene forhindres på forhånd. Med det høye nivået av risikoredundans på plass i dagens datasentre, er det fullt mulig å forhindre hendelser på forhånd.
En interessant ting er at store og små feil kan oppstå hele tiden i et datasenter, og skadene som oppstår når datasentre slutter å fungere er ikke små, selv for bare en kort stund. I følge en studie fra Data Center Knowledge kan nedetid for datasenter koste bedrifter rundt 7 900 dollar per minutt. Faktisk gikk 93 % av selskapene med datasentre nedetid i 10 dager eller mer konkurs i løpet av et år, og 40 % kollapset umiddelbart. Og en annen studie av 41 evaluerte datasentre fant at gjennomsnittskostnaden for ikke-planlagte driftsavbrudd inkluderte mer enn $179 tusen i forretningsavbrudd, rundt $118 tusen i tapt inntekt og omtrent $42k i produktivitet. Hvis datasenterledere rett og slett fokuserte mer på å undersøke og fikse hovedårsakene til vanlige feil, ville de redusere den potensielle risikoen betydelig.

Problemet er at mange datasenteroperatører og -operatører ofte fokuserer mer på vekst og inntekter i stedet for å opprettholde og styrke det som allerede er der. Hvis du tar hensyn til administratorene i mange offentlige og private datasentre i dag, vil du se at de nesten utelukkende er opptatt av å øke lagringskapasiteten, øke servertettheten og øke servertettheten.. ettermontere utdaterte serverfarmer til mer moderne fasiliteter med mer effektive kjølesystemer, for eksempel. Selv om alt dette er flott, sårt tiltrengt og viser en utrolig vekst i datalagringsindustrien, viser det også hvorfor datasentre svikter. Dette skjer mer og mer vanlig.
I denne artikkelen vil vi utforske de vanlige årsakene til at datasentre er deaktivert, og fremheve hva administratorer kan gjøre for å minimere eller til og med eliminere dem. fikse disse problemene fullstendig, samt forbedre stabiliteten til systemet ditt.
Årsaker som fører til at datasenteret kollapser
Feil forårsaket av mennesker
Dette er de enkleste årsakene og også en av de vanskeligste å unngå. Enkelt sagt kan alle gjøre feil. Med 22 % av avbrudd forårsaket av menneskelige feil, er denne årsaken verdt å vurdere nøye og, viktigere, kan den forhindres relativt enkelt.
Feil systemautorisasjon

I virkeligheten har svært få administratorer full og ubegrenset tilgang til alle systemer i et datasenter. I stedet for å gi denne tillatelsen til flere, må tilgangen styres tett. Ellers er det fullt mulig at det kan oppstå en alvorlig feil i systemet. For eksempel, i Joyent-hendelsen i 2014, startet en erfaren administrator ved et uhell alle virtuelle maskiner i selskapets østlige datasenter med bare noen få klikk.
Dårlige sikkerhetskopieringsprosedyrer

Når du planlegger vedlikeholdsoppgaver, er backup-prosessen et viktig, men ofte glemt trinn. Ofte blir prosesser dokumentert, men ikke grundig gjennomgått, og mange ganger blir ting ikke fullstendig gjenopprettet til sin opprinnelige form etter vedlikehold.
Gjør for mange endringer

Under vedlikehold, hvis en administrator prøver å gjøre for mange endringer på en gang, kan dette forårsake problemer. For det første har administratorer ofte en forhastet mentalitet fordi de må utføre et stort antall oppgaver på kort tid, noe som ofte fører til feil. For det andre, fordi så mange endringer skjer i samme tidsramme, gjør det feilsøking etter endring til en mye vanskeligere oppgave.
Slapphet i menneskelig ressursforvaltning

Det høres litt hardt ut, men ansatte må vite hvordan de strengt følger reglene i senteret og må være strengt disiplinert når de bryter dem. For eksempel lar ingen datasenter ansatte spise eller drikke mens de er på jobb, eller nødbrytere må være tydelig merket og sikret. Disse tingene kan virke små, men kan føre til store hendelser, så sørg for at reglene alltid følges strengt.
Systemfeil
Reservekraft er ikke garantert, utstyret er gammelt eller feilkonfigurert.

Den vanligste årsaken til at et datasenter går ned er på grunn av strømbrudd. Strømbrudd kan skje når som helst. Derfor er datasentre designet med reservestrømkilder i tilfelle hovedstrømmen svikter. Batterier eller generatorsystemer brukes ofte som reservekraft. Problemet er at batteriet kanskje ikke skiftes ut i tide, at generatoren ikke blir inspisert og vedlikeholdt, noe som fører til problemer når det oppstår strømbrudd. Alt dette betyr at sikkerhetskopieringsmulighetene dine kanskje ikke er tilgjengelige når du trenger dem mest.
I tilfelle strømbrudd bruker UPS-systemer batterier som reservestrøm, noe som gjør dem til en viktig del av å opprettholde oppetiden for datasentre. Batteriet fungerer imidlertid ikke alltid bra. Utfør vedlikehold anbefalt av produsentene selv for å sjekke batteritilstanden. Minst kvartalsvis bør batterier inspiseres for riktig installasjon, utlading og lading. Dette inkluderer visuelle inspeksjoner, kapasitetskontroller og regelmessig overvåking gjennom programvare eller UPS-leverandøren selv.
I tillegg kan høye temperaturer forkorte systemets batterilevetid. Å bygge et dedikert UPS-rom kan bidra til å redusere slitasjen på batterilevetiden. Du bør også unngå å lade ut batteriet ofte og ta godt vare på løse koblinger eller slitte kontakter. Kort fortalt er UPS et spesielt viktig system, det krever fornuftig design, riktig bruk og strengt vedlikehold.
Feil i kjølesystemet

Mekaniske systemer i et datasenter bruker mye strøm, noe som betyr at de avgir mye varme mens de er i drift. Et datasenter kan bli et krematorium etter ett minutts drift. Derfor er kjølesystemet så viktig. Og selv om du har temperatursensorer som leser og varsler sendt til administratorer, må du være sikker på at du har nok tid til å implementere senterets backupkjølingsprosedyrer før alt smelter.
I tillegg er mange kjølesystemer egentlig ikke designet for å holde tritt med de økte varmenivåene i et moderne datasenter med høy kapasitet. Igjen, kartlegging av situasjoner der datasenteret ditt opererer med 100 % kapasitet kan hjelpe deg med å planlegge for bedre kjølesystemer i fremtiden. Det er også nødvendig å sette opp varslingssystemer for systemtemperatursvingninger. Du kan bruke noe termisk modelleringsprogramvare og noen DCIM-systemer. I tillegg er kjemiske kjølemidler et bedre valg enn vannbaserte systemer.
Den automatiske konverteringsprosessen fungerer ikke som den skal

De fleste tjenesteleverandører og organisasjoner og virksomheter har backup-datasentre som brukes til produksjonsdatasentre. Ved strømbrudd ved primærdatasenteret vil backupdatasenteret automatisk startes og all trafikk blir rutet til det backupanlegget. Hvis det gjøres på riktig måte, bør prosessen være sømløs hele veien til sluttbrukeren. Dessverre fungerer automatiske failovers ofte ikke som forventet. Den vanlige årsaken til dette problemet er mangel på regelmessig testing. Selv små endringer i produksjonsinfrastruktur kan ha stor innvirkning på automatisert failover. Derfor, når du gjør endringer i infrastrukturen, må de automatiserte failover-prosedyrene testes for å sikre at ingenting har avviket fra prosessen.
Utdatert maskinvare

All maskinvare i hvert system har en viss levetid. Og jo lenger du bruker en maskinvare, jo mer sannsynlig er det at du støter på problemer. Alle vet dette, men det er vanlig at en viktig applikasjon krasjer bare fordi den kjører på 10 år gammel maskinvare. Disse problemene oppstår ofte på grunn av mangel på omfattende erstatnings- og oppgraderingsplaner for ny maskinvare eller programvareplattformer, eller på grunn av mangel på budsjett. Hvis det er et spørsmål om penger, er det ingenting du kan gjøre. Men hvis du rett og slett prøver å utnytte det så lenge som mulig, kan det oppstå et problem når som helst, og når det skjer, kan skaden forårsaket av problemet være mye større.
Brannslokkingssystemet har et problem med vannlekkasje

De fleste moderne datasentre bruker vannfrie brannsikringssystemer slik at de ikke skader utstyr hvis de aktiveres med vilje eller ved et uhell. Men mange eldre anlegg bruker fortsatt tradisjonelle brannsikringssystemer i sine datasentre. Mange vannlekkasjer har forårsaket store strømbrudd.
Nødavkobling aktiveres ved et uhell

Det høye nivået av fysisk sikkerhet på plass ved de fleste datasentre avskrekker ikke bare tyver. De er også på plass for å unngå ansatte som ikke forstår hvordan et datasenter fungerer. For eksempel går en applikasjonsadministrator inn i datasenteret og utløser ved et uhell en nødstrømavkobling (EPO). EPO er en stor rød knapp, ansvarlig for å kutte strømmen til hele systemet. Og åpenbart, for de som ikke forstår eller ikke har noen ekspertise, er slik forvirring fullt mulig.
Under cyberangrep, ddos

Gjennom årene har cyberangrep blitt en av de viktigste årsakene til datasenterfeil, fra bare 2 % i 2010 til 22 % i 2016. Operatører Datasentre må iverksette tiltak for å etablere systemer for å oppdage og redusere risikoen for angrep tidlig.
Datasentre er vanskelige å forsvare mot et storstilt DDoS-angrep . De fleste Internett-leverandører gir en viss beskyttelse på lag 3 og 4 i nettverket, men tjenestene dine trenger ekstra beskyttelse på lag 7, som kan målrettes spesifikt via HTTP GET eller anrop lignende angrep. Begrensningstjenester som brannmurer, IPS/IDS og DDoS kan kombineres for å omdirigere trafikk.
Naturkatastrofe
Den nylige økningen i stormer og flom kan forårsake betydelige forstyrrelser i datasentre. Mer enn 250 naturkatastrofer skjedde i 2010 i USA. I følge statistikk led staten New Jersey, USA, 63,9 milliarder dollar i tap på grunn av forretningsavbrudd forårsaket av superstormen Sandy i 2012.
Trinn for å begrense skader forårsaket av "kollaps"-hendelser i datasenteret
Hvis nedetid for rutinemessig vedlikehold planlegges nøye og kundene på forhånd varsles om nedetid i senteret, spesielt i en periode med lite trafikk, vil kundene være mer sympatiske og skadene vil bli betydelig redusert. Den største skaden oppstår når den oppstår uventet, og spesielt når den varer lenge, og ytterligere problemer oppstår. Hold hele selskapets ressurssystem stabilt slik at ansatte kan gjøre jobben sin effektivt, noe som reduserer belastningen på IT-avdelingene.
Nærmere bestemt:
- Sikkerhetskopier dataene dine: I tilfelle du står overfor et datasenterbrudd, bør dataene dine (og enda viktigere, kundenes data) være klare når du starter. Start feilsøking og kjør på nytt. Å utføre regelmessige sikkerhetskopier begrenser risikoen for en reell sammensmelting. Hvis bedriften din har råd til det, kan noen produkter som EMCs VPLEX-produktlinje eller VEEAMs sikkerhetskopiering og replikeringsprogramvare bidra til å minimere nedetid ved automatisk å bytte til en plassering.
- Oppretthold regelmessig overvåking av serversystemet: Overvåking er en tjeneste du kan utføre regelmessig og som vanligvis ikke koster for mye. En tredjeparts overvåkingstjeneste varsler deg om potensiell servernedetid slik at du kan ta hånd om problemet umiddelbart.
- Minimer menneskelige feil: Vær forsiktig når du arbeider eller går rundt serversystemer eller elektriske ledninger for å unngå å skade dem ved et uhell, eller rett og slett ikke rør mystiske brytere uten din ekspertise. Hold væsker unna mekaniske systemer. Ring en databeskyttelsesspesialist hver gang en server trenger oppgradering eller vedlikehold, og overhold senterets regler.
Ethvert datasenter, fra små sentre til anlegg i bedriftsskala og tjenesteleverandører, må strebe 100 % etter å tilby pålitelige tjenester til brukerne. Ved å ta deg tid til å planlegge for fremtiden, følge prinsippene for vedlikehold og menneskelige faktorer, kan datasenteret ditt unngå noen av de vanligste årsakene til feil.
se mer