Årsaker som fører til at datasenteret kollapser

Dataoperatører gjør noen ganger feil som kan føre til at hele datasenteret stenges. De fleste av disse problemene kan imidlertid unngås gjennom vedlikeholdstiltak, inspeksjonsprosedyrer og med sunn fornuft og erfaring fra systemoperatørene.

Et «uplanlagt datasenterbrudd» er en høflig måte å snakke om at et datasenter har problemer som fører til nedetid. Enten årsaken er maskinvarefeil, programvarefeil eller menneskelig feil, kan og bør de fleste av disse feilene forhindres på forhånd. Med det høye nivået av risikoredundans på plass i dagens datasentre, er det fullt mulig å forhindre hendelser på forhånd.

En interessant ting er at store og små feil kan oppstå hele tiden i et datasenter, og skadene som oppstår når datasentre slutter å fungere er ikke små, selv for bare en kort stund. I følge en studie fra Data Center Knowledge kan nedetid for datasenter koste bedrifter rundt 7 900 dollar per minutt. Faktisk gikk 93 % av selskapene med datasentre nedetid i 10 dager eller mer konkurs i løpet av et år, og 40 % kollapset umiddelbart. Og en annen studie av 41 evaluerte datasentre fant at gjennomsnittskostnaden for ikke-planlagte driftsavbrudd inkluderte mer enn $179 tusen i forretningsavbrudd, rundt $118 tusen i tapt inntekt og omtrent $42k i produktivitet. Hvis datasenterledere rett og slett fokuserte mer på å undersøke og fikse hovedårsakene til vanlige feil, ville de redusere den potensielle risikoen betydelig.

Årsaker som fører til at datasenteret kollapser

Problemet er at mange datasenteroperatører og -operatører ofte fokuserer mer på vekst og inntekter i stedet for å opprettholde og styrke det som allerede er der. Hvis du tar hensyn til administratorene i mange offentlige og private datasentre i dag, vil du se at de nesten utelukkende er opptatt av å øke lagringskapasiteten, øke servertettheten og øke servertettheten.. ettermontere utdaterte serverfarmer til mer moderne fasiliteter med mer effektive kjølesystemer, for eksempel. Selv om alt dette er flott, sårt tiltrengt og viser en utrolig vekst i datalagringsindustrien, viser det også hvorfor datasentre svikter. Dette skjer mer og mer vanlig.

I denne artikkelen vil vi utforske de vanlige årsakene til at datasentre er deaktivert, og fremheve hva administratorer kan gjøre for å minimere eller til og med eliminere dem. fikse disse problemene fullstendig, samt forbedre stabiliteten til systemet ditt.

Årsaker som fører til at datasenteret kollapser

Feil forårsaket av mennesker
Systemfeil
Trinn for å begrense skader forårsaket av "kollaps"-hendelser i datasenteret

Feil forårsaket av mennesker

Dette er de enkleste årsakene og også en av de vanskeligste å unngå. Enkelt sagt kan alle gjøre feil. Med 22 % av avbrudd forårsaket av menneskelige feil, er denne årsaken verdt å vurdere nøye og, viktigere, kan den forhindres relativt enkelt.

Feil systemautorisasjon

I virkeligheten har svært få administratorer full og ubegrenset tilgang til alle systemer i et datasenter. I stedet for å gi denne tillatelsen til flere, må tilgangen styres tett. Ellers er det fullt mulig at det kan oppstå en alvorlig feil i systemet. For eksempel, i Joyent-hendelsen i 2014, startet en erfaren administrator ved et uhell alle virtuelle maskiner i selskapets østlige datasenter med bare noen få klikk.

Dårlige sikkerhetskopieringsprosedyrer

Når du planlegger vedlikeholdsoppgaver, er backup-prosessen et viktig, men ofte glemt trinn. Ofte blir prosesser dokumentert, men ikke grundig gjennomgått, og mange ganger blir ting ikke fullstendig gjenopprettet til sin opprinnelige form etter vedlikehold.

Gjør for mange endringer

Under vedlikehold, hvis en administrator prøver å gjøre for mange endringer på en gang, kan dette forårsake problemer. For det første har administratorer ofte en forhastet mentalitet fordi de må utføre et stort antall oppgaver på kort tid, noe som ofte fører til feil. For det andre, fordi så mange endringer skjer i samme tidsramme, gjør det feilsøking etter endring til en mye vanskeligere oppgave.

Slapphet i menneskelig ressursforvaltning

Det høres litt hardt ut, men ansatte må vite hvordan de strengt følger reglene i senteret og må være strengt disiplinert når de bryter dem. For eksempel lar ingen datasenter ansatte spise eller drikke mens de er på jobb, eller nødbrytere må være tydelig merket og sikret. Disse tingene kan virke små, men kan føre til store hendelser, så sørg for at reglene alltid følges strengt.

Systemfeil

Reservekraft er ikke garantert, utstyret er gammelt eller feilkonfigurert.

Den vanligste årsaken til at et datasenter går ned er på grunn av strømbrudd. Strømbrudd kan skje når som helst. Derfor er datasentre designet med reservestrømkilder i tilfelle hovedstrømmen svikter. Batterier eller generatorsystemer brukes ofte som reservekraft. Problemet er at batteriet kanskje ikke skiftes ut i tide, at generatoren ikke blir inspisert og vedlikeholdt, noe som fører til problemer når det oppstår strømbrudd. Alt dette betyr at sikkerhetskopieringsmulighetene dine kanskje ikke er tilgjengelige når du trenger dem mest.

I tilfelle strømbrudd bruker UPS-systemer batterier som reservestrøm, noe som gjør dem til en viktig del av å opprettholde oppetiden for datasentre. Batteriet fungerer imidlertid ikke alltid bra. Utfør vedlikehold anbefalt av produsentene selv for å sjekke batteritilstanden. Minst kvartalsvis bør batterier inspiseres for riktig installasjon, utlading og lading. Dette inkluderer visuelle inspeksjoner, kapasitetskontroller og regelmessig overvåking gjennom programvare eller UPS-leverandøren selv.

I tillegg kan høye temperaturer forkorte systemets batterilevetid. Å bygge et dedikert UPS-rom kan bidra til å redusere slitasjen på batterilevetiden. Du bør også unngå å lade ut batteriet ofte og ta godt vare på løse koblinger eller slitte kontakter. Kort fortalt er UPS et spesielt viktig system, det krever fornuftig design, riktig bruk og strengt vedlikehold.

Feil i kjølesystemet

Mekaniske systemer i et datasenter bruker mye strøm, noe som betyr at de avgir mye varme mens de er i drift. Et datasenter kan bli et krematorium etter ett minutts drift. Derfor er kjølesystemet så viktig. Og selv om du har temperatursensorer som leser og varsler sendt til administratorer, må du være sikker på at du har nok tid til å implementere senterets backupkjølingsprosedyrer før alt smelter.

I tillegg er mange kjølesystemer egentlig ikke designet for å holde tritt med de økte varmenivåene i et moderne datasenter med høy kapasitet. Igjen, kartlegging av situasjoner der datasenteret ditt opererer med 100 % kapasitet kan hjelpe deg med å planlegge for bedre kjølesystemer i fremtiden. Det er også nødvendig å sette opp varslingssystemer for systemtemperatursvingninger. Du kan bruke noe termisk modelleringsprogramvare og noen DCIM-systemer. I tillegg er kjemiske kjølemidler et bedre valg enn vannbaserte systemer.

Den automatiske konverteringsprosessen fungerer ikke som den skal

De fleste tjenesteleverandører og organisasjoner og virksomheter har backup-datasentre som brukes til produksjonsdatasentre. Ved strømbrudd ved primærdatasenteret vil backupdatasenteret automatisk startes og all trafikk blir rutet til det backupanlegget. Hvis det gjøres på riktig måte, bør prosessen være sømløs hele veien til sluttbrukeren. Dessverre fungerer automatiske failovers ofte ikke som forventet. Den vanlige årsaken til dette problemet er mangel på regelmessig testing. Selv små endringer i produksjonsinfrastruktur kan ha stor innvirkning på automatisert failover. Derfor, når du gjør endringer i infrastrukturen, må de automatiserte failover-prosedyrene testes for å sikre at ingenting har avviket fra prosessen.

Utdatert maskinvare

All maskinvare i hvert system har en viss levetid. Og jo lenger du bruker en maskinvare, jo mer sannsynlig er det at du støter på problemer. Alle vet dette, men det er vanlig at en viktig applikasjon krasjer bare fordi den kjører på 10 år gammel maskinvare. Disse problemene oppstår ofte på grunn av mangel på omfattende erstatnings- og oppgraderingsplaner for ny maskinvare eller programvareplattformer, eller på grunn av mangel på budsjett. Hvis det er et spørsmål om penger, er det ingenting du kan gjøre. Men hvis du rett og slett prøver å utnytte det så lenge som mulig, kan det oppstå et problem når som helst, og når det skjer, kan skaden forårsaket av problemet være mye større.

Brannslokkingssystemet har et problem med vannlekkasje

De fleste moderne datasentre bruker vannfrie brannsikringssystemer slik at de ikke skader utstyr hvis de aktiveres med vilje eller ved et uhell. Men mange eldre anlegg bruker fortsatt tradisjonelle brannsikringssystemer i sine datasentre. Mange vannlekkasjer har forårsaket store strømbrudd.

Nødavkobling aktiveres ved et uhell

Det høye nivået av fysisk sikkerhet på plass ved de fleste datasentre avskrekker ikke bare tyver. De er også på plass for å unngå ansatte som ikke forstår hvordan et datasenter fungerer. For eksempel går en applikasjonsadministrator inn i datasenteret og utløser ved et uhell en nødstrømavkobling (EPO). EPO er en stor rød knapp, ansvarlig for å kutte strømmen til hele systemet. Og åpenbart, for de som ikke forstår eller ikke har noen ekspertise, er slik forvirring fullt mulig.

Under cyberangrep, ddos

Gjennom årene har cyberangrep blitt en av de viktigste årsakene til datasenterfeil, fra bare 2 % i 2010 til 22 % i 2016. Operatører Datasentre må iverksette tiltak for å etablere systemer for å oppdage og redusere risikoen for angrep tidlig.

Datasentre er vanskelige å forsvare mot et storstilt DDoS-angrep . De fleste Internett-leverandører gir en viss beskyttelse på lag 3 og 4 i nettverket, men tjenestene dine trenger ekstra beskyttelse på lag 7, som kan målrettes spesifikt via HTTP GET eller anrop lignende angrep. Begrensningstjenester som brannmurer, IPS/IDS og DDoS kan kombineres for å omdirigere trafikk.

Naturkatastrofe

Den nylige økningen i stormer og flom kan forårsake betydelige forstyrrelser i datasentre. Mer enn 250 naturkatastrofer skjedde i 2010 i USA. I følge statistikk led staten New Jersey, USA, 63,9 milliarder dollar i tap på grunn av forretningsavbrudd forårsaket av superstormen Sandy i 2012.

Trinn for å begrense skader forårsaket av "kollaps"-hendelser i datasenteret

Hvis nedetid for rutinemessig vedlikehold planlegges nøye og kundene på forhånd varsles om nedetid i senteret, spesielt i en periode med lite trafikk, vil kundene være mer sympatiske og skadene vil bli betydelig redusert. Den største skaden oppstår når den oppstår uventet, og spesielt når den varer lenge, og ytterligere problemer oppstår. Hold hele selskapets ressurssystem stabilt slik at ansatte kan gjøre jobben sin effektivt, noe som reduserer belastningen på IT-avdelingene.

Nærmere bestemt:

Sikkerhetskopier dataene dine: I tilfelle du står overfor et datasenterbrudd, bør dataene dine (og enda viktigere, kundenes data) være klare når du starter. Start feilsøking og kjør på nytt. Å utføre regelmessige sikkerhetskopier begrenser risikoen for en reell sammensmelting. Hvis bedriften din har råd til det, kan noen produkter som EMCs VPLEX-produktlinje eller VEEAMs sikkerhetskopiering og replikeringsprogramvare bidra til å minimere nedetid ved automatisk å bytte til en plassering.
Oppretthold regelmessig overvåking av serversystemet: Overvåking er en tjeneste du kan utføre regelmessig og som vanligvis ikke koster for mye. En tredjeparts overvåkingstjeneste varsler deg om potensiell servernedetid slik at du kan ta hånd om problemet umiddelbart.
Minimer menneskelige feil: Vær forsiktig når du arbeider eller går rundt serversystemer eller elektriske ledninger for å unngå å skade dem ved et uhell, eller rett og slett ikke rør mystiske brytere uten din ekspertise. Hold væsker unna mekaniske systemer. Ring en databeskyttelsesspesialist hver gang en server trenger oppgradering eller vedlikehold, og overhold senterets regler.

Ethvert datasenter, fra små sentre til anlegg i bedriftsskala og tjenesteleverandører, må strebe 100 % etter å tilby pålitelige tjenester til brukerne. Ved å ta deg tid til å planlegge for fremtiden, følge prinsippene for vedlikehold og menneskelige faktorer, kan datasenteret ditt unngå noen av de vanligste årsakene til feil.

se mer

De største datasentrene på planeten
Bygg datasentre i henhold til cloud computing-modellen
Hvordan forhindrer Facebook at serverne deres krasjer?
Ta en titt inne i Facebooks datasentre i Europa

Tags: #datasenter #datasenter #datasenterhendelse #datasenterkollaps #datasenterfrakobling #datasenteravslutning

Installer dynamiske skjermer og animerte bakgrunnsbilder på Windows

I Microsofts Windows Vista-operativsystem tillot DreamScene å sette opp dynamiske bakgrunner for datamaskiner, men åtte år senere er det fortsatt ikke tilgjengelig på Windows 10. Hvorfor har denne skikken representert et tilbakeslag til fortiden gjennom årene, og hva kan vi gjøre for å endre dette?

Hvordan koble nettverket mellom 2 bærbare datamaskiner ved hjelp av en nettverkskabel

Hvis vi ønsker å koble to bærbare datamaskiner til nettverket, kan vi bruke en nettverkskabel og deretter endre IP-adressene til de to datamaskinene og det er det.

Slik fikser du Du har ikke tillatelse til å lagre på denne plasseringen på Windows

Når Windows viser feilen "Du har ikke tillatelse til å lagre på denne plasseringen", vil dette forhindre deg i å lagre filer i ønskede mapper.

Topp beste gratis og betalte Syslog Server-programvare for Windows

Syslog Server er en viktig del av en IT-administrators arsenal, spesielt når det gjelder å administrere hendelseslogger på et sentralisert sted.

Hva er Error 524 A Timeout Oppstod og hvordan fikse feilen

Feil 524: En tidsavbrudd oppstod er en Cloudflare-spesifikk HTTP-statuskode som indikerer at tilkoblingen til serveren ble stengt på grunn av et tidsavbrudd.

Hva er feil 0x80070570? Hvordan fikser jeg denne feilen?

Feilkode 0x80070570 er en vanlig feilmelding på datamaskiner, bærbare datamaskiner og nettbrett som kjører operativsystemet Windows 10. Den vises imidlertid også på datamaskiner som kjører Windows 8.1, Windows 8, Windows 7 eller tidligere.

Instruksjoner for å fikse blåskjerm-feilen SIDEFEIL I IKKE PAGET OMRÅDE eller STOPP 0x00000050

Blue screen of death-feil BSOD PAGE_FAULT_IN_NONPAGED_AREA eller STOP 0x00000050 er en feil som ofte oppstår etter installasjon av en maskinvareenhetsdriver, eller etter installasjon eller oppdatering av ny programvare, og i noen tilfeller er årsaken at feilen skyldes en korrupt NTFS-partisjon.

Hva skal du gjøre når du får Video Scheduler Intern Error?

Video Scheduler Intern Error er også en dødelig blåskjermfeil, denne feilen oppstår ofte på Windows 10 og Windows 8.1. Denne artikkelen vil vise deg noen måter å fikse denne feilen på.

Hvordan forhindre at Epic Launcher starter med Windows

For å få Windows 10 til å starte opp raskere og redusere oppstartstiden, nedenfor er trinnene du må følge for å fjerne Epic fra Windows Startup og forhindre at Epic Launcher starter med Windows 10.

3 bedre måter å lagre filer på skrivebordet

Du bør ikke lagre filer på skrivebordet. Det finnes bedre måter å lagre datafiler på og holde skrivebordet ryddig. Den følgende artikkelen vil vise deg mer effektive steder å lagre filer på Windows 10.