Orsaker som leder till att datacenter kollapsar

Dataoperatörer gör ibland misstag som kan leda till att hela datacentret stängs av. De flesta av dessa problem kan dock undvikas genom underhållsåtgärder, inspektionsförfaranden och genom systemoperatörernas sunt förnuft och erfarenhet.

Ett "oplanerat datacenteravbrott" är ett artigt sätt att tala om att ett datacenter har problem som leder till stillestånd. Oavsett om grundorsaken är hårdvarufel, mjukvarufel eller mänskliga fel, kan och bör de flesta av dessa fel förhindras i förväg. Med den höga riskredundansen på plats i dagens datacenter är det fullt möjligt att förhindra incidenter i förväg.

En intressant sak är att stora och små fel ändå kan uppstå hela tiden i ett datacenter, och skadorna som uppstår när datacenter slutar fungera är inte små, inte ens för bara en kort stund. Enligt en studie av Data Center Knowledge kan driftstopp för datacenter kosta företag cirka 7 900 USD per minut. Faktum är att 93 % av företagen med datacenters nedtid i 10 dagar eller mer gick i konkurs inom ett år, och 40 % kollapsade omedelbart. Och en annan studie av 41 utvärderade datacenter fann att den genomsnittliga kostnaden för oplanerade avbrott inkluderade mer än 179 000 USD i affärsavbrott, cirka 118 000 USD i förlorade intäkter och cirka 42 000 USD i produktivitet. Om datacenterchefer helt enkelt fokuserade mer på att undersöka och åtgärda huvudorsakerna till vanliga fel skulle de minska de potentiella riskerna avsevärt.

Orsaker som leder till att datacenter kollapsar

Problemet är att många datacenteroperatörer och operatörer ofta fokuserar mer på tillväxt och intäkter istället för att behålla och stärka det som redan finns. Om du uppmärksammar administratörerna i många offentliga och privata datacenter idag, kommer du att se att de nästan uteslutande sysslar med att öka lagringskapaciteten, öka serverdensiteten och öka serverdensiteten. Bygg om föråldrade serverfarmar till modernare anläggningar med effektivare kylsystem, till exempel. Även om allt detta är fantastiskt, välbehövligt och visar en otrolig tillväxt inom datalagringsindustrin, visar det också varför datacenter misslyckas, vilket händer allt vanligare.

I den här artikeln kommer vi att undersöka de vanligaste orsakerna till att datacenter är inaktiverade och belysa vad administratörer kan göra för att minimera eller till och med eliminera dem. åtgärda dessa problem fullständigt och förbättra stabiliteten i ditt system.

Orsaker som leder till att datacenter kollapsar

Fel orsakat av människor
Systemfel
Åtgärder för att begränsa skador orsakade av incidenter med "kollaps" av datacenter

Fel orsakat av människor

Dessa är de enklaste orsakerna och också en av de svåraste att undvika. Enkelt uttryckt kan alla göra misstag. Med 22 % av avbrotten orsakade av mänskliga fel är denna orsak värd att överväga noggrant och, viktigare, kan den relativt enkelt förhindras.

Felaktig systemauktorisering

I verkligheten är det väldigt få administratörer som har full och obegränsad tillgång till alla system i ett datacenter. Istället för att ge detta tillstånd till fler personer måste åtkomsten hanteras noggrant. Annars är det fullt möjligt att ett allvarligt fel kan uppstå i systemet. Till exempel, i Joyent-incidenten 2014, startade en erfaren administratör av misstag om alla virtuella maskiner i företagets östra datacenter med bara några klick.

Dåliga säkerhetskopieringsmetoder

När du planerar underhållsuppgifter är ett viktigt men ofta bortglömt steg backupprocessen. Ofta är processer dokumenterade men inte noggrant granskade, och många gånger återställs inte saker helt till sin ursprungliga form efter underhåll.

Gör för många ändringar

Om en administratör under underhåll försöker göra för många ändringar på en gång kan detta orsaka problem. För det första har administratörer ofta en förhastad mentalitet eftersom de måste utföra ett stort antal uppgifter på kort tid, vilket ofta leder till misstag. För det andra, eftersom så många förändringar sker under samma tidsram, gör det felsökning efter förändring till en mycket svårare uppgift.

Slapphet i personalhantering

Det låter lite hårt, men anställda måste veta hur man strikt följer reglerna i centrum och måste vara hårt disciplinerade när de bryter mot dem. Till exempel tillåter inget datacenter anställda att äta eller dricka medan de är på jobbet, eller så måste nödbrytare vara tydligt märkta och säkrade. Dessa saker kan verka små men kan leda till stora incidenter, så se till att reglerna alltid följs strikt.

Systemfel

Reservkraft kan inte garanteras, utrustningen är gammal eller felkonfigurerad.

Den vanligaste orsaken till att ett datacenter går ner är på grund av ett strömavbrott. Strömavbrott kan inträffa när som helst. Därför är datacenter utformade med reservkraftkällor om huvudströmmen skulle sluta. Batterier eller generatorsystem används ofta som reservkraft. Problemet är att batteriet kanske inte byts ut i tid, generatorn kanske inte inspekteras och underhålls, vilket leder till problem när ett strömavbrott inträffar. Allt detta innebär att dina säkerhetskopieringsmöjligheter kanske inte är tillgängliga när du behöver dem som mest.

I händelse av ett strömavbrott använder UPS-system batterier som reservkraft, vilket gör dem till en viktig del för att upprätthålla drifttiden för datacenter. Batteriet fungerar dock inte alltid bra. Utför underhåll som rekommenderas av tillverkarna själva för att kontrollera batteriets hälsa. Åtminstone en gång i kvartalet bör batterier inspekteras för korrekt installation, urladdning och laddning. Detta inkluderar visuella inspektioner, kapacitetskontroller och regelbunden övervakning genom programvara eller UPS-leverantören själv.

Dessutom kan höga temperaturer förkorta systemets batteritid. Att bygga ett dedikerat UPS-rum kan bidra till att minska slitaget på batteritiden. Du bör också undvika att ladda ur batteriet ofta och ta väl hand om lösa kopplingar eller slitna kontakter. Kort sagt, UPS är ett särskilt viktigt system, det kräver rimlig design, korrekt användning och strikt underhåll.

Fel i kylsystemet

Mekaniska system i ett datacenter förbrukar mycket el, vilket innebär att de avger en stor mängd värme under drift. Ett datacenter kan bli ett krematorium efter en minuts drift. Det är därför kylsystemet är så viktigt. Och även om du har temperatursensorer som läser av och varningar skickade till administratörer, måste du vara säker på att du har tillräckligt med tid för att implementera centrets backup-kylningsprocedurer innan allt smälter.

Dessutom är många kylsystem inte riktigt utformade för att hålla jämna steg med de ökade värmenivåerna i ett modernt datacenter med hög kapacitet. Återigen, kartläggning av situationer där ditt datacenter arbetar med 100 % kapacitet kan hjälpa till att planera för bättre kylsystem i framtiden. Det är också nödvändigt att installera varningssystem för systemtemperaturfluktuationer. Du kan använda en del termisk modelleringsprogram och vissa DCIM-system. Dessutom är kemiska köldmedier ett bättre val än vattenbaserade system.

Den automatiska konverteringsprocessen fungerar inte korrekt

De flesta tjänsteleverantörer och organisationer och företag har backup-datacenter som används för produktionsdatacenter. I händelse av ett strömavbrott i det primära datacentret kommer backupdatacentret automatiskt att startas och all trafik dirigeras till den backupanläggningen. Om den görs på rätt sätt bör processen vara sömlös hela vägen till slutanvändaren. Tyvärr fungerar automatiska failovers ofta inte som förväntat. Den vanliga orsaken till detta problem är bristen på regelbundna tester. Även små förändringar i produktionsinfrastrukturen kan ha stor inverkan på automatiserad failover. Därför, när du gör några ändringar i infrastrukturen, måste de automatiska failover-procedurerna testas för att säkerställa att ingenting har avvikit från processen.

Föråldrad hårdvara

All hårdvara i varje system har en viss livslängd. Och ju längre du använder en hårdvara, desto mer sannolikt är det att du stöter på problem. Alla vet detta, men det är vanligt att en viktig applikation kraschar bara för att den körs på 10 år gammal hårdvara. Dessa problem uppstår ofta på grund av brist på heltäckande ersättnings- och uppgraderingsplaner för ny hård- eller mjukvaruplattform, eller på grund av bristande budget. Om det är en fråga om pengar, finns det inget du kan göra. Men om man helt enkelt försöker utnyttja så länge som möjligt kan ett problem uppstå när som helst, och när det gör det kan skadan som orsakas av problemet bli mycket större.

Brandsläckningssystemet har problem med vattenläckage

De flesta moderna datacenter använder vattenfria brandskyddssystem så att de inte skadar utrustning om de aktiveras med avsikt eller av misstag. Men många äldre anläggningar använder fortfarande traditionella brandskyddssystem i sina datacenter. Många vattenläckor har orsakat stora avbrott.

Nödströmavstängning aktiveras av misstag

Den höga nivån av fysisk säkerhet som finns i de flesta datacenter avskräcker inte bara tjuvar. De är också på plats för att undvika anställda som inte förstår hur ett datacenter fungerar. Till exempel går en applikationsadministratör in i datacentret och av misstag utlöser en nödströmavstängning (EPO). EPO är en stor röd knapp, ansvarig för att stänga av strömmen till hela systemet. Och självklart, för dem som inte förstår eller inte har någon expertis, är sådan förvirring fullt möjlig.

Under cyberangrepp, ddos

Under åren har cyberattacker blivit en av de främsta orsakerna till datacenterfel, från bara 2 % 2010 till 22 % 2016. Operatörer Datacenter måste vidta åtgärder för att etablera system för att upptäcka och minska riskerna för attacker tidigt.

Datacenter är svåra att försvara mot en storskalig DDoS-attack . De flesta internetleverantörer tillhandahåller visst skydd på lager 3 och 4 i nätverket, men dina tjänster behöver ytterligare skydd på lager 7, som kan riktas specifikt via HTTP GET eller liknande attacker. Begränsande tjänster som brandväggar, IPS/IDS och DDoS kan kombineras för att omdirigera trafik.

Naturkatastrof

Den senaste tidens ökning av stormar och översvämningar kan orsaka betydande störningar i datacenter. Mer än 250 naturkatastrofer inträffade 2010 i USA. Enligt statistik led delstaten New Jersey, USA, 63,9 miljarder dollar i förluster på grund av affärsavbrott orsakade av superstormen Sandy 2012.

Åtgärder för att begränsa skador orsakade av incidenter med "kollaps" av datacenter

Om driftstopp för rutinunderhåll planeras noggrant och kunder varnas i förväg om driftstopp i centrum, särskilt under en period med låg trafik, kommer kunderna att vara mer sympatiska och skadorna kommer att minska avsevärt. Den största skadan uppstår när den inträffar oväntat, och särskilt när den varar länge, och ytterligare problem uppstår. Håll hela företagets resurssystem stabilt så att anställda kan utföra sina jobb effektivt, vilket minskar bördan på IT-avdelningarna.

Specifikt:

Säkerhetskopiera dina data: Om du råkar ut för ett datacenteravbrott bör dina data (och ännu viktigare, dina kunders data) vara redo när du börjar. Börja felsöka och kör igen. Att utföra regelbundna säkerhetskopieringar begränsar risken för en verklig härdsmälta. Om ditt företag har råd kan vissa produkter som EMC:s VPLEX-produktlinje eller VEEAM:s programvara för säkerhetskopiering och replikering hjälpa till att minimera stilleståndstiden genom att automatiskt byta till en plats.
Upprätthålla regelbunden övervakning av serversystemet: Övervakning är en tjänst du kan utföra regelbundet och vanligtvis inte kostar för mycket. En övervakningstjänst från tredje part meddelar dig om potentiell serverstopp så att du kan ta hand om problemet omedelbart.
Minimera mänskliga fel: Var försiktig när du arbetar eller går runt serversystem eller elektriska ledningar för att undvika att skada dem av misstag, eller rör helt enkelt inte mystiska strömbrytare utan din expertis. Håll vätskor borta från mekaniska system. Ring en dataskyddsspecialist varje gång en server behöver uppgraderas eller underhållas och följ centrets regler.

Varje datacenter, från små center till anläggningar i företagsskala och tjänsteleverantörer, måste sträva efter att till 100 % tillhandahålla pålitliga tjänster till användarna. Genom att ta dig tid att planera för framtiden, följa principerna för underhåll och mänskliga faktorer, kan ditt datacenter undvika några av de vanligaste orsakerna till fel.

se mer

De största datacentren på planeten
Bygg datacenter enligt molnmodellen
Hur förhindrar Facebook att dess servrar kraschar?
Ta en titt inuti Facebooks datacenter i Europa

Tags: #datacenter #datacenter #datacenterincident #datacenterkollaps #datacenternedkoppling #datacenteravstängning

Installera dynamiska skärmar och animerade bakgrundsbilder på Windows

I Microsofts Windows Vista operativsystem tillät DreamScene att ställa in dynamiska bakgrunder för datorer, men åtta år senare är det fortfarande inte tillgängligt på Windows 10. Varför har denna sed representerat en tillbakagång till det förflutna under åren, och vad kan vi göra för att ändra på detta?

Hur man ansluter nätverket mellan 2 bärbara datorer med en nätverkskabel

Om vi vill koppla två bärbara datorer till nätverket kan vi använda en nätverkskabel och sedan ändra IP-adresserna på de två datorerna och det är det.

Så här fixar du Du har inte behörighet att spara på den här platsen i Windows

När Windows visar felet "Du har inte behörighet att spara på den här platsen", kommer detta att hindra dig från att spara filer i önskade mappar.

Topp bästa gratis och betalda Syslog Server-programvara för Windows

Syslog Server är en viktig del av en IT-administratörs arsenal, särskilt när det gäller att hantera händelseloggar på en centraliserad plats.

Vad är Error 524 A Timeout inträffade och hur man åtgärdar felet

Fel 524: En timeout inträffade är en Cloudflare-specifik HTTP-statuskod som indikerar att anslutningen till servern stängdes på grund av en timeout.

Vad är fel 0x80070570? Hur fixar jag detta fel?

Felkod 0x80070570 är ett vanligt felmeddelande på datorer, bärbara datorer och surfplattor som kör operativsystemet Windows 10. Det visas dock även på datorer som kör Windows 8.1, Windows 8, Windows 7 eller tidigare.

Instruktioner för att åtgärda blåskärmsfelet SIDFEL I ICKE PAGED OMRÅDE eller STOPP 0x00000050

Blue screen of death-fel BSOD PAGE_FAULT_IN_NONPAGED_AREA eller STOP 0x00000050 är ett fel som ofta uppstår efter installation av en hårdvarudrivrutin, eller efter installation eller uppdatering av en ny programvara och i vissa fall är orsaken att felet beror på en korrupt NTFS-partition.

Vad ska du göra när du får ett internt fel i Video Scheduler?

Video Scheduler Internal Error är också ett dödligt blåskärmsfel, det här felet uppstår ofta på Windows 10 och Windows 8.1. Den här artikeln visar dig några sätt att åtgärda det här felet.

Hur man förhindrar Epic Launcher från att starta med Windows

För att få Windows 10 att starta snabbare och minska starttiden, nedan är stegen du måste följa för att ta bort Epic från Windows Startup och förhindra Epic Launcher från att starta med Windows 10.

3 bättre sätt att spara filer på skrivbordet

Du bör inte spara filer på skrivbordet. Det finns bättre sätt att lagra datorfiler och hålla ordning på skrivbordet. Följande artikel kommer att visa dig mer effektiva platser att spara filer på Windows 10.