Причини, водещи до срив на центъра за данни

Причини, водещи до срив на центъра за данни

Операторите на данни понякога правят грешки, които могат да доведат до спиране на целия център за данни. Повечето от тези проблеми обаче могат да бъдат избегнати чрез мерки за поддръжка, процедури за проверка и чрез здравия разум и опит на системните оператори.

„Непланирано прекъсване на центъра за данни“ е учтив начин да се говори за проблеми в центъра за данни, които водят до прекъсване. Независимо дали основната причина е хардуерна грешка, софтуерна грешка или човешка грешка, повечето от тези грешки могат и трябва да бъдат предотвратени предварително. С високото ниво на излишък на риска в днешните центрове за данни, предотвратяването на инциденти предварително е напълно възможно.

Едно интересно нещо е, че все още могат да се появят големи и малки грешки през цялото време в центъра за данни и щетите, причинени, когато центровете за данни спрат да работят, не са малки, дори само за кратко време.минута. Според проучване на Data Center Knowledge, прекъсването на центъра за данни може да струва на бизнеса около $7900 на минута. Всъщност 93% от компаниите с престой на центрове за данни за 10 дни или повече фалираха в рамките на една година, а 40% се сринаха незабавно. И друго проучване на 41 оценени центъра за данни установи, че средната цена на непланирани прекъсвания включва повече от $179 хиляди прекъсване на бизнеса, около $118 хиляди загубени приходи и около $42 хиляди производителност. Ако мениджърите на центрове за данни просто се съсредоточат повече върху проучването и коригирането на основните причини за често срещани грешки, те биха намалили значително потенциалните рискове.

Причини, водещи до срив на центъра за данни

Проблемът е, че много оператори на центрове за данни и оператори често се фокусират повече върху растежа и приходите, вместо да поддържат и укрепват това, което вече е налице. Ако обърнете внимание на администраторите в много публични и частни центрове за данни днес, ще видите, че те са почти изключително загрижени за увеличаване на капацитета за съхранение, увеличаване на плътността на сървърите и увеличаване на плътността на сървърите. модернизирайте остарелите сървърни ферми в по-модерни съоръжения с по-ефективна охладителни системи, например. Въпреки че всичко това е страхотно, много необходимо и показва невероятен растеж в индустрията за съхранение на данни, то също така показва защо центровете за данни се провалят, което се случва все по-често.

В тази статия ще проучим често срещаните причини, поради които центровете за данни са деактивирани, и ще подчертаем какво могат да направят администраторите, за да ги минимизират или дори да ги премахнат. напълно да коригирате тези проблеми, както и да подобрите стабилността на вашата система.

Причини, водещи до срив на центъра за данни

Грешка, причинена от хора

Това са най-простите причини, но и едни от най-трудните за избягване. Просто казано, всеки може да сгреши. С 22% от прекъсванията, причинени от човешка грешка, тази причина си заслужава да бъде разгледана внимателно и, което е важно, може да бъде предотвратена относително лесно.

Неправилно оторизиране на системата

Причини, водещи до срив на центъра за данни

В действителност много малко администратори имат пълен и неограничен достъп до всички системи в центъра за данни. Вместо да се предоставя това разрешение на повече хора, достъпът трябва да се управлява строго. В противен случай е напълно възможно да възникне сериозна грешка в системата. Например при инцидента с Joyent през 2014 г. опитен администратор случайно рестартира всички виртуални машини в източния център за данни на компанията само с няколко кликвания.

Лоши процедури за архивиране

Причини, водещи до срив на центъра за данни

Когато планирате задачи по поддръжката, важна, но често забравяна стъпка е процесът на архивиране. Често процесите се документират, но не се преглеждат задълбочено и много пъти нещата не се възстановяват напълно в първоначалния си вид след поддръжка.

Правене на твърде много промени

Причини, водещи до срив на центъра за данни

По време на поддръжката, ако администратор се опита да направи твърде много промени наведнъж, това може да причини проблеми. Първо, администраторите често имат прибързан манталитет, защото трябва да изпълнят голям брой задачи за кратък период от време, което често води до грешки. Второ, тъй като толкова много промени се случват в една и съща времева рамка, това прави отстраняването на неизправности след промяна много по-трудна задача.

Лекота в управлението на човешките ресурси

Причини, водещи до срив на центъра за данни

Звучи малко грубо, но служителите трябва да знаят как да спазват стриктно правилата в центъра и трябва да бъдат строго дисциплинирани при нарушаването им. Например нито един център за данни не позволява на служителите да ядат или пият, докато са на работа, или аварийните превключватели трябва да бъдат ясно етикетирани и обезопасени. Тези неща може да изглеждат малки, но могат да доведат до големи инциденти, така че се уверете, че правилата винаги се спазват стриктно.

Системна грешка

Резервното захранване не е гарантирано, оборудването е старо или неправилно конфигурирано.

Причини, водещи до срив на центъра за данни

Най-честата причина, поради която център за данни спира, се дължи на прекъсване на захранването. Прекъсване на електрозахранването може да се случи по всяко време. Поради това центровете за данни са проектирани с резервни източници на захранване в случай на прекъсване на основното захранване. Батериите или генераторните системи често се използват като резервно захранване. Проблемът е, че батерията може да не бъде сменена навреме, генераторът може да не бъде инспектиран и поддържан, което води до проблеми при прекъсване на захранването. Всичко това означава, че вашите възможности за архивиране може да не са налични, когато имате най-голяма нужда от тях.

В случай на прекъсване на електрозахранването UPS системите използват батерии като резервно захранване, което ги прави съществена част от поддържането на непрекъсната работа на центровете за данни. Батерията обаче не винаги работи добре. Извършете поддръжка, препоръчана от самите производители, за да проверите здравето на батерията. Най-малко веднъж на тримесечие батериите трябва да се проверяват за правилен монтаж, разреждане и зареждане. Това включва визуални проверки, проверки на капацитета и редовно наблюдение чрез софтуер или самия доставчик на UPS.

Освен това високите температури могат да съкратят живота на батерията на системата. Изграждането на специално помещение за UPS може да помогне за намаляване на износването на живота на батерията. Също така трябва да избягвате честото разреждане на батерията и да се грижите добре за разхлабени връзки или износени конектори. Накратко, UPS е особено важна система, тя изисква разумен дизайн, правилна употреба и стриктна поддръжка.

Неизправност в охладителната система

Причини, водещи до срив на центъра за данни

Механичните системи в центъра за данни консумират много електроенергия, което означава, че отделят голямо количество топлина, докато работят. Центърът за данни може да се превърне в крематориум след една минута работа. Ето защо охладителната система е толкова важна. И дори ако имате отчитане на температурни сензори и изпращане на предупреждения до администраторите, трябва да сте сигурни, че имате достатъчно време да приложите процедурите за резервно охлаждане на центъра, преди всичко да се стопи.

Освен това много системи за охлаждане не са проектирани да се справят с повишените нива на топлина в модерен център за данни с голям капацитет. Отново, очертаването на ситуации, при които вашият център за данни работи със 100% капацитет, може да помогне при планирането на по-добри системи за охлаждане в бъдеще. Необходима е и настройка на системи за предупреждение за температурни колебания в системата. Можете да използвате софтуер за термично моделиране и някои DCIM системи. Освен това химическите хладилни агенти са по-добър избор от системите на водна основа.

Процесът на автоматично преобразуване не функционира правилно

Причини, водещи до срив на центъра за данни

Повечето доставчици на услуги и организации и фирми имат резервни центрове за данни, използвани за производствени центрове за данни. В случай на прекъсване на захранването в основния център за данни, резервният център за данни ще се стартира автоматично и целият трафик ще бъде насочен към това резервно съоръжение. Ако се направи правилно, процесът трябва да бъде безпроблемен по целия път до крайния потребител. За съжаление, автоматичните преходни настройки често не работят според очакванията. Обичайната причина за този проблем е липсата на редовно изследване. Дори малки промени в производствената инфраструктура могат да окажат голямо влияние върху автоматизираното превключване при отказ. Следователно, когато правите каквито и да е промени в инфраструктурата, автоматизираните процедури за преодоляване на отказ ще трябва да бъдат тествани, за да се гарантира, че нищо не се е отклонило от процеса.

Остарял хардуер

Причини, водещи до срив на центъра за данни

Целият хардуер на всяка система има определен живот. И колкото по-дълго използвате хардуер, толкова по-вероятно е да срещнете проблеми. Всеки знае това, но е обичайно важно приложение да се срине само защото работи на 10-годишен хардуер. Тези проблеми често възникват поради липса на цялостни планове за подмяна и надграждане на нови хардуерни или софтуерни платформи или поради липса на бюджет. Ако е въпрос на пари, нищо не можеш да направиш. Но ако просто се опитате да се възползвате възможно най-дълго, проблем може да възникне по всяко време и когато се случи, щетите, причинени от проблема, могат да бъдат много по-големи.

Пожарогасителната система има проблем с изтичане на вода

Причини, водещи до срив на центъра за данни

Повечето съвременни центрове за данни използват безводни противопожарни системи, така че да не повредят оборудването, ако бъдат активирани нарочно или случайно. Но много по-стари съоръжения все още използват традиционни противопожарни системи в своите центрове за данни. Много течове на вода са причинили големи прекъсвания.

Аварийното изключване се активира случайно

Причини, водещи до срив на центъра за данни

Високото ниво на физическа сигурност в повечето центрове за данни не просто възпира крадците. Те също са на място, за да избегнат служители, които не разбират как работи центърът за данни. Например, администратор на приложение влиза в центъра за данни и случайно задейства аварийно изключване (EPO). EPO е голям червен бутон, отговорен за прекъсване на захранването на цялата система. И очевидно за тези, които не разбират или нямат опит, подобно объркване е напълно възможно.

Под кибератака, ddos

Причини, водещи до срив на центъра за данни

През годините кибератаките се превърнаха в една от водещите причини за неизправности на центрове за данни, от само 2% през 2010 г. до 22% през 2016 г. Операторите на центровете за данни трябва да предприемат действия, за да създадат системи за ранно откриване и смекчаване на рисковете от атаки.

Центровете за данни са трудни за защита срещу мащабна DDoS атака . Повечето интернет доставчици предоставят известна защита на слоеве 3 и 4 на мрежата, но вашите услуги се нуждаят от допълнителна защита на слой 7, която може да бъде конкретно насочена чрез HTTP GET или повиквания.подобна атака. Услуги за смекчаване като защитни стени, IPS/IDS и DDoS могат да се комбинират за пренасочване на трафика.

Природно бедствие

Скорошното увеличаване на бурите и наводненията може да причини значителни смущения в центровете за данни. Повече от 250 природни бедствия са се случили през 2010 г. в Съединените щати. Според статистиката щатът Ню Джърси, САЩ, е претърпял загуби от 63,9 милиарда долара поради прекъсване на бизнеса, причинено от супербурята Санди през 2012 г.

Стъпки за ограничаване на щетите, причинени от инциденти на „колапс“ в центъра за данни

Ако престоят за рутинна поддръжка е внимателно планиран и клиентите са предупредени предварително за престой в центъра, особено по време на период на нисък трафик, клиентите ще бъдат по-съпричастни и щетите ще бъдат значително намалени. Най-големи щети има, когато се появи неочаквано и особено когато продължи дълго и възникват допълнителни проблеми. Поддържайте цялата система за ресурси на компанията стабилна, така че служителите да могат да вършат работата си ефективно, намалявайки тежестта върху ИТ отделите.

По-конкретно:

  • Архивирайте вашите данни: В случай че се сблъскате с прекъсване на центъра за данни, вашите данни (и по-важното, данните на вашите клиенти) трябва да са готови, когато започнете. Започнете отстраняването на неизправности и стартирайте отново. Извършването на редовно архивиране ограничава риска от истински срив. Ако вашата компания може да си го позволи, някои продукти като продуктовата линия VPLEX на EMC или софтуерът за архивиране и репликация на VEEAM могат да помогнат за минимизиране на времето за престой чрез автоматично превключване към местоположение.
  • Поддържайте редовно наблюдение на сървърната система: Мониторингът е услуга, която можете да извършвате редовно и обикновено не струва твърде много. Услуга за мониторинг на трета страна ви уведомява за потенциален престой на сървъра, така че можете да се погрижите за проблема незабавно.
  • Минимизирайте човешката грешка: Бъдете внимателни, когато работите или се разхождате около сървърни системи или електрически кабели, за да избегнете случайното им повреда, или просто не докосвайте мистериозни превключватели без вашия опит. Дръжте течностите далеч от механичните системи. Обадете се на специалист по защита на данните всеки път, когато сървърът се нуждае от надграждане или поддръжка, и спазвайте правилата на центъра.

Всеки център за данни, от малки центрове до съоръжения и доставчици на услуги в мащаб на предприятието, трябва да се стреми 100% да предоставя надеждни услуги на потребителите. Като отделите време за планиране на бъдещето, следвайки принципите за поддръжка и човешки фактор, вашият център за данни може да избегне някои от най-често срещаните причини за повреда.

виж повече


Инсталирайте динамични екрани и анимирани тапети на Windows

Инсталирайте динамични екрани и анимирани тапети на Windows

В операционната система Windows Vista на Microsoft DreamScene позволява настройка на динамични фонове за компютри, но осем години по-късно все още не е наличен в Windows 10. Защо този обичай представлява връщане към миналото през годините и какво можем да направим, за да променим това?

Как да свържете мрежата между 2 лаптопа с помощта на мрежов кабел

Как да свържете мрежата между 2 лаптопа с помощта на мрежов кабел

Ако искаме да свържем два лаптопа към мрежата, можем да използваме мрежов кабел и след това да променим IP адресите на двата компютъра и това е всичко.

Как да коригирате Нямате разрешение да записвате в това местоположение в Windows

Как да коригирате Нямате разрешение да записвате в това местоположение в Windows

Когато Windows покаже грешката „Нямате разрешение да записвате в това местоположение“, това ще ви попречи да записвате файлове в желани папки.

Топ най-добрият безплатен и платен софтуер Syslog Server за Windows

Топ най-добрият безплатен и платен софтуер Syslog Server за Windows

Syslog Server е важна част от арсенала на ИТ администратора, особено когато става въпрос за управление на регистрационни файлове на събития в централизирано местоположение.

Какво е грешка 524 Възникна изчакване и как да коригирате грешката

Какво е грешка 524 Възникна изчакване и как да коригирате грешката

Грешка 524: Възникна изчакване е специфичен за Cloudflare HTTP статус код, който показва, че връзката със сървъра е затворена поради изчакване.

Какво е грешка 0x80070570? Как да поправя тази грешка?

Какво е грешка 0x80070570? Как да поправя тази грешка?

Кодът за грешка 0x80070570 е често срещано съобщение за грешка на компютри, лаптопи и таблети, работещи с операционна система Windows 10. Той обаче се появява и на компютри, работещи под Windows 8.1, Windows 8, Windows 7 или по-стари версии.

Инструкции за коригиране на грешката на синия екран PAGE FAULT IN NONPAGED AREA или STOP 0x00000050

Инструкции за коригиране на грешката на синия екран PAGE FAULT IN NONPAGED AREA или STOP 0x00000050

Грешка в син екран на смърт BSOD PAGE_FAULT_IN_NONPAGED_AREA или STOP 0x00000050 е грешка, която често възниква след инсталиране на драйвер на хардуерно устройство или след инсталиране или актуализиране на нов софтуер и в някои случаи причината е, че грешката се дължи на повреден NTFS дял.

Какво да направите, когато получите вътрешна грешка на Video Scheduler?

Какво да направите, когато получите вътрешна грешка на Video Scheduler?

Вътрешната грешка на Video Scheduler също е смъртоносна грешка на синия екран, тази грешка често се появява в Windows 10 и Windows 8.1. Тази статия ще ви покаже някои начини за отстраняване на тази грешка.

Как да предотвратите стартирането на Epic Launcher с Windows

Как да предотвратите стартирането на Epic Launcher с Windows

За да направите Windows 10 зареждане по-бързо и да намалите времето за зареждане, по-долу са стъпките, които трябва да следвате, за да премахнете Epic от Windows Startup и да предотвратите стартирането на Epic Launcher с Windows 10.

3 по-добри начина за запазване на файлове на работния плот

3 по-добри начина за запазване на файлове на работния плот

Не трябва да записвате файлове на работния плот. Има по-добри начини да съхранявате компютърни файлове и да поддържате работния си плот подреден. Следващата статия ще ви покаже по-ефективни места за запазване на файлове в Windows 10.