Причини, водещи до срив на центъра за данни

Причини, водещи до срив на центъра за данни

Операторите на данни понякога правят грешки, които могат да доведат до спиране на целия център за данни. Повечето от тези проблеми обаче могат да бъдат избегнати чрез мерки за поддръжка, процедури за проверка и чрез здравия разум и опит на системните оператори.

„Непланирано прекъсване на центъра за данни“ е учтив начин да се говори за проблеми в центъра за данни, които водят до прекъсване. Независимо дали основната причина е хардуерна грешка, софтуерна грешка или човешка грешка, повечето от тези грешки могат и трябва да бъдат предотвратени предварително. С високото ниво на излишък на риска в днешните центрове за данни, предотвратяването на инциденти предварително е напълно възможно.

Едно интересно нещо е, че все още могат да се появят големи и малки грешки през цялото време в центъра за данни и щетите, причинени, когато центровете за данни спрат да работят, не са малки, дори само за кратко време.минута. Според проучване на Data Center Knowledge, прекъсването на центъра за данни може да струва на бизнеса около $7900 на минута. Всъщност 93% от компаниите с престой на центрове за данни за 10 дни или повече фалираха в рамките на една година, а 40% се сринаха незабавно. И друго проучване на 41 оценени центъра за данни установи, че средната цена на непланирани прекъсвания включва повече от $179 хиляди прекъсване на бизнеса, около $118 хиляди загубени приходи и около $42 хиляди производителност. Ако мениджърите на центрове за данни просто се съсредоточат повече върху проучването и коригирането на основните причини за често срещани грешки, те биха намалили значително потенциалните рискове.

Причини, водещи до срив на центъра за данни

Проблемът е, че много оператори на центрове за данни и оператори често се фокусират повече върху растежа и приходите, вместо да поддържат и укрепват това, което вече е налице. Ако обърнете внимание на администраторите в много публични и частни центрове за данни днес, ще видите, че те са почти изключително загрижени за увеличаване на капацитета за съхранение, увеличаване на плътността на сървърите и увеличаване на плътността на сървърите. модернизирайте остарелите сървърни ферми в по-модерни съоръжения с по-ефективна охладителни системи, например. Въпреки че всичко това е страхотно, много необходимо и показва невероятен растеж в индустрията за съхранение на данни, то също така показва защо центровете за данни се провалят, което се случва все по-често.

В тази статия ще проучим често срещаните причини, поради които центровете за данни са деактивирани, и ще подчертаем какво могат да направят администраторите, за да ги минимизират или дори да ги премахнат. напълно да коригирате тези проблеми, както и да подобрите стабилността на вашата система.

Причини, водещи до срив на центъра за данни

Грешка, причинена от хора

Това са най-простите причини, но и едни от най-трудните за избягване. Просто казано, всеки може да сгреши. С 22% от прекъсванията, причинени от човешка грешка, тази причина си заслужава да бъде разгледана внимателно и, което е важно, може да бъде предотвратена относително лесно.

Неправилно оторизиране на системата

Причини, водещи до срив на центъра за данни

В действителност много малко администратори имат пълен и неограничен достъп до всички системи в центъра за данни. Вместо да се предоставя това разрешение на повече хора, достъпът трябва да се управлява строго. В противен случай е напълно възможно да възникне сериозна грешка в системата. Например при инцидента с Joyent през 2014 г. опитен администратор случайно рестартира всички виртуални машини в източния център за данни на компанията само с няколко кликвания.

Лоши процедури за архивиране

Причини, водещи до срив на центъра за данни

Когато планирате задачи по поддръжката, важна, но често забравяна стъпка е процесът на архивиране. Често процесите се документират, но не се преглеждат задълбочено и много пъти нещата не се възстановяват напълно в първоначалния си вид след поддръжка.

Правене на твърде много промени

Причини, водещи до срив на центъра за данни

По време на поддръжката, ако администратор се опита да направи твърде много промени наведнъж, това може да причини проблеми. Първо, администраторите често имат прибързан манталитет, защото трябва да изпълнят голям брой задачи за кратък период от време, което често води до грешки. Второ, тъй като толкова много промени се случват в една и съща времева рамка, това прави отстраняването на неизправности след промяна много по-трудна задача.

Лекота в управлението на човешките ресурси

Причини, водещи до срив на центъра за данни

Звучи малко грубо, но служителите трябва да знаят как да спазват стриктно правилата в центъра и трябва да бъдат строго дисциплинирани при нарушаването им. Например нито един център за данни не позволява на служителите да ядат или пият, докато са на работа, или аварийните превключватели трябва да бъдат ясно етикетирани и обезопасени. Тези неща може да изглеждат малки, но могат да доведат до големи инциденти, така че се уверете, че правилата винаги се спазват стриктно.

Системна грешка

Резервното захранване не е гарантирано, оборудването е старо или неправилно конфигурирано.

Причини, водещи до срив на центъра за данни

Най-честата причина, поради която център за данни спира, се дължи на прекъсване на захранването. Прекъсване на електрозахранването може да се случи по всяко време. Поради това центровете за данни са проектирани с резервни източници на захранване в случай на прекъсване на основното захранване. Батериите или генераторните системи често се използват като резервно захранване. Проблемът е, че батерията може да не бъде сменена навреме, генераторът може да не бъде инспектиран и поддържан, което води до проблеми при прекъсване на захранването. Всичко това означава, че вашите възможности за архивиране може да не са налични, когато имате най-голяма нужда от тях.

В случай на прекъсване на електрозахранването UPS системите използват батерии като резервно захранване, което ги прави съществена част от поддържането на непрекъсната работа на центровете за данни. Батерията обаче не винаги работи добре. Извършете поддръжка, препоръчана от самите производители, за да проверите здравето на батерията. Най-малко веднъж на тримесечие батериите трябва да се проверяват за правилен монтаж, разреждане и зареждане. Това включва визуални проверки, проверки на капацитета и редовно наблюдение чрез софтуер или самия доставчик на UPS.

Освен това високите температури могат да съкратят живота на батерията на системата. Изграждането на специално помещение за UPS може да помогне за намаляване на износването на живота на батерията. Също така трябва да избягвате честото разреждане на батерията и да се грижите добре за разхлабени връзки или износени конектори. Накратко, UPS е особено важна система, тя изисква разумен дизайн, правилна употреба и стриктна поддръжка.

Неизправност в охладителната система

Причини, водещи до срив на центъра за данни

Механичните системи в центъра за данни консумират много електроенергия, което означава, че отделят голямо количество топлина, докато работят. Центърът за данни може да се превърне в крематориум след една минута работа. Ето защо охладителната система е толкова важна. И дори ако имате отчитане на температурни сензори и изпращане на предупреждения до администраторите, трябва да сте сигурни, че имате достатъчно време да приложите процедурите за резервно охлаждане на центъра, преди всичко да се стопи.

Освен това много системи за охлаждане не са проектирани да се справят с повишените нива на топлина в модерен център за данни с голям капацитет. Отново, очертаването на ситуации, при които вашият център за данни работи със 100% капацитет, може да помогне при планирането на по-добри системи за охлаждане в бъдеще. Необходима е и настройка на системи за предупреждение за температурни колебания в системата. Можете да използвате софтуер за термично моделиране и някои DCIM системи. Освен това химическите хладилни агенти са по-добър избор от системите на водна основа.

Процесът на автоматично преобразуване не функционира правилно

Причини, водещи до срив на центъра за данни

Повечето доставчици на услуги и организации и фирми имат резервни центрове за данни, използвани за производствени центрове за данни. В случай на прекъсване на захранването в основния център за данни, резервният център за данни ще се стартира автоматично и целият трафик ще бъде насочен към това резервно съоръжение. Ако се направи правилно, процесът трябва да бъде безпроблемен по целия път до крайния потребител. За съжаление, автоматичните преходни настройки често не работят според очакванията. Обичайната причина за този проблем е липсата на редовно изследване. Дори малки промени в производствената инфраструктура могат да окажат голямо влияние върху автоматизираното превключване при отказ. Следователно, когато правите каквито и да е промени в инфраструктурата, автоматизираните процедури за преодоляване на отказ ще трябва да бъдат тествани, за да се гарантира, че нищо не се е отклонило от процеса.

Остарял хардуер

Причини, водещи до срив на центъра за данни

Целият хардуер на всяка система има определен живот. И колкото по-дълго използвате хардуер, толкова по-вероятно е да срещнете проблеми. Всеки знае това, но е обичайно важно приложение да се срине само защото работи на 10-годишен хардуер. Тези проблеми често възникват поради липса на цялостни планове за подмяна и надграждане на нови хардуерни или софтуерни платформи или поради липса на бюджет. Ако е въпрос на пари, нищо не можеш да направиш. Но ако просто се опитате да се възползвате възможно най-дълго, проблем може да възникне по всяко време и когато се случи, щетите, причинени от проблема, могат да бъдат много по-големи.

Пожарогасителната система има проблем с изтичане на вода

Причини, водещи до срив на центъра за данни

Повечето съвременни центрове за данни използват безводни противопожарни системи, така че да не повредят оборудването, ако бъдат активирани нарочно или случайно. Но много по-стари съоръжения все още използват традиционни противопожарни системи в своите центрове за данни. Много течове на вода са причинили големи прекъсвания.

Аварийното изключване се активира случайно

Причини, водещи до срив на центъра за данни

Високото ниво на физическа сигурност в повечето центрове за данни не просто възпира крадците. Те също са на място, за да избегнат служители, които не разбират как работи центърът за данни. Например, администратор на приложение влиза в центъра за данни и случайно задейства аварийно изключване (EPO). EPO е голям червен бутон, отговорен за прекъсване на захранването на цялата система. И очевидно за тези, които не разбират или нямат опит, подобно объркване е напълно възможно.

Под кибератака, ddos

Причини, водещи до срив на центъра за данни

През годините кибератаките се превърнаха в една от водещите причини за неизправности на центрове за данни, от само 2% през 2010 г. до 22% през 2016 г. Операторите на центровете за данни трябва да предприемат действия, за да създадат системи за ранно откриване и смекчаване на рисковете от атаки.

Центровете за данни са трудни за защита срещу мащабна DDoS атака . Повечето интернет доставчици предоставят известна защита на слоеве 3 и 4 на мрежата, но вашите услуги се нуждаят от допълнителна защита на слой 7, която може да бъде конкретно насочена чрез HTTP GET или повиквания.подобна атака. Услуги за смекчаване като защитни стени, IPS/IDS и DDoS могат да се комбинират за пренасочване на трафика.

Природно бедствие

Скорошното увеличаване на бурите и наводненията може да причини значителни смущения в центровете за данни. Повече от 250 природни бедствия са се случили през 2010 г. в Съединените щати. Според статистиката щатът Ню Джърси, САЩ, е претърпял загуби от 63,9 милиарда долара поради прекъсване на бизнеса, причинено от супербурята Санди през 2012 г.

Стъпки за ограничаване на щетите, причинени от инциденти на „колапс“ в центъра за данни

Ако престоят за рутинна поддръжка е внимателно планиран и клиентите са предупредени предварително за престой в центъра, особено по време на период на нисък трафик, клиентите ще бъдат по-съпричастни и щетите ще бъдат значително намалени. Най-големи щети има, когато се появи неочаквано и особено когато продължи дълго и възникват допълнителни проблеми. Поддържайте цялата система за ресурси на компанията стабилна, така че служителите да могат да вършат работата си ефективно, намалявайки тежестта върху ИТ отделите.

По-конкретно:

  • Архивирайте вашите данни: В случай че се сблъскате с прекъсване на центъра за данни, вашите данни (и по-важното, данните на вашите клиенти) трябва да са готови, когато започнете. Започнете отстраняването на неизправности и стартирайте отново. Извършването на редовно архивиране ограничава риска от истински срив. Ако вашата компания може да си го позволи, някои продукти като продуктовата линия VPLEX на EMC или софтуерът за архивиране и репликация на VEEAM могат да помогнат за минимизиране на времето за престой чрез автоматично превключване към местоположение.
  • Поддържайте редовно наблюдение на сървърната система: Мониторингът е услуга, която можете да извършвате редовно и обикновено не струва твърде много. Услуга за мониторинг на трета страна ви уведомява за потенциален престой на сървъра, така че можете да се погрижите за проблема незабавно.
  • Минимизирайте човешката грешка: Бъдете внимателни, когато работите или се разхождате около сървърни системи или електрически кабели, за да избегнете случайното им повреда, или просто не докосвайте мистериозни превключватели без вашия опит. Дръжте течностите далеч от механичните системи. Обадете се на специалист по защита на данните всеки път, когато сървърът се нуждае от надграждане или поддръжка, и спазвайте правилата на центъра.

Всеки център за данни, от малки центрове до съоръжения и доставчици на услуги в мащаб на предприятието, трябва да се стреми 100% да предоставя надеждни услуги на потребителите. Като отделите време за планиране на бъдещето, следвайки принципите за поддръжка и човешки фактор, вашият център за данни може да избегне някои от най-често срещаните причини за повреда.

виж повече


Научете за защитните стени, защитната стена на Windows на Windows Server 2012

Научете за защитните стени, защитната стена на Windows на Windows Server 2012

Защитната стена на Windows с разширена защита е защитна стена, която работи на Windows Server 2012 и е активирана по подразбиране. Настройките на защитната стена в Windows Server 2012 се управляват в конзолата за управление на защитната стена на Windows.

Как да промените паролата за влизане в модема и рутера Vigor Draytek

Как да промените паролата за влизане в модема и рутера Vigor Draytek

Когато променят паролата на администраторската страница за вход на Vigor Draytek Modem и Router, потребителите ще ограничат неоторизиран достъп за промяна на паролата на модема, осигурявайки важна мрежова информация.

Как лесно да овърклокнете RAM с AMD Ryzen Master

Как лесно да овърклокнете RAM с AMD Ryzen Master

За щастие, потребителите на компютри с Windows, работещи с процесори AMD Ryzen, могат да използват Ryzen Master за лесно овърклокване на RAM, без да докосват BIOS.

7 начина за коригиране на грешки на лаптоп с Windows, които не се зареждат през USB-C

7 начина за коригиране на грешки на лаптоп с Windows, които не се зареждат през USB-C

USB-C портът се превърна в стандарт за пренос на данни, видео изход и зареждане на модерни лаптопи с Windows. Въпреки че това е удобно, може да бъде разочароващо, когато включите лаптопа си в USB-C зарядно устройство и то не се зарежда.

Как да коригирате грешката Cannot Create Service на Ultraviewer

Как да коригирате грешката Cannot Create Service на Ultraviewer

Грешката Cannot Create Service на Ultraviewer възниква, когато инсталираме софтуера с код на грешка 1072.

Как да поправите грешката да не се показва ID на Ultraviewer

Как да поправите грешката да не се показва ID на Ultraviewer

Грешката да не се показва ID на Ultraviewer ще засегне връзката с отдалечен компютър.

Как да използвате Ultraviewer за изпращане и получаване на файлове

Как да използвате Ultraviewer за изпращане и получаване на файлове

Ultraviewer управлява компютъра дистанционно и има режим за изпращане и получаване на файлове.

6 начина за постоянно изтриване на файлове в Windows

6 начина за постоянно изтриване на файлове в Windows

Обикновено, когато изтривате файл в Windows, файлът няма да бъде изтрит веднага, а ще бъде записан в кошчето. След това ще трябва да направите още една стъпка: изпразнете кошчето. Но ако не искате да правите тази втора стъпка, ще ви покажем как да изтриете файл за постоянно в статията по-долу.

Как тъмната мрежа влияе на сигурността?

Как тъмната мрежа влияе на сигурността?

Тъмната мрежа е мистериозно място със славна репутация. Намирането на тъмната мрежа не е трудно. Обаче да се научите как да го навигирате безопасно е друг въпрос, особено ако не знаете какво правите или какво да очаквате.

Какво представлява вирусът Adrozek? Как да се предпазите от вируса Adrozek

Какво представлява вирусът Adrozek? Как да се предпазите от вируса Adrozek

Технически Adrozek не е вирус. Това е похитител на браузър, известен също като модификатор на браузъра. Това означава, че зловреден софтуер е бил инсталиран на вашия компютър без ваше знание.