Причини, що призвели до колапсу ЦОД

Причини, що призвели до колапсу ЦОД

Оператори даних іноді допускають помилки, які можуть призвести до закриття всього центру обробки даних. Однак більшості цих проблем можна уникнути за допомогою заходів з технічного обслуговування, процедур перевірки та здорового глузду та досвіду системних операторів.

«Незаплановане відключення центру обробки даних» — це ввічливий спосіб говорити про проблеми в центрі обробки даних, які призводять до простою. Незалежно від того, чи є основною причиною апаратна помилка, помилка програмного забезпечення чи людська помилка, більшості цих помилок можна і потрібно запобігти заздалегідь. Завдяки високому рівню резервування ризиків у сучасних центрах обробки даних цілком можливо завчасно запобігти інцидентам.

Одна цікава річ полягає в тому, що великі та малі помилки все ще можуть виникати весь час у центрі обробки даних, і збиток, заподіяний, коли центри обробки даних припиняють роботу, не є малим, навіть на короткий час. хвилина. Згідно з дослідженням Data Center Knowledge, простої центрів обробки даних можуть коштувати компаніям приблизно 7900 доларів США за хвилину. Фактично, 93% компаній, у яких центри обробки даних простоювали 10 днів і більше, збанкрутували протягом року, а 40% відразу розпалися. Інше дослідження 41 центру обробки даних показало, що середня вартість незапланованих відключень включала понад 179 тисяч доларів США у вигляді переривання роботи, близько 118 тисяч доларів США втраченого доходу та приблизно 42 тисячі доларів США у продуктивності. Якби керівники центрів обробки даних просто більше зосереджувалися на дослідженні та виправленні основних причин типових помилок, вони б значно зменшили потенційні ризики.

Причини, що призвели до колапсу ЦОД

Проблема полягає в тому, що багато операторів центрів обробки даних і операторів часто більше зосереджуються на зростанні та прибутках замість того, щоб підтримувати та зміцнювати те, що вже є. Якщо ви звернете увагу на адміністраторів багатьох державних і приватних центрів обробки даних сьогодні, ви побачите, що вони майже виключно стурбовані збільшенням ємності зберігання, збільшенням щільності серверів і збільшенням щільності серверів. системи охолодження, наприклад. Незважаючи на те, що все це чудово, дуже необхідно та свідчить про неймовірне зростання індустрії зберігання даних, це також показує, чому центри обробки даних трапляються все частіше.

У цій статті ми розглянемо поширені причини вимкнення центрів обробки даних і висвітлимо, що адміністратори можуть зробити, щоб мінімізувати або навіть усунути їх. повністю вирішити ці проблеми, а також підвищити стабільність вашої системи.

Причини, що призвели до колапсу ЦОД

Помилка, спричинена людьми

Це найпростіші причини, а також одні з них, яких найважче уникнути. Простіше кажучи, помилятися може кожен. Оскільки 22% відключень викликані людською помилкою, цю причину варто ретельно розглянути, і, що важливо, її можна відносно легко запобігти.

Неправильна авторизація системи

Причини, що призвели до колапсу ЦОД

Насправді дуже небагато адміністраторів мають повний і необмежений доступ до всіх систем у центрі обробки даних. Замість того, щоб надавати цей дозвіл більшій кількості людей, необхідно жорстко керувати доступом. В іншому випадку цілком можливо, що в системі може статися серйозна помилка. Наприклад, під час інциденту Joyent у 2014 році досвідчений адміністратор випадково перезапустив усі віртуальні машини в східному центрі обробки даних компанії лише кількома клацаннями миші.

Погані процедури резервного копіювання

Причини, що призвели до колапсу ЦОД

Під час планування завдань з технічного обслуговування важливим, але часто забутим кроком є ​​процес резервного копіювання. Часто процеси документуються, але не ретельно перевіряються, і багато разів речі не повністю відновлюються до початкової форми після технічного обслуговування.

Внесення забагато змін

Причини, що призвели до колапсу ЦОД

Якщо під час обслуговування адміністратор намагається внести занадто багато змін одночасно, це може спричинити проблеми. По-перше, адміністратори часто поспішають, оскільки їм доводиться виконувати велику кількість завдань за короткий проміжок часу, що часто призводить до помилок. По-друге, через те, що в той самий проміжок часу відбувається так багато змін, усунення несправностей після внесення змін стає набагато складнішим завданням.

Розслабленість в управлінні людськими ресурсами

Причини, що призвели до колапсу ЦОД

Звучить трохи жорстко, але працівники повинні вміти неухильно дотримуватися правил у центрі та суворо дисциплінувати за їх порушення. Наприклад, жоден центр обробки даних не дозволяє співробітникам їсти чи пити під час роботи, або аварійні вимикачі повинні бути чітко позначені та закріплені. Ці речі можуть здаватися незначними, але можуть призвести до серйозних інцидентів, тому переконайтеся, що правила завжди суворо дотримуються.

Системна помилка

Резервне живлення не гарантується, обладнання старе або неправильно налаштоване.

Причини, що призвели до колапсу ЦОД

Найпоширенішою причиною виходу з ладу центру обробки даних є відключення електроенергії. Відключення електроенергії може статися будь-коли. Тому дата-центри розроблені з резервними джерелами живлення на випадок збою основного живлення. Як резервне живлення часто використовуються батареї або генераторні системи. Проблема полягає в тому, що батарею можна не замінити вчасно, генератор може не перевірятися та не обслуговуватися, що призводить до проблем у разі відключення електроенергії. Усе це означає, що ваші можливості резервного копіювання можуть бути недоступні, коли вони вам найбільше потрібні.

У разі відключення електроенергії системи ДБЖ використовують батареї як резервне джерело живлення, що робить їх важливою частиною підтримки безвідмовної роботи центрів обробки даних. Однак акумулятор не завжди працює добре. Виконайте технічне обслуговування, рекомендоване самими виробниками, щоб перевірити справність акумулятора. Принаймні раз на квартал батареї слід перевіряти на предмет правильності встановлення, розряджання та заряджання. Це включає візуальний огляд, перевірку потужності та регулярний моніторинг за допомогою програмного забезпечення або самого постачальника ДБЖ.

Крім того, високі температури можуть скоротити термін служби акумулятора системи. Створення спеціальної кімнати ДБЖ може допомогти зменшити знос акумулятора. Вам також слід уникати частого розряджання батареї та ретельно стежити за ослабленими або зношеними роз’ємами. Одним словом, ДБЖ є особливо важливою системою, вона вимагає розумного проектування, належного використання та суворого обслуговування.

Несправність в системі охолодження

Причини, що призвели до колапсу ЦОД

Механічні системи в центрі обробки даних споживають багато електроенергії, що означає, що вони виділяють велику кількість тепла під час роботи. Дата-центр може перетворитися на крематорій після однієї хвилини роботи. Ось чому система охолодження так важлива. І навіть якщо у вас є зчитування температурних датчиків і сповіщення, надіслані адміністраторам, ви повинні бути впевнені, що у вас є достатньо часу, щоб застосувати процедури резервного охолодження центру, перш ніж все розтане.

Крім того, багато систем охолодження насправді не розроблені для того, щоб впоратися з підвищеним рівнем тепла в сучасному центрі обробки даних великої місткості. Знову ж таки, планування ситуацій, коли ваш центр обробки даних працює на 100% потужності, може допомогти спланувати кращі системи охолодження в майбутньому. Також необхідно налаштувати системи оповіщення про коливання температури системи. Ви можете використовувати програмне забезпечення для теплового моделювання та деякі системи DCIM. Крім того, хімічні холодоагенти є кращим вибором, ніж системи на водній основі.

Процес автоматичного перетворення не працює належним чином

Причини, що призвели до колапсу ЦОД

Більшість постачальників послуг, організацій і підприємств мають резервні центри обробки даних, які використовуються для виробничих центрів обробки даних. У разі відключення електроенергії в основному центрі обробки даних резервний центр обробки даних буде автоматично запущено, і весь трафік буде спрямовано до цього резервного центру обробки даних. Якщо все зроблено належним чином, процес має бути безперебійним на всьому шляху до кінцевого користувача. На жаль, автоматичне перемикання після відмови часто не працює належним чином. Зазвичай причиною цієї проблеми є відсутність регулярного тестування. Навіть невеликі зміни у виробничій інфраструктурі можуть мати великий вплив на автоматичне перемикання після відмови. Тому, вносячи будь-які зміни в інфраструктуру, автоматизовані процедури відновлення після збоїв потрібно буде перевірити, щоб переконатися, що немає жодних відхилень від процесу.

Застаріле обладнання

Причини, що призвели до колапсу ЦОД

Усе апаратне забезпечення кожної системи має певний термін служби. І чим довше ви користуєтеся апаратним забезпеченням, тим більше шансів зіткнутися з проблемами. Усі це знають, але важлива програма часто аварійно завершує роботу лише через те, що вона працює на апаратному забезпеченні 10-річної давності. Ці проблеми часто виникають через відсутність комплексних планів заміни та оновлення нових апаратних чи програмних платформ або через брак бюджету. Якщо справа в грошах, то нічого не поробиш. Але якщо ви просто намагаєтеся користуватися перевагами якомога довше, проблема може статися будь-коли, і коли це станеться, збиток, спричинений проблемою, може бути набагато більшим.

У системі пожежогасіння є проблема з витоком води

Причини, що призвели до колапсу ЦОД

У більшості сучасних центрів обробки даних використовуються безводні системи протипожежного захисту, щоб вони не пошкодили обладнання в разі навмисної чи випадкової активації. Але багато старих установ все ще використовують традиційні системи протипожежного захисту у своїх центрах обробки даних. Багато витоків води призвели до великих відключень.

Випадково спрацьовує аварійне відключення

Причини, що призвели до колапсу ЦОД

Високий рівень фізичної безпеки в більшості центрів обробки даних не просто стримує злодіїв. Вони також існують, щоб уникнути співробітників, які не розуміють, як працює центр обробки даних. Наприклад, адміністратор програми заходить у центр обробки даних і випадково запускає аварійне вимкнення живлення (EPO). EPO - це велика червона кнопка, яка відповідає за відключення живлення всієї системи. І очевидно, що для тих, хто не розуміє або не має досвіду, така плутанина цілком можлива.

Під кібератакою, ddos

Причини, що призвели до колапсу ЦОД

З роками кібератаки стали однією з головних причин збоїв центрів обробки даних: лише з 2% у 2010 році до 22% у 2016 році. Оператори центрів обробки даних повинні вжити заходів для створення систем раннього виявлення та зменшення ризиків атак.

Центри обробки даних важко захистити від масштабної DDoS-атаки . Більшість інтернет-пр��вайдерів надають певний захист на рівнях 3 і 4 мережі, але ваші служби потребують додаткового захисту на рівні 7, на який можна спеціально націлити через HTTP GET або виклики. Такі служби пом’якшення, як брандмауери, IPS/IDS і DDoS, можна комбінувати для перенаправлення трафіку.

Природна катастрофа

Нещодавнє збільшення штормів і повеней може спричинити значні збої в роботі центрів обробки даних. У 2010 році в США сталося понад 250 стихійних лих. Згідно зі статистичними даними, штат Нью-Джерсі, США, зазнав збитків на 63,9 мільярда доларів через перерву в бізнесі, викликану суперурагом Сенді в 2012 році.

Кроки для обмеження шкоди, спричиненої інцидентами «колапсу» центру обробки даних

Якщо час простою для поточного технічного обслуговування ретельно спланований і клієнти заздалегідь попереджені про простої центру, особливо в період низького трафіку, Клієнти будуть більш прихильними, а збитки значно зменшаться. Найбільша шкода виникає, коли вона виникає несподівано, а особливо, коли вона триває довго, і виникають додаткові проблеми. Підтримуйте стабільність усієї системи ресурсів компанії, щоб співробітники могли ефективно виконувати свою роботу, зменшуючи навантаження на ІТ-відділи.

зокрема:

  • Зробіть резервну копію своїх даних: на випадок збою в центрі обробки даних ваші дані (і, що більш важливо, дані ваших клієнтів) мають бути готові, коли ви почнете. Почніть усунення несправностей і запустіть знову. Виконання регулярних резервних копій обмежує ризик справжнього збою. Якщо ваша компанія може собі це дозволити, деякі продукти, як-от лінійка продуктів EMC VPLEX або програмне забезпечення резервного копіювання та реплікації VEEAM, можуть допомогти мінімізувати час простою завдяки автоматичному перемиканню на резервне копіювання.
  • Підтримуйте регулярний моніторинг серверної системи: Моніторинг – це послуга, яку ви можете виконувати регулярно і зазвичай не надто дорого коштує. Стороння служба моніторингу сповіщає вас про можливий час простою сервера, тож ви можете негайно вирішити проблему.
  • Зведіть до мінімуму людську помилку: будьте обережні під час роботи або обходу серверних систем або електричної проводки, щоб уникнути їх випадкового пошкодження, або просто не торкайтеся таємничих перемикачів без вашого досвіду. Тримайте рідини подалі від механічних систем. Викликайте фахівця із захисту даних щоразу, коли сервер потребує оновлення чи обслуговування, і дотримуйтеся правил центру.

Кожен центр обробки даних, від невеликих центрів до об’єктів корпоративного масштабу та постачальників послуг, повинен прагнути на 100% надавати надійні послуги користувачам. Приділивши час плануванню на майбутнє, дотримуючись принципів технічного обслуговування та людського фактору, ваш центр обробки даних може уникнути деяких із найпоширеніших причин збою.

побачити більше


Дізнайтеся про брандмауери, брандмауер Windows у Windows Server 2012

Дізнайтеся про брандмауери, брандмауер Windows у Windows Server 2012

Брандмауер Windows із розширеною безпекою — це брандмауер, який працює на Windows Server 2012 і ввімкнено за замовчуванням. Параметрами брандмауера в Windows Server 2012 можна керувати в консолі Microsoft Management Console брандмауера Windows.

Як змінити пароль для входу на модем і маршрутизатор Vigor Draytek

Як змінити пароль для входу на модем і маршрутизатор Vigor Draytek

Під час зміни пароля адміністратора сторінки входу модема та маршрутизатора Vigor Draytek користувачі обмежать несанкціонований доступ до зміни пароля модему, захищаючи важливу мережеву інформацію.

Як легко розігнати оперативну пам’ять за допомогою AMD Ryzen Master

Як легко розігнати оперативну пам’ять за допомогою AMD Ryzen Master

На щастя, користувачі комп’ютерів Windows із процесорами AMD Ryzen можуть використовувати Ryzen Master для легкого розгону оперативної пам’яті, не торкаючись BIOS.

7 способів виправити помилки ноутбука Windows, який не заряджається через USB-C

7 способів виправити помилки ноутбука Windows, який не заряджається через USB-C

Порт USB-C став стандартом для передачі даних, виведення відео та заряджання на сучасних ноутбуках Windows. Хоча це зручно, може бути неприємно, коли ви підключаєте свій ноутбук до зарядного пристрою USB-C, а він не заряджається.

Як виправити помилку Cannot Create Service в Ultraviewer

Як виправити помилку Cannot Create Service в Ultraviewer

Помилка «Неможливо створити службу» в Ultraviewer виникає, коли ми встановлюємо програмне забезпечення з кодом помилки 1072.

Як виправити помилку невідображення ідентифікатора в Ultraviewer

Як виправити помилку невідображення ідентифікатора в Ultraviewer

Помилка невідображення ідентифікатора в Ultraviewer вплине на підключення до віддаленого комп’ютера.

Як використовувати Ultraviewer для надсилання та отримання файлів

Як використовувати Ultraviewer для надсилання та отримання файлів

Ultraviewer дистанційно керує комп'ютером і має режим надсилання та отримання файлів.

Що таке Packet Sniffer?

Що таке Packet Sniffer?

Хакери можуть використовувати Sniffer для підслуховування незашифрованих даних і перегляду інформації, якою обмінюються дві сторони. Щоб краще зрозуміти Packet Sniffer, а також механізм дії Packet Sniffer, ви можете переглянути статтю Wiki.SpaceDesktop нижче.

6 способів остаточно видалити файли в Windows

6 способів остаточно видалити файли в Windows

Зазвичай, видаляючи файл у Windows, файл не видаляється відразу, а зберігається в кошику. Після цього вам доведеться зробити ще один крок: очистити кошик. Але якщо ви не хочете виконувати цей другий крок, ми покажемо вам, як остаточно видалити файл у статті нижче.

Як темна мережа впливає на безпеку?

Як темна мережа впливає на безпеку?

Темна мережа — це таємниче місце з видатною репутацією. Знайти темну мережу не складно. Однак навчитися безпечно керувати ним – це інша справа, особливо якщо ви не знаєте, що робите чи чого очікувати.