Оператори даних іноді допускають помилки, які можуть призвести до закриття всього центру обробки даних. Однак більшості цих проблем можна уникнути за допомогою заходів з технічного обслуговування, процедур перевірки та здорового глузду та досвіду системних операторів.
«Незаплановане відключення центру обробки даних» — це ввічливий спосіб говорити про проблеми в центрі обробки даних, які призводять до простою. Незалежно від того, чи є основною причиною апаратна помилка, помилка програмного забезпечення чи людська помилка, більшості цих помилок можна і потрібно запобігти заздалегідь. Завдяки високому рівню резервування ризиків у сучасних центрах обробки даних цілком можливо завчасно запобігти інцидентам.
Одна цікава річ полягає в тому, що великі та малі помилки все ще можуть виникати весь час у центрі обробки даних, і збиток, заподіяний, коли центри обробки даних припиняють роботу, не є малим, навіть на короткий час. хвилина. Згідно з дослідженням Data Center Knowledge, простої центрів обробки даних можуть коштувати компаніям приблизно 7900 доларів США за хвилину. Фактично, 93% компаній, у яких центри обробки даних простоювали 10 днів і більше, збанкрутували протягом року, а 40% відразу розпалися. Інше дослідження 41 центру обробки даних показало, що середня вартість незапланованих відключень включала понад 179 тисяч доларів США у вигляді переривання роботи, близько 118 тисяч доларів США втраченого доходу та приблизно 42 тисячі доларів США у продуктивності. Якби керівники центрів обробки даних просто більше зосереджувалися на дослідженні та виправленні основних причин типових помилок, вони б значно зменшили потенційні ризики.

Проблема полягає в тому, що багато операторів центрів обробки даних і операторів часто більше зосереджуються на зростанні та прибутках замість того, щоб підтримувати та зміцнювати те, що вже є. Якщо ви звернете увагу на адміністраторів багатьох державних і приватних центрів обробки даних сьогодні, ви побачите, що вони майже виключно стурбовані збільшенням ємності зберігання, збільшенням щільності серверів і збільшенням щільності серверів. системи охолодження, наприклад. Незважаючи на те, що все це чудово, дуже необхідно та свідчить про неймовірне зростання індустрії зберігання даних, це також показує, чому центри обробки даних трапляються все частіше.
У цій статті ми розглянемо поширені причини вимкнення центрів обробки даних і висвітлимо, що адміністратори можуть зробити, щоб мінімізувати або навіть усунути їх. повністю вирішити ці проблеми, а також підвищити стабільність вашої системи.
Причини, що призвели до колапсу ЦОД
Помилка, спричинена людьми
Це найпростіші причини, а також одні з них, яких найважче уникнути. Простіше кажучи, помилятися може кожен. Оскільки 22% відключень викликані людською помилкою, цю причину варто ретельно розглянути, і, що важливо, її можна відносно легко запобігти.
Неправильна авторизація системи

Насправді дуже небагато адміністраторів мають повний і необмежений доступ до всіх систем у центрі обробки даних. Замість того, щоб надавати цей дозвіл більшій кількості людей, необхідно жорстко керувати доступом. В іншому випадку цілком можливо, що в системі може статися серйозна помилка. Наприклад, під час інциденту Joyent у 2014 році досвідчений адміністратор випадково перезапустив усі віртуальні машини в східному центрі обробки даних компанії лише кількома клацаннями миші.
Погані процедури резервного копіювання

Під час планування завдань з технічного обслуговування важливим, але часто забутим кроком є процес резервного копіювання. Часто процеси документуються, але не ретельно перевіряються, і багато разів речі не повністю відновлюються до початкової форми після технічного обслуговування.
Внесення забагато змін

Якщо під час обслуговування адміністратор намагається внести занадто багато змін одночасно, це може спричинити проблеми. По-перше, адміністратори часто поспішають, оскільки їм доводиться виконувати велику кількість завдань за короткий проміжок часу, що часто призводить до помилок. По-друге, через те, що в той самий проміжок часу відбувається так багато змін, усунення несправностей після внесення змін стає набагато складнішим завданням.
Розслабленість в управлінні людськими ресурсами

Звучить трохи жорстко, але працівники повинні вміти неухильно дотримуватися правил у центрі та суворо дисциплінувати за їх порушення. Наприклад, жоден центр обробки даних не дозволяє співробітникам їсти чи пити під час роботи, або аварійні вимикачі повинні бути чітко позначені та закріплені. Ці речі можуть здаватися незначними, але можуть призвести до серйозних інцидентів, тому переконайтеся, що правила завжди суворо дотримуються.
Системна помилка
Резервне живлення не гарантується, обладнання старе або неправильно налаштоване.

Найпоширенішою причиною виходу з ладу центру обробки даних є відключення електроенергії. Відключення електроенергії може статися будь-коли. Тому дата-центри розроблені з резервними джерелами живлення на випадок збою основного живлення. Як резервне живлення часто використовуються батареї або генераторні системи. Проблема полягає в тому, що батарею можна не замінити вчасно, генератор може не перевірятися та не обслуговуватися, що призводить до проблем у разі відключення електроенергії. Усе це означає, що ваші можливості резервного копіювання можуть бути недоступні, коли вони вам найбільше потрібні.
У разі відключення електроенергії системи ДБЖ використовують батареї як резервне джерело живлення, що робить їх важливою частиною підтримки безвідмовної роботи центрів обробки даних. Однак акумулятор не завжди працює добре. Виконайте технічне обслуговування, рекомендоване самими виробниками, щоб перевірити справність акумулятора. Принаймні раз на квартал батареї слід перевіряти на предмет правильності встановлення, розряджання та заряджання. Це включає візуальний огляд, перевірку потужності та регулярний моніторинг за допомогою програмного забезпечення або самого постачальника ДБЖ.
Крім того, високі температури можуть скоротити термін служби акумулятора системи. Створення спеціальної кімнати ДБЖ може допомогти зменшити знос акумулятора. Вам також слід уникати частого розряджання батареї та ретельно стежити за ослабленими або зношеними роз’ємами. Одним словом, ДБЖ є особливо важливою системою, вона вимагає розумного проектування, належного використання та суворого обслуговування.
Несправність в системі охолодження

Механічні системи в центрі обробки даних споживають багато електроенергії, що означає, що вони виділяють велику кількість тепла під час роботи. Дата-центр може перетворитися на крематорій після однієї хвилини роботи. Ось чому система охолодження так важлива. І навіть якщо у вас є зчитування температурних датчиків і сповіщення, надіслані адміністраторам, ви повинні бути впевнені, що у вас є достатньо часу, щоб застосувати процедури резервного охолодження центру, перш ніж все розтане.
Крім того, багато систем охолодження насправді не розроблені для того, щоб впоратися з підвищеним рівнем тепла в сучасному центрі обробки даних великої місткості. Знову ж таки, планування ситуацій, коли ваш центр обробки даних працює на 100% потужності, може допомогти спланувати кращі системи охолодження в майбутньому. Також необхідно налаштувати системи оповіщення про коливання температури системи. Ви можете використовувати програмне забезпечення для теплового моделювання та деякі системи DCIM. Крім того, хімічні холодоагенти є кращим вибором, ніж системи на водній основі.
Процес автоматичного перетворення не працює належним чином

Більшість постачальників послуг, організацій і підприємств мають резервні центри обробки даних, які використовуються для виробничих центрів обробки даних. У разі відключення електроенергії в основному центрі обробки даних резервний центр обробки даних буде автоматично запущено, і весь трафік буде спрямовано до цього резервного центру обробки даних. Якщо все зроблено належним чином, процес має бути безперебійним на всьому шляху до кінцевого користувача. На жаль, автоматичне перемикання після відмови часто не працює належним чином. Зазвичай причиною цієї проблеми є відсутність регулярного тестування. Навіть невеликі зміни у виробничій інфраструктурі можуть мати великий вплив на автоматичне перемикання після відмови. Тому, вносячи будь-які зміни в інфраструктуру, автоматизовані процедури відновлення після збоїв потрібно буде перевірити, щоб переконатися, що немає жодних відхилень від процесу.
Застаріле обладнання

Усе апаратне забезпечення кожної системи має певний термін служби. І чим довше ви користуєтеся апаратним забезпеченням, тим більше шансів зіткнутися з проблемами. Усі це знають, але важлива програма часто аварійно завершує роботу лише через те, що вона працює на апаратному забезпеченні 10-річної давності. Ці проблеми часто виникають через відсутність комплексних планів заміни та оновлення нових апаратних чи програмних платформ або через брак бюджету. Якщо справа в грошах, то нічого не поробиш. Але якщо ви просто намагаєтеся користуватися перевагами якомога довше, проблема може статися будь-коли, і коли це станеться, збиток, спричинений проблемою, може бути набагато більшим.
У системі пожежогасіння є проблема з витоком води

У більшості сучасних центрів обробки даних використовуються безводні системи протипожежного захисту, щоб вони не пошкодили обладнання в разі навмисної чи випадкової активації. Але багато старих установ все ще використовують традиційні системи протипожежного захисту у своїх центрах обробки даних. Багато витоків води призвели до великих відключень.
Випадково спрацьовує аварійне відключення

Високий рівень фізичної безпеки в більшості центрів обробки даних не просто стримує злодіїв. Вони також існують, щоб уникнути співробітників, які не розуміють, як працює центр обробки даних. Наприклад, адміністратор програми заходить у центр обробки даних і випадково запускає аварійне вимкнення живлення (EPO). EPO - це велика червона кнопка, яка відповідає за відключення живлення всієї системи. І очевидно, що для тих, хто не розуміє або не має досвіду, така плутанина цілком можлива.
Під кібератакою, ddos

З роками кібератаки стали однією з головних причин збоїв центрів обробки даних: лише з 2% у 2010 році до 22% у 2016 році. Оператори центрів обробки даних повинні вжити заходів для створення систем раннього виявлення та зменшення ризиків атак.
Центри обробки даних важко захистити від масштабної DDoS-атаки . Більшість інтернет-пр��вайдерів надають певний захист на рівнях 3 і 4 мережі, але ваші служби потребують додаткового захисту на рівні 7, на який можна спеціально націлити через HTTP GET або виклики. Такі служби пом’якшення, як брандмауери, IPS/IDS і DDoS, можна комбінувати для перенаправлення трафіку.
Природна катастрофа
Нещодавнє збільшення штормів і повеней може спричинити значні збої в роботі центрів обробки даних. У 2010 році в США сталося понад 250 стихійних лих. Згідно зі статистичними даними, штат Нью-Джерсі, США, зазнав збитків на 63,9 мільярда доларів через перерву в бізнесі, викликану суперурагом Сенді в 2012 році.
Кроки для обмеження шкоди, спричиненої інцидентами «колапсу» центру обробки даних
Якщо час простою для поточного технічного обслуговування ретельно спланований і клієнти заздалегідь попереджені про простої центру, особливо в період низького трафіку, Клієнти будуть більш прихильними, а збитки значно зменшаться. Найбільша шкода виникає, коли вона виникає несподівано, а особливо, коли вона триває довго, і виникають додаткові проблеми. Підтримуйте стабільність усієї системи ресурсів компанії, щоб співробітники могли ефективно виконувати свою роботу, зменшуючи навантаження на ІТ-відділи.
зокрема:
- Зробіть резервну копію своїх даних: на випадок збою в центрі обробки даних ваші дані (і, що більш важливо, дані ваших клієнтів) мають бути готові, коли ви почнете. Почніть усунення несправностей і запустіть знову. Виконання регулярних резервних копій обмежує ризик справжнього збою. Якщо ваша компанія може собі це дозволити, деякі продукти, як-от лінійка продуктів EMC VPLEX або програмне забезпечення резервного копіювання та реплікації VEEAM, можуть допомогти мінімізувати час простою завдяки автоматичному перемиканню на резервне копіювання.
- Підтримуйте регулярний моніторинг серверної системи: Моніторинг – це послуга, яку ви можете виконувати регулярно і зазвичай не надто дорого коштує. Стороння служба моніторингу сповіщає вас про можливий час простою сервера, тож ви можете негайно вирішити проблему.
- Зведіть до мінімуму людську помилку: будьте обережні під час роботи або обходу серверних систем або електричної проводки, щоб уникнути їх випадкового пошкодження, або просто не торкайтеся таємничих перемикачів без вашого досвіду. Тримайте рідини подалі від механічних систем. Викликайте фахівця із захисту даних щоразу, коли сервер потребує оновлення чи обслуговування, і дотримуйтеся правил центру.
Кожен центр обробки даних, від невеликих центрів до об’єктів корпоративного масштабу та постачальників послуг, повинен прагнути на 100% надавати надійні послуги користувачам. Приділивши час плануванню на майбутнє, дотримуючись принципів технічного обслуговування та людського фактору, ваш центр обробки даних може уникнути деяких із найпоширеніших причин збою.
побачити більше