Datoví operátoři někdy dělají chyby, které mohou vést k vypnutí celého datového centra. Většině těchto problémů se však lze vyhnout opatřeními údržby, kontrolními postupy a zdravým rozumem a zkušenostmi provozovatelů systému.
„Neplánovaný výpadek datového centra“ je zdvořilý způsob, jak mluvit o problémech datového centra, které vedou k výpadkům. Ať už je hlavní příčinou chyba hardwaru, softwaru nebo lidská chyba, většině těchto chyb lze a mělo by se předejít předem. S vysokou úrovní redundance rizik v dnešních datových centrech je zcela možné předcházet incidentům předem.
Jedna zajímavá věc je, že v datovém centru se stále mohou vyskytovat velké i malé chyby a škody způsobené zastavením provozu datových center nejsou malé, byť jen na krátkou dobu. Podle studie Data Center Knowledge může výpadek datového centra stát podniky asi 7 900 USD za minutu. Ve skutečnosti 93 % společností s výpadky datových center na 10 dní nebo více zkrachovalo do jednoho roku a 40 % se zhroutilo okamžitě. A další studie 41 hodnocených datových center zjistila, že průměrné náklady na neplánované výpadky zahrnují více než 179 tisíc dolarů v přerušení podnikání, asi 118 tisíc dolarů v ušlých příjmech a asi 42 tisíc dolarů v produktivitě. Pokud by se manažeři datových center jednoduše více zaměřili na výzkum a opravu hlavních příčin běžných chyb, výrazně by snížili potenciální rizika.

Problém je v tom, že mnoho provozovatelů a provozovatelů datových center se často zaměřuje více na růst a výnosy místo toho, aby udržovali a posilovali to, co již existuje. Pokud dnes věnujete pozornost správcům v mnoha veřejných a soukromých datových centrech, uvidíte, že se téměř výlučně starají o zvýšení kapacity úložiště, zvýšení hustoty serverů a zvýšení hustoty serverů. například chladicí systémy. I když je to všechno skvělé, velmi potřebné a ukazuje to neuvěřitelný růst v odvětví ukládání dat, také to ukazuje, proč datová centra selhávají, což se děje stále častěji.
V tomto článku prozkoumáme běžné důvody, proč jsou datová centra deaktivována, a zdůrazníme, co mohou správci udělat, aby je minimalizovali nebo dokonce odstranili. Tyto problémy zcela vyřešíme a také zlepšíme stabilitu vašeho systému.
Důvody vedoucí ke kolapsu datového centra
Chyba způsobená lidmi
To jsou nejjednodušší příčiny a také jedna z nejobtížnějších, jak se jim vyhnout. Jednoduše řečeno, každý může udělat chybu. Vzhledem k 22 % výpadků způsobených lidskou chybou se tato příčina vyplatí pečlivě zvážit a co je důležité, dá se jí poměrně snadno předejít.
Nesprávná autorizace systému

Ve skutečnosti má jen velmi málo administrátorů úplný a neomezený přístup ke všem systémům v datovém centru. Namísto udělení tohoto oprávnění více lidem musí být přístup přísně řízen. V opačném případě je zcela možné, že v systému může dojít k závažné chybě. Například v incidentu Joyent v roce 2014 zkušený administrátor omylem restartoval všechny virtuální stroje ve východním datovém centru společnosti pomocí pouhých několika kliknutí.
Špatné postupy zálohování

Při plánování úkolů údržby je důležitým, ale často zapomenutým krokem proces zálohování. Často jsou procesy zdokumentovány, ale nejsou důkladně zkontrolovány, a často se věci po údržbě zcela neobnoví do původní podoby.
Provádíte příliš mnoho změn

Pokud se během údržby správce pokusí provést příliš mnoho změn najednou, může to způsobit problémy. Za prvé, správci mají často uspěchanou mentalitu, protože musí dokončit velké množství úkolů v krátkém časovém období, což často vede k chybám. Zadruhé, protože ve stejném časovém rámci probíhá tolik změn, je řešení problémů po změně mnohem obtížnější.
Laxnost v řízení lidských zdrojů

Zní to trochu drsně, ale zaměstnanci musí umět striktně dodržovat pravidla v centru a při jejich porušování musí být přísně disciplinovaní. Žádné datové centrum například neumožňuje zaměstnancům jíst nebo pít při práci, nebo nouzové spínače musí být jasně označeny a zajištěny. Tyto věci se mohou zdát malé, ale mohou vést k velkým incidentům, takže se vždy ujistěte, že jsou pravidla přísně dodržována.
Chyba systému
Záložní napájení není zaručeno, zařízení je staré nebo špatně nakonfigurované.

Nejčastějším důvodem výpadku datového centra je výpadek proudu. K výpadku proudu může dojít kdykoli. Proto jsou datová centra navrhována se záložními zdroji energie pro případ výpadku hlavního napájení. Jako záložní zdroj se často používají baterie nebo generátorové systémy. Problém je, že baterie nemusí být včas vyměněna, generátor nemusí být kontrolován a udržován, což vede k problémům, když dojde k výpadku proudu. To vše znamená, že vaše možnosti zálohování nemusí být dostupné, když je nejvíce potřebujete.
V případě výpadku proudu používají systémy UPS baterie jako záložní napájení, což z nich činí nezbytnou součást udržování provozuschopnosti datových center. Ne vždy však baterie funguje dobře. Proveďte údržbu doporučenou samotnými výrobci pro kontrolu stavu baterie. Nejméně jednou za čtvrt roku by měly být baterie kontrolovány z hlediska správné instalace, vybíjení a nabíjení. To zahrnuje vizuální kontroly, kontroly kapacity a pravidelné monitorování prostřednictvím softwaru nebo samotného dodavatele UPS.
Vysoké teploty mohou navíc zkrátit životnost baterie systému. Vybudování vyhrazené místnosti UPS může pomoci snížit opotřebení baterie. Také byste se měli vyvarovat častého vybíjení baterie a pečlivě se starat o uvolněné spoje nebo opotřebované konektory. Stručně řečeno, UPS je obzvláště důležitý systém, vyžaduje rozumnou konstrukci, správné použití a přísnou údržbu.
Porucha v chladicím systému

Mechanické systémy v datovém centru spotřebovávají hodně elektřiny, což znamená, že při provozu vydávají velké množství tepla. Z datového centra se může po jedné minutě provozu stát krematorium. Proto je systém chlazení tak důležitý. A i když necháte odečítat teplotní čidla a zasílat upozornění správcům, musíte si být jisti, že máte dostatek času na implementaci postupů záložního chlazení centra, než se vše roztaví.
Navíc mnoho chladicích systémů není ve skutečnosti navrženo tak, aby udrželo krok se zvýšenou úrovní tepla v moderních vysokokapacitních datových centrech. Opět platí, že mapování situací, kdy vaše datové centrum funguje na 100 % kapacity, může pomoci naplánovat lepší chladicí systémy v budoucnu. Nezbytné je také nastavení varovných systémů pro kolísání teploty systému. Můžete použít některý software pro tepelné modelování a některé systémy DCIM. Chemická chladiva jsou navíc lepší volbou než systémy na bázi vody.
Proces automatického převodu nefunguje správně

Většina poskytovatelů služeb a organizací a podniků má záložní datová centra používaná pro produkční datová centra. V případě výpadku proudu v primárním datovém centru se automaticky spustí záložní datové centrum a veškerý provoz bude směrován do tohoto záložního zařízení. Pokud se to provede správně, proces by měl být bezproblémový až ke koncovému uživateli. Automatická převzetí služeb při selhání bohužel často nefungují podle očekávání. Obvyklou příčinou tohoto problému je nedostatek pravidelného testování. I malé změny v produkční infrastruktuře mohou mít velký dopad na automatizované převzetí služeb při selhání. Proto při provádění jakýchkoli změn v infrastruktuře bude nutné otestovat automatizované procedury převzetí služeb při selhání, aby bylo zajištěno, že se nic neodchýlí od procesu.
Zastaralý hardware

Veškerý hardware každého systému má určitou životnost. A čím déle kus hardwaru používáte, tím je pravděpodobnější, že narazíte na problémy. Každý to ví, ale je běžné, že důležitá aplikace spadne jen proto, že běží na 10 let starém hardwaru. Tyto problémy často vznikají kvůli nedostatku komplexních plánů výměny a upgradu pro nové hardwarové nebo softwarové platformy nebo kvůli nedostatku rozpočtu. Pokud jde o peníze, nedá se nic dělat. Ale pokud se prostě pokusíte využít výhody tak dlouho, jak je to možné, problém může nastat kdykoli, a když k němu dojde, škody způsobené problémem mohou být mnohem větší.
Požární systém má problém s únikem vody

Většina moderních datových center používá bezvodé protipožární systémy, aby nepoškodily zařízení, pokud jsou aktivovány úmyslně nebo náhodně. Mnoho starších zařízení však ve svých datových centrech stále používá tradiční protipožární systémy. Mnoho úniků vody způsobilo velké výpadky.
Nouzové vypnutí je aktivováno náhodně

Vysoká úroveň fyzického zabezpečení ve většině datových center zloděje jen tak neodradí. Jsou také na místě, aby se vyhnuli zaměstnancům, kteří nechápou, jak datové centrum funguje. Například administrátor aplikace vejde do datového centra a náhodně spustí nouzové vypnutí (EPO). EPO je velké červené tlačítko, zodpovědné za vypnutí napájení celého systému. A je zřejmé, že pro ty, kteří nerozumí nebo nemají žádné odborné znalosti, je takový zmatek zcela možný.
Pod kybernetickým útokem, ddos

V průběhu let se kybernetické útoky staly jednou z hlavních příčin selhání datových center, a to z pouhých 2 % v roce 2010 na 22 % v roce 2016. Provozovatelé datových center musí podniknout kroky k vytvoření systémů pro včasnou detekci a zmírnění rizik útoků.
Datová centra je obtížné bránit proti rozsáhlému útoku DDoS . Většina ISP poskytuje určitou ochranu na 3. a 4. vrstvě sítě, ale vaše služby potřebují dodatečnou ochranu na 7. vrstvě, na kterou lze specificky cílit pomocí HTTP GET nebo volání. Služby zmírňování, jako jsou brány firewall, IPS/IDS a DDoS, lze kombinovat a přesměrovat provoz.
Přírodní katastrofa
Nedávný nárůst bouří a záplav může způsobit značné narušení datových center. V roce 2010 došlo ve Spojených státech k více než 250 přírodním katastrofám. Podle statistik utrpěl stát New Jersey v USA ztráty ve výši 63,9 miliardy dolarů v důsledku přerušení podnikání způsobeného superbouří Sandy v roce 2012.
Kroky k omezení škod způsobených incidenty „kolapsu“ datového centra
Pokud jsou prostoje pro běžnou údržbu pečlivě naplánovány a zákazníci jsou předem upozorněni na odstávky centra, zejména v období nízkého provozu, budou zákazníci shovívavější a škody se výrazně sníží. K největším škodám dochází, když k ní dojde nečekaně, a zejména když trvá dlouho, a vznikají další problémy. Udržujte systém zdrojů celé společnosti stabilní, aby zaměstnanci mohli efektivně vykonávat svou práci a snižte tak zátěž IT oddělení.
Konkrétně:
- Zálohujte svá data: V případě, že budete čelit výpadku datového centra, vaše data (a co je důležitější, data vašich zákazníků) by měla být připravena, když začnete. Spusťte odstraňování problémů a spusťte znovu. Provádění pravidelných záloh omezuje riziko skutečného zhroucení. Pokud si to vaše společnost může dovolit, některé produkty, jako je produktová řada VPLEX od EMC nebo software VEEAM Backup and Replication, mohou pomoci minimalizovat prostoje automatickým přepnutím do umístění.
- Udržujte pravidelný monitoring serverového systému: Monitoring je služba, kterou můžete provádět pravidelně a obvykle nestojí příliš mnoho. Monitorovací služba třetí strany vás upozorní na potenciální výpadky serveru, takže se můžete okamžitě postarat o problém.
- Minimalizace lidských chyb: Při práci nebo procházení serverových systémů nebo elektrických rozvodů buďte opatrní, abyste je náhodně nepoškodili, nebo se jednoduše nedotýkejte záhadných spínačů bez vaší odbornosti. Udržujte kapaliny mimo dosah mechanických systémů. Kdykoli server potřebuje upgrade nebo údržbu, zavolejte specialistu na ochranu dat a dodržujte pravidla centra.
Každé datové centrum, od malých center až po podniková zařízení a poskytovatele služeb, se musí 100% snažit poskytovat uživatelům spolehlivé služby. Tím, že si naplánujete budoucnost, budete dodržovat zásady údržby a lidských faktorů, vaše datové centrum se může vyhnout některým z nejčastějších příčin selhání.
vidět víc