Οι χειριστές δεδομένων κάνουν μερικές φορές λάθη που μπορεί να οδηγήσουν σε κλείσιμο ολόκληρου του κέντρου δεδομένων. Ωστόσο, τα περισσότερα από αυτά τα προβλήματα μπορούν να αποφευχθούν μέσω μέτρων συντήρησης, διαδικασιών επιθεώρησης και με την κοινή λογική και την εμπειρία των διαχειριστών του συστήματος.
Μια "μη προγραμματισμένη διακοπή του κέντρου δεδομένων" είναι ένας ευγενικός τρόπος να μιλήσουμε για ένα κέντρο δεδομένων που έχει προβλήματα που οδηγούν σε διακοπές λειτουργίας. Είτε η βασική αιτία είναι σφάλμα υλικού, σφάλμα λογισμικού ή ανθρώπινο σφάλμα, τα περισσότερα από αυτά τα σφάλματα μπορούν και πρέπει να αποφευχθούν εκ των προτέρων. Με το υψηλό επίπεδο πλεονασμού κινδύνου που υπάρχει στα σημερινά κέντρα δεδομένων, η πρόληψη των περιστατικών εκ των προτέρων είναι απολύτως εφικτή.
Ένα ενδιαφέρον πράγμα είναι ότι μεγάλα και μικρά σφάλματα μπορούν να συμβαίνουν συνεχώς σε ένα κέντρο δεδομένων και η ζημιά που προκαλείται όταν τα κέντρα δεδομένων σταματούν να λειτουργούν δεν είναι μικρή, ακόμη και για ένα μικρό χρονικό διάστημα. Σύμφωνα με μια μελέτη της Data Center Knowledge, η διακοπή λειτουργίας του κέντρου δεδομένων μπορεί να κοστίσει στις επιχειρήσεις περίπου 7.900 $ ανά λεπτό. Στην πραγματικότητα, το 93% των εταιρειών με διακοπή λειτουργίας κέντρων δεδομένων για 10 ημέρες ή περισσότερες χρεοκόπησαν μέσα σε ένα χρόνο και το 40% κατέρρευσε αμέσως. Και μια άλλη μελέτη 41 κέντρων δεδομένων που αξιολογήθηκαν διαπίστωσε ότι το μέσο κόστος των απρογραμμάτιστων διακοπών περιελάμβανε περισσότερα από 179 χιλιάδες δολάρια σε διακοπή επιχείρησης, περίπου 118 χιλιάδες δολάρια σε χαμένα έσοδα και περίπου 42 χιλιάδες δολάρια σε παραγωγικότητα. Εάν οι διαχειριστές κέντρων δεδομένων απλώς επικεντρώνονταν περισσότερο στην έρευνα και τη διόρθωση των κύριων αιτιών των κοινών σφαλμάτων, θα μείωναν σημαντικά τους πιθανούς κινδύνους.

Το πρόβλημα είναι ότι πολλοί χειριστές και χειριστές κέντρων δεδομένων συχνά εστιάζουν περισσότερο στην ανάπτυξη και τα έσοδα αντί να διατηρούν και να ενισχύουν αυτό που υπάρχει ήδη. Εάν δώσετε προσοχή στους διαχειριστές σε πολλά δημόσια και ιδιωτικά κέντρα δεδομένων σήμερα, θα δείτε ότι ασχολούνται σχεδόν αποκλειστικά με την αύξηση της χωρητικότητας αποθήκευσης, την αύξηση της πυκνότητας των διακομιστών και την αύξηση της πυκνότητας των διακομιστών. συστήματα ψύξης, για παράδειγμα. Ενώ όλα αυτά είναι εξαιρετικά, χρειάζονται πολύ και δείχνουν απίστευτη ανάπτυξη στον κλάδο αποθήκευσης δεδομένων, δείχνουν επίσης γιατί τα κέντρα δεδομένων αποτυγχάνουν. Συμβαίνει όλο και πιο συχνά.
Σε αυτό το άρθρο, θα διερευνήσουμε τους συνήθεις λόγους για τους οποίους είναι απενεργοποιημένα τα κέντρα δεδομένων και θα επισημάνουμε τι μπορούν να κάνουν οι διαχειριστές για να τα ελαχιστοποιήσουν ή ακόμα και να τα εξαλείψουν. να επιλύσουμε πλήρως αυτά τα προβλήματα, καθώς και να βελτιώσουμε τη σταθερότητα του συστήματός σας.
Λόγοι που οδηγούν σε κατάρρευση του Κέντρου Δεδομένων
Σφάλμα που προκαλείται από ανθρώπους
Αυτές είναι οι απλούστερες αιτίες και επίσης μία από τις πιο δύσκολες να αποφευχθούν. Με απλά λόγια, ο καθένας μπορεί να κάνει λάθη. Με το 22% των διακοπών να προκαλούνται από ανθρώπινο λάθος, αυτή η αιτία αξίζει να εξεταστεί προσεκτικά και, κυρίως, μπορεί να αποφευχθεί σχετικά εύκολα.
Λανθασμένη εξουσιοδότηση συστήματος

Στην πραγματικότητα, πολύ λίγοι διαχειριστές έχουν πλήρη και απεριόριστη πρόσβαση σε όλα τα συστήματα σε ένα κέντρο δεδομένων. Αντί να παραχωρείται αυτή η άδεια σε περισσότερα άτομα, η πρόσβαση πρέπει να γίνεται αυστηρά. Διαφορετικά, είναι απολύτως πιθανό να προκύψει σοβαρό σφάλμα στο σύστημα. Για παράδειγμα, στο περιστατικό Joyent το 2014, ένας έμπειρος διαχειριστής έκανε κατά λάθος επανεκκίνηση όλων των εικονικών μηχανών στο ανατολικό κέντρο δεδομένων της εταιρείας με λίγα μόνο κλικ.
Κακές διαδικασίες δημιουργίας αντιγράφων ασφαλείας

Όταν σχεδιάζετε εργασίες συντήρησης, ένα σημαντικό αλλά συχνά ξεχασμένο βήμα είναι η διαδικασία δημιουργίας αντιγράφων ασφαλείας. Συχνά, οι διαδικασίες τεκμηριώνονται αλλά δεν εξετάζονται διεξοδικά και πολλές φορές τα πράγματα δεν αποκαθίστανται πλήρως στην αρχική τους μορφή μετά τη συντήρηση.
Κάνοντας πάρα πολλές αλλαγές

Κατά τη διάρκεια της συντήρησης, εάν ένας διαχειριστής προσπαθήσει να κάνει πάρα πολλές αλλαγές ταυτόχρονα, αυτό μπορεί να προκαλέσει προβλήματα. Πρώτον, οι διαχειριστές έχουν συχνά βιαστική νοοτροπία επειδή πρέπει να ολοκληρώσουν μεγάλο αριθμό εργασιών σε σύντομο χρονικό διάστημα, κάτι που συχνά οδηγεί σε λάθη. Δεύτερον, επειδή τόσες πολλές αλλαγές συμβαίνουν στο ίδιο χρονικό πλαίσιο, καθιστά την αντιμετώπιση προβλημάτων μετά την αλλαγή πολύ πιο δύσκολη εργασία.
Χαλαρότητα στη διαχείριση ανθρώπινου δυναμικού

Ακούγεται λίγο σκληρό, αλλά οι εργαζόμενοι πρέπει να γνωρίζουν πώς να ακολουθούν αυστηρά τους κανόνες στο κέντρο και πρέπει να είναι αυστηρά πειθαρχημένοι όταν τους παραβιάζουν. Για παράδειγμα, κανένα κέντρο δεδομένων δεν επιτρέπει στους υπαλλήλους να τρώνε ή να πίνουν ενώ βρίσκονται στην εργασία τους ή οι διακόπτες έκτακτης ανάγκης πρέπει να φέρουν σαφή σήμανση και να ασφαλίζονται. Αυτά τα πράγματα μπορεί να φαίνονται μικρά, αλλά μπορεί να οδηγήσουν σε μεγάλα περιστατικά, επομένως φροντίστε να τηρούνται πάντα αυστηρά οι κανόνες.
Σφάλμα συστήματος
Η εφεδρική ισχύς δεν είναι εγγυημένη, ο εξοπλισμός είναι παλιός ή εσφαλμένη διαμόρφωση.

Ο πιο συνηθισμένος λόγος που ένα κέντρο δεδομένων πέφτει εκτός λειτουργίας είναι λόγω διακοπής ρεύματος. Διακοπές ρεύματος μπορεί να συμβούν ανά πάσα στιγμή. Επομένως, τα κέντρα δεδομένων έχουν σχεδιαστεί με εφεδρικές πηγές ενέργειας σε περίπτωση που διακοπεί η κύρια τροφοδοσία. Συχνά χρησιμοποιούνται μπαταρίες ή συστήματα γεννήτριας ως εφεδρική ισχύς. Το πρόβλημα είναι ότι η μπαταρία μπορεί να μην αντικατασταθεί εγκαίρως, η γεννήτρια μπορεί να μην επιθεωρηθεί και να συντηρηθεί, με αποτέλεσμα να υπάρχουν προβλήματα όταν συμβεί διακοπή ρεύματος. Όλα αυτά σημαίνουν ότι οι δυνατότητες δημιουργίας αντιγράφων ασφαλείας ενδέχεται να μην είναι διαθέσιμες όταν τις χρειάζεστε περισσότερο.
Σε περίπτωση διακοπής ρεύματος, τα συστήματα UPS χρησιμοποιούν μπαταρίες ως εφεδρική ισχύ, γεγονός που τις καθιστά ουσιαστικό μέρος της διατήρησης του χρόνου λειτουργίας για τα κέντρα δεδομένων. Ωστόσο, η μπαταρία δεν λειτουργεί πάντα καλά. Εκτελέστε συντήρηση που συνιστώνται από τους ίδιους τους κατασκευαστές για να ελέγξετε την υγεία της μπαταρίας. Τουλάχιστον ανά τρίμηνο, οι μπαταρίες θα πρέπει να ελέγχονται για σωστή εγκατάσταση, αποφόρτιση και φόρτιση. Αυτό περιλαμβάνει οπτικές επιθεωρήσεις, ελέγχους χωρητικότητας και τακτική παρακολούθηση μέσω λογισμικού ή του ίδιου του προμηθευτή της UPS.
Επιπλέον, οι υψηλές θερμοκρασίες μπορούν να μειώσουν τη διάρκεια ζωής της μπαταρίας του συστήματος. Η κατασκευή ενός αποκλειστικού δωματίου UPS μπορεί να βοηθήσει στη μείωση της φθοράς στη διάρκεια ζωής της μπαταρίας. Θα πρέπει επίσης να αποφεύγετε την συχνή αποφόρτιση της μπαταρίας και να προσέχετε καλά τις χαλαρές συνδέσεις ή τις φθαρμένες συνδέσεις. Με λίγα λόγια, το UPS είναι ένα ιδιαίτερα σημαντικό σύστημα, απαιτεί λογική σχεδίαση, σωστή χρήση και αυστηρή συντήρηση.
Δυσλειτουργία στο σύστημα ψύξης

Τα μηχανικά συστήματα σε ένα κέντρο δεδομένων καταναλώνουν πολλή ηλεκτρική ενέργεια, πράγμα που σημαίνει ότι εκπέμπουν μεγάλη ποσότητα θερμότητας κατά τη λειτουργία. Ένα κέντρο δεδομένων μπορεί να γίνει κρεματόριο μετά από ένα ��επτό λειτουργίας. Γι' αυτό το σύστημα ψύξης είναι τόσο σημαντικό. Και ακόμα κι αν έχετε ανάγνωση αισθητήρων θερμοκρασίας και ειδοποιήσεις που αποστέλλονται στους διαχειριστές, πρέπει να είστε σίγουροι ότι έχετε αρκετό χρόνο για να εφαρμόσετε τις εφεδρικές διαδικασίες ψύξης του κέντρου πριν λιώσουν όλα. τρέξτε».
Επιπλέον, πολλά συστήματα ψύξης δεν είναι πραγματικά σχεδιασμένα για να συμβαδίζουν με τα αυξημένα επίπεδα θερμότητας σε ένα σύγχρονο κέντρο δεδομένων υψηλής χωρητικότητας. Και πάλι, η χαρτογράφηση καταστάσεων όπου το κέντρο δεδομένων σας λειτουργεί με 100% χωρητικότητα μπορεί να βοηθήσει στον σχεδιασμό για καλύτερα συστήματα ψύξης στο μέλλον. Η εγκατάσταση συστημάτων προειδοποίησης για τις διακυμάνσεις της θερμοκρασίας του συστήματος είναι επίσης απαραίτητη. Μπορείτε να χρησιμοποιήσετε κάποιο λογισμικό θερμικής μοντελοποίησης και ορισμένα συστήματα DCIM. Επιπλέον, τα χημικά ψυκτικά είναι μια καλύτερη επιλογή από τα συστήματα με βάση το νερό.
Η διαδικασία αυτόματης μετατροπής δεν λειτουργεί σωστά

Οι περισσότεροι πάροχοι υπηρεσιών και οργανισμοί και επιχειρήσεις διαθέτουν εφεδρικά κέντρα δεδομένων που χρησιμοποιούνται για κέντρα δεδομένων παραγωγής. Σε περίπτωση διακοπής ρεύματος στο κύριο κέντρο δεδομένων, το εφεδρικό κέντρο δεδομένων θα ξεκινήσει αυτόματα και όλη η κίνηση θα δρομολογηθεί στη συγκεκριμένη εγκατάσταση δημιουργίας αντιγράφων ασφαλείας. Εάν γίνει σωστά, η διαδικασία θα πρέπει να είναι απρόσκοπτη μέχρι τον τελικό χρήστη. Δυστυχώς, οι αυτόματες αποτυχίες συχνά δεν λειτουργούν όπως αναμένεται. Η συνήθης αιτία για αυτό το πρόβλημα είναι η έλλειψη τακτικών δοκιμών. Ακόμη και μικρές αλλαγές στην υποδομή παραγωγής μπορούν να έχουν μεγάλο αντίκτυπο στην αυτοματοποιημένη ανακατεύθυνση. Επομένως, κατά την πραγματοποίηση οποιωνδήποτε αλλαγών στην υποδομή, οι διαδικασίες αυτοματοποιημένης ανακατεύθυνσης θα πρέπει να ελέγχονται για να διασφαλιστεί ότι τίποτα δεν έχει παρεκκλίνει από τη διαδικασία.
Ξεπερασμένο υλικό

Όλο το υλικό κάθε συστήματος έχει μια συγκεκριμένη διάρκεια ζωής. Και όσο περισσότερο χρησιμοποιείτε ένα κομμάτι υλικού, τόσο πιο πιθανό είναι να αντιμετωπίσετε προβλήματα. Όλοι το γνωρίζουν αυτό, αλλά είναι σύνηθες φαινόμενο μια σημαντική εφαρμογή να κολλάει μόνο και μόνο επειδή εκτελείται σε υλικό 10 ετών. Αυτά τα προβλήματα συχνά προκύπτουν λόγω έλλειψης ολοκληρωμένων σχεδίων αντικατάστασης και αναβάθμισης για νέες πλατφόρμες υλικού ή λογισμικού ή λόγω έλλειψης προϋπολογισμού. Αν είναι θέμα χρημάτων, δεν μπορείς να κάνεις τίποτα. Αλλά αν προσπαθήσετε απλώς να επωφεληθείτε όσο το δυνατόν περισσότερο, ένα πρόβλημα μπορεί να συμβεί ανά πάσα στιγμή, και όταν συμβεί, η ζημιά που προκαλείται από το πρόβλημα μπορεί να είναι πολύ μεγαλύτερη.
Το σύστημα πυρόσβεσης έχει πρόβλημα με διαρροή νερού

Τα περισσότερα σύγχρονα κέντρα δεδομένων χρησιμοποιούν συστήματα πυροπροστασίας χωρίς νερό, έτσι ώστε να μην καταστρέφουν τον εξοπλισμό εάν ενεργοποιηθεί σκόπιμα ή κατά λάθος. Ωστόσο, πολλές παλαιότερες εγκαταστάσεις εξακολουθούν να χρησιμοποιούν παραδοσιακά συστήματα πυροπροστασίας στα κέντρα δεδομένων τους. Πολλές διαρροές νερού έχουν προκαλέσει μεγάλες διακοπές λειτουργίας.
Η απενεργοποίηση έκτακτης ανάγκης ενεργοποιείται κατά λάθος

Το υψηλό επίπεδο φυσικής ασφάλειας που υπάρχει στα περισσότερα κέντρα δεδομένων δεν αποθαρρύνει απλώς τους κλέφτες. Είναι επίσης σε θέση να αποφύγουν τους υπαλλήλους που δεν καταλαβαίνουν πώς λειτουργεί ένα κέντρο δεδομένων. Για παράδειγμα, ένας διαχειριστής εφαρμογής μπαίνει στο κέντρο δεδομένων και ενεργοποιεί κατά λάθος μια απενεργοποίηση έκτακτης ανάγκης (EPO). Το EPO είναι ένα μεγάλο κόκκινο κουμπί, υπεύθυνο για τη διακοπή ρεύματος σε ολόκληρο το σύστημα. Και προφανώς, για όσους δεν καταλαβαίνουν ή δεν έχουν εμπειρία, μια τέτοια σύγχυση είναι απολύτως δυνατή.
Υπό κυβερνοεπίθεση, ddos

Με τα χρόνια, οι επιθέσεις στον κυβερνοχώρο έχουν γίνει μία από τις κύριες αιτίες αστοχιών των κέντρων δεδομένων, από μόλις 2% το 2010 σε 22% το 2016. Χειριστές Τα κέντρα δεδομένων πρέπει να αναλάβουν δράση για τη δημιουργία συστημάτων για τον έγκαιρο εντοπισμό και τον μετριασ��ό των κινδύνων επιθέσεων.
Τα κέντρα δεδομένων είναι δύσκολο να αμυνθούν έναντι μιας μεγάλης κλίμακας επίθεσης DDoS . Οι περισσότεροι ISP παρέχουν κάποια προστασία στα επίπεδα 3 και 4 του δικτύου, αλλά οι υπηρεσίες σας χρειάζονται πρόσθετη προστασία στο επίπεδο 7, το οποίο μπορεί να στοχευτεί ειδικά μέσω HTTP GET ή κλήσεων παρόμοιας επίθεσης. Υπηρεσίες μετριασμού όπως τείχη προστασίας, IPS/IDS και DDoS μπορούν να συνδυαστούν για να αναδρομολογήσουν την κυκλοφορία.
Φυσική καταστροφή
Η πρόσφατη αύξηση των καταιγίδων και των πλημμυρών μπορεί να προκαλέσει σημαντική αναστάτωση στα κέντρα δεδομένων. Περισσότερες από 250 φυσικές καταστροφές σημειώθηκαν το 2010 στις Ηνωμένες Πολιτείες. Σύμφωνα με στατιστικά στοιχεία, η πολιτεία του Νιου Τζέρσεϊ των ΗΠΑ υπέστη ζημίες 63,9 δισεκατομμυρίων δολαρίων λόγω διακοπής των εργασιών που προκλήθηκε από την υπερκαταιγίδα Sandy το 2012.
Βήματα για τον περιορισμό των ζημιών που προκαλούνται από περιστατικά "κατάρρευσης" του κέντρου δεδομένων
Εάν ο χρόνος διακοπής λειτουργίας για την τακτική συντήρηση προγραμματιστεί προσεκτικά και οι πελάτες προειδοποιηθούν εκ των προτέρων σχετικά με το χρόνο διακοπής λειτουργίας του κέντρου, ειδικά κατά τη διάρκεια μιας περιόδου χαμηλής επισκεψιμότητας, οι πελάτες θα είναι πιο συμπαθητικοί και οι ζημιές θα μειωθούν σημαντικά. Η μεγαλύτερη ζημιά συμβαίνει όταν συμβαίνει απροσδόκητα, και ειδικά όταν διαρκεί πολύ και προκύπτουν επιπλέον προβλήματα. Διατηρήστε σταθερό το σύστημα πόρων ολόκληρης της εταιρείας, ώστε οι εργαζόμενοι να μπορούν να κάνουν τη δουλειά τους αποτελεσματικά, μειώνοντας την επιβάρυνση των τμημάτων πληροφορικής.
ΕΙΔΙΚΑ:
- Δημιουργήστε αντίγραφα ασφαλείας των δεδομένων σας: Σε περίπτωση που αντιμετωπίσετε διακοπή λειτουργίας του κέντρου δεδομένων, τα δεδομένα σας (και το πιο σημαντικό, τα δεδομένα των πελατών σας) θα πρέπει να είναι έτοιμα όταν ξεκινήσετε. Ξεκινήστε την αντιμετώπιση προβλημάτων και εκτελέστε ξανά. Η τακτική δημιουργία αντιγράφων ασφαλείας περιορίζει τον κίνδυνο μιας πραγματικής κατάρρευσης. Εάν η εταιρεία σας μπορεί να το αντέξει οικονομικά, ορισμένα προϊόντα όπως η σειρά προϊόντων VPLEX της EMC ή το λογισμικό Backup and Replication της VEEAM μπορούν να βοηθήσουν στην ελαχιστοποίηση του χρόνου διακοπής λειτουργίας με αυτόματη εναλλαγή σε τοποθεσία.
- Διατηρήστε τακτική παρακολούθηση του συστήματος διακομιστή: Η παρακολούθηση είναι μια υπηρεσία που μπορείτε να εκτελείτε τακτικά και συνήθως δεν κοστίζει πάρα πολύ. Μια υπηρεσία παρακολούθησης τρίτου μέρους σας ειδοποιεί για πιθανούς χρόνους διακοπής λειτουργίας διακομιστή, ώστε να μπορείτε να επιλύσετε το πρόβλημα αμέσως.
- Ελαχιστοποιήστε το ανθρώπινο λάθος: Να είστε προσεκτικοί όταν εργάζεστε ή περπατάτε γύρω από συστήματα διακομιστών ή ηλεκτρικές καλωδιώσεις για να αποφύγετε να τα καταστρέψετε κατά λάθος ή απλώς μην αγγίζετε μυστηριώδεις διακόπτες χωρίς την εξειδίκευσή σας. Κρατήστε τα υγρά μακριά από μηχανικά συστήματα. Καλέστε έναν ειδικό προστασίας δεδομένων κάθε φορά που ένας διακομιστής χρειάζεται αναβάθμιση ή συντήρηση και συμμορφωθείτε με τους κανόνες του κέντρου.
Κάθε κέντρο δεδομένων, από μικρά κέντρα έως εγκαταστάσεις και παρόχους υπηρεσιών σε επιχειρηματική κλίμακα, πρέπει να προσπαθεί 100% να παρέχει αξιόπιστες υπηρεσίες στους χρήστες. Αφιερώνοντας χρόνο για να σχεδιάσετε το μέλλον, ακολουθώντας τις αρχές συντήρησης και ανθρώπινων παραγόντων, το κέντρο δεδομένων σας μπορεί να αποφύγει μερικές από τις πιο κοινές αιτίες βλάβης.
δείτε περισσότερα