W centrum danych nie ma miejsca na przestoje. Potrzebne są więc rozwiązania, które zapewnią ciągłość działania. Jednym z problemów są awarie sprzętu, które – w wielu przypadkach – można przewidzieć, analizując dane zbierane przez czujniki mierzące różne parametry pracy sprzętu.

Typowe wyzwanie w centrum danych polega na tym, że użytkownik oczekuje stałej dostępności systemów. Tymczasem nieodłączną cechą komponentów sprzętowych jest to, że się psują. Dlatego stosuje się rozwiązania, takie jak np. redundancja czy możliwość wymiany niektórych komponentów bez przerywania pracy całego urządzenia (hot swap). W ten sposób ogranicza się ryzyko awarii całego systemu. Pojedyncze komponenty wciąż jednak mogą się zepsuć. Prewencyjne prace konserwacyjne również nie zapobiegną w 100% awariom spowodowanym np. wewnętrznymi błędami lub wyładowaniami elektrycznymi. Tymczasem awarie mogą być bardzo kosztowne dla użytkownika. Poza tym wprowadzanie wspomnianych mechanizmów redundancji oznacza dodatkowe nakłady, na które nie każda firma może sobie pozwolić. Dlatego w przypadku urządzeń, których nieprzerwane działanie ma krytyczne znaczenie, potrzebne są dodatkowe metody zapobiegające skutkom awarii.

Rozwiązania umiejące wykryć symptomy awarii

Jeśli wystąpienie awarii dałoby się przewidzieć, można zawczasu podjąć właściwe środki zaradcze. Niestety sprzęt IT – klimatyzacja czy elementy systemu zasilania – mogą zepsuć się bez wcześniejszych objawów, a takie sygnały, jak zwiększony poziom wibracji, podwyższona temperatura czy problemy z napięciem często pozostają niezauważone podczas rutynowych operacji. Niekiedy jednak informacje o wyposażeniu centrum danych umożliwiają określenie kondycji poszczególnych komponentów. Poprawne zinterpretowanie tych ukrytych sygnałów może wskazać na naturę problemu oraz miejsce jego wystąpienia. Wykrycie w odpowiednim czasie potencjalnych problemów umożliwia uniknięcie poważnej awarii.

Większość urządzeń w centrum danych, m.in. serwery czy elementy infrastruktury, są wyposażone w czujniki monitorujące pracę sprzętu i oprogramowania. Prace badawcze prowadzone przez specjalistów wykazały, że dane zbierane przez te czujniki można z powodzeniem wykorzystać do przewidywania wystąpienia awarii. Algorytmy analityczne są w stanie wykryć wszelkie anomalie, które wskazują na zbliżającą się usterkę. Współczynnik wykrywania problemów jest wówczas wysoki, a udział fałszywych alarmów (typu false positive) niewielki.

Jeśli awarii nie można zapobiec, urządzenie lub komponent trzeba naprawić lub wymienić. Jeśli problem nie ma negatywnego wpływu na wydajność, naprawę można opóźnić do momentu, kiedy jej przeprowadzenie nie spowoduje przestoju. Dodatkowym elementem decyzyjnym jest określenie, jakie znaczenie dany obiekt ma dla zachowania ciągłości działania. Im jest on ważniejszy, tym większy wysiłek należy podjąć dla zachowania ciągłości jego działania. Przykładowo, najważniejsze urządzenia, które muszą pracować niezawodnie, można monitorować w trybie ciągłym pod kątem występowania drgań. Natomiast na urządzeniach o mniejszym znaczeniu dane dotyczące wibracji mogą być zbierane rzadziej.

Dane zbierane przez czujniki są przechowywane i analizowane, aby przewidywać, kiedy może wystąpić problem. Mając taką wiedzę, można planować prace naprawcze i konserwacyjne wtedy, kiedy to konieczne, zanim problem stanie się na tyle poważny, że będzie oddziaływać negatywnie na wydajność. W ten sposób nie tylko zwiększa się efektywność prac konserwacyjnych, ale również obniża koszty napraw i nieplanowanych przestojów. Monitorowanie stanu urządzeń w centrum danych znacznie obniża ryzyko wystąpienia przerw w działaniu systemów IT.

Wykorzystanie czujników do analizy stanu sprzętu IT

Wprawdzie w centrach danych stosuje się techniki, dzięki którym sprzętowa awaria dysku twardego nie powoduje negatywnych skutków (np. konfiguracje RAID), ale lepiej nie kusić losu. Najczęściej napęd nie ulega natychmiastowej awarii. Jego mechaniczne elementy, np. łożysko, stopniowo się zużywają. Dlatego zawczasu można wykryć oznaki nadchodzącego uszkodzenia. Wykorzystuje się do tego wyniki różnych pomiarów, m.in. czas potrzebny silnikowi na rozpędzenie dysku do wymaganej prędkości obrotowej. Służy do tego wspomniana wyżej technologia SMART (Self-Monitoring Analysis and Reporting Technology), dzięki której zaraz po pojawieniu się pierwszych objawów uszkodzenia napędu można przewidzieć nadchodzącą awarię. Jest to wbudowana w twardy dysk elektronika, która monitoruje i rejestruje wiele ważnych parametrów. Odpowiednie narzędzia potrafią odczytać informacje, zbierane przez te czujniki.

Przykładem jest analiza wibracji. Jest ona nieinwazyjną technologią, polegającą na podłączeniu do urządzenia analizatora widma rejestrującego charakterystykę drgań. W ten sposób można zdiagnozować szereg defektów obrotowych komponentów w centrum danych (np. wentylatorów). W odpowiednie urządzenia pomiarowe można wyposażyć osoby odpowiedzialne za centrum danych, a na podstawie zebranych informacji generować raporty zawierające rekomendacje dotyczące napraw.

Termografia w podczerwieni jest równie efektywną metodą wykrywania potencjalnych problemów, zanim dojdzie do faktycznej awarii. Zastosowanie tej technologii w centrum danych może przynieść istotne korzyści, m.in. od strony zapewnienia ciągłości działania. Umożliwia ona zidentyfikowanie nietypowych wzrostów temperatury urządzeń w centrum danych, które mogą być objawem: utraty połączeń lub problemów z połączeniami, niezrównoważonych ładunków elektrycznych, czy też uszkodzenia komponentów. Zaletą stosowania termografii jest możliwość zidentyfikowania problemów, zanim będą miały negatywny wpływ na funkcjonowanie centrum danych. Jeśli zadziała wyłącznik, sprzęt zostanie uchroniony przed awarią, ale jednocześnie dojdzie do przestoju, który może mieć poważne konsekwencje.

Podziel się na:
  • Facebook
  • Google Bookmarks
  • LinkedIn