Tendencje uszkodzeń dysków

Reading Time: 25 minutes

Uszkodzenia w dużych populacjach dysków.

Szacuje się, że ponad 90% wszystkich nowych informacji produkowanych na świecie jest przechowywanych na nośnikach magnetycznych, większość jest na dyskach twardych. Pomimo ich znaczenia, stosunkowo mało opublikowanych prac na temat awarii dysków i kluczowych czynników wpływających na ich życie. Większość dostępnych danych jest albo oparta na ekstrapolacji z przyspieszonych doświadczeń starzenia się, czy też w stosunkowo niewielkich badaniach terenowych.

Ponadto, większe badania populacji dysków rzadko dysponują infrastrukturą w celu zebrania sygnałów zdrowotnych pochodzących z elementów eksploatacyjnych, co stanowi kluczowe informacje dla szczegółowej analizy awarii.

Prezentujemy dane zebrane od szczegółowych obserwacji dużej populacji dysków w produkującym usługach internetowych. Obserwowana populacja jest wielokrotnie większa niż obserwowana w poprzednich badaniach. Oprócz przedstawienia statystyk dotyczących niepowodzeń, analizujemy korelację między awariami a kilkoma parametrami, które generalnie uważamy za wpływające na długowieczność.

Nasza analiza identyfikuje kilka parametrów z własnego obiektu monitorującego napęd (SMART), które koreluje bardzo z awariami. Pomimo tej wysokiej korelacji wnioskujemy, że modele oparte na samych parametrach SMART są mało prawdopodobne, aby były przydatne do przewidywania awarii poszczególnych dysków. Nieoczekiwanie stwierdziliśmy, że poziomy temperatury i aktywności były znacznie skorelowane z błędami napędu niż wcześniej zgłoszono.

Wprowadzenie

Ogromne postępy w zakresie tanich napędów magnetycznych o dużej pojemności to jeden z głównych czynników pomagających w tworzeniu nowoczesnego społeczeństwa, które jest głęboko zależne od technologii informatycznych. Wielo woluminowe dyski twarde dla konsumentów stały się tak skutecznym produktem, że ich wdrożenia obejmują zarówno domowe komputery, jak i urządzenia dla dużych farm serwerów. W 2002 r. Szacowano, że ponad 90% wszystkich nowych informacji było przechowywanych na nośnikach magnetycznych, z czego większość to dyski twarde. Dlatego kluczowe znaczenie ma lepsze zrozumienie, jak silne są te składniki oraz jakie główne czynniki są związane z porażkami. Takie zrozumienie może być szczególnie użyteczne przy prowadzeniu projektowania systemów magazynowania, a także opracowywaniu strategii wdrażania i konserwacji.

Pomimo znaczenia przedmiotu, jest niewiele opublikowanych badań dotyczących charakterystyk awarii dysków. Większość dostępnych informacji pochodzi od samych producentów dysków. Ich dane opierają się zwykle na ekstrapolacji z przyspieszonych danych z badań na małą populację lub ze zwróconych jednostkowych baz danych. Przyspieszone testy żywotności, chociaż są przydatne w dostarczaniu wiedzy na temat wpływu niektórych czynników środowiskowych na żywotność dysku, były słabo przewidywanymi rzeczywistymi wskaźnikami awaryjności, jakie widzą klienci w tej dziedzinie. Statystyki pochodzące ze zwracanych dysków zazwyczaj opierają się na znacznie większych populacjach, ale w związku z niewystarczającą widocznością charakterystyk rozmieszczania, analiza nie zawiera cennych informacji na temat tego, co działo się z napędem podczas pracy. Ponadto, ponieważ jednostki są zazwyczaj zwracane w okresie gwarancyjnym (często trzy lata lub krócej), bazy danych producentów mogą nie być tak pomocne dla badania długoterminowych efektów.

Kilka ostatnich badań rzuciło pewne światło na zachowań behawioralnych uszkodzeń dysków. Badania te wykazały jednak stosunkowo niewielkie populacje lub nie monitorowały wystarczająco dużo dysków podczas rozmieszczania, aby uzyskać informacje na temat czynników, które mogą wiązać się z awariami. Napędy dysków są na ogół bardzo niezawodne, ale są też bardzo złożonymi komponentami. To połączenie oznacza, że chociaż rzadko się nie spisują, to gdy się uszkodzą, możliwe przyczyny niepowodzenia mogą być liczne. W rezultacie szczegółowe badania nad bardzo dużą populacją są jedynym sposobem na zebranie wystarczających statystyk dotyczących niepowodzenia, aby umożliwić znaczące wnioski. W niniejszym artykule przedstawiamy takie badanie, badając populację dysków twardych w trakcie wdrażania w infrastrukturze informatycznej Google. Opracowaliśmy infrastrukturę zbierającą najważniejsze informacje o wszystkich systemach Google co kilka minut i repozytorium, które przechowuje te dane w formacie czasowym (zasadniczo na zawsze) w celu dalszej analizy.
Zbierane informacje obejmują czynniki środowiskowe (takie jak temperatura), poziomy aktywności i wiele parametrów SMART (Self-Monitoring Monitoring and Reporting Technology), które uważane są za dobre wskaźniki stanu dysku. Kopiujemy te dane i próbujemy znaleźć dowody, które potwierdzają lub są sprzeczne z wieloma powszechnie uważanymi przekonaniami o tym, jak różne czynniki mogą wpływać na żywotność dysku. Nasz dokument jest unikalny, ponieważ opiera się na danych pochodzących z rozmiaru populacji dysków, który jest zazwyczaj dostępny tylko w bazach danych gwarancyjnych producenta, ale ma głębię widoczności wdrażania i szczegółowe obserwacje, które mogą dostarczyć tylko badania końcowego użytkownika.

Nasze kluczowe odkrycia to:

  • W przeciwieństwie do poprzednio zgłoszonych wyników stwierdziliśmy bardzo małą korelację między szybkością awaryjności a podwyższoną temperaturą lub poziomem aktywności. 
  • Niektóre parametry SMART (błędy skanowania, liczniki ponownego przydziału – realokacji, realokacji offline i liczenia probacji) mają duży wpływ na prawdopodobieństwo awarii. 
  • Biorąc pod uwagę brak występowania predykcyjnych sygnałów SMART na dużej części uszkodzonych napędów, jest mało prawdopodobne, aby na podstawie tych samych sygnałów można było zbudować dokładny model predykcyjnego uszkodzenia. 

Tło 

W tej części opisujemy infrastrukturę wykorzystywaną do gromadzenia i przetwarzania danych używanych w tym badaniu, typach dysków włączonych do analizy oraz informacjach na temat ich wdrażania. 

Infrastruktura systemu zdrowia (System Health)

 Infrastruktura systemu zdrowia (System Health)Infrastruktura Systemu Zdrowia (System Health) to duży, rozproszony system oprogramowania, który gromadzi i przechowuje setki par wartości atrybutów z wszystkich serwerów Google i udostępnia interfejs dowolnych zadań analizy, które mogą przetwarzać te dane. 

Architekturę infrastruktury System Health przedstawiono na rysunku 1. Składa się on z warstwy zbierania danych, rozproszonego repozytorium i oprogramowania analizującego. Warstwa zbierania jest odpowiedzialna za pobieranie informacji z każdego tysiąca pojedynczych serwerów do scentralizowanego repozytorium. Różne rodzaje algorytmów zbierania przeznaczone są do różnych rodzajów danych. Większość informacji o zdrowiu pochodzi bezpośrednio z maszyn. Demon uruchamia się na każdej maszynie i gromadzi dane lokalne związane z jego stanem, takie jak parametry środowiskowe, informacje o wykorzystaniu różnych zasobów, wskazania błędów i informacje o konfiguracji. Konieczne jest, aby wykorzystanie tego demona było bardzo lekkie, tak by nie ingerować w aplikacje. Jednym ze sposobów na to jest zapewnienie, aby kolektor poziomu zbierał pojedyncze maszyny w stosunkowo rzadko (co kilka minut). Inne rzadziej zmieniające się dane (takie jak informacje o konfiguracji) oraz dane z innych istniejących baz danych można zbierać nawet rzadziej niż te. W szczególności w tym badaniu dane z naprawy maszyn i zamykanie dysków są pobierane z innej bazy danych.
Baza danych System Health oparta jest na Bigtable, rozproszonym repozytorium danych powszechnie używanym w Google, który jest zbudowany w systemie plików Google (GFS). Bigtable zajmuje się wszystkimi układami danych, kompresją i dostępem do zasobów związanych z dużym magazynem danych. Przedstawia abstrakcję 2-wymiarowej tablicy komórek danych, z różnymi wersjami w czasie tworzącym trzeci wymiar. Jest to naturalne dopasowanie do śledzenia wartości różnych zmiennych (kolumn) dla różnych maszyn (wierszy) w czasie. Baza danych Health System zachowuje w ten sposób kompletną historię środowiska, wykorzystania, błędów, konfiguracji i napraw w każdym komputerze.
Programy analizy działają na bazie przeglądając informacje z pojedynczych komputerów lub wydobywając dane na tysiącach maszyn. Programy te na dużą skalę są zazwyczaj tworzone w ramach Google Mapreduce. Mapreduce automatyzuje mechanizmy obliczania rozproszonego na dużą skalę (np. dystrybucja pracy, równoważenie obciążenia, tolerancja błędów), pozwalając użytkownikowi skupić się tylko na algorytmach stanowiących podstawę obliczeń. Rurociąg analityczny wykorzystywany w tym badaniu składa się z zadania Mapreduce napisanego w języku Sawzall w celu wyodrębnienia i oczyszczania okresowych danych SMART oraz naprawiania danych związanych z dyskami, a następnie przechodzenia przez R (jest to projekt statystyk dla komputerów) w celu analizy statystycznej i ostatecznego generowania wykresów.

Szczegóły dotyczące wdrażania

Dane z tego badania są zbierane z dużej liczby dysków, wdrażanych w kilku typach systemów we wszystkich usługach Google. Do wszystkich przedstawionych tu wyników wykorzystano ponad sto tysięcy dysków. Dyski są kombinacją równoległych dysków twardych ATA o standardowej jakości, z szybkością od 5400 do 7200 obr./min, a rozmiarach od 80 do 400 GB. Wszystkie jednostki w tym badaniu zostały wprowadzone do produkcji w 2001 roku lub później. Populacja zawiera kilka modeli pochodzących od wielu największych producentów dysków i co najmniej dziewięć różnych modeli. Dane wykorzystane do tego badania zostały zebrane między grudniem 2005 a sierpniem 2006.
Podobnie jak w przypadku wdrożeń klasy serwerów, dyski miały włączane zasilanie, startowały i ogólnie testowane zasadniczo w ciągu całego ich zarejestrowanego życia. Zostały one zainstalowane na serwerach rack i znajdowały się w profesjonalnie zarządzanych centrach danych.
Przed wprowadzeniem do produkcji wszystkie napędy dysków przechodzą przez krótki proces tzw. wygrzewania, który składa się z kombinacji testów warunkujących skrajnie stresowe odczyty i zapisy, mających na celu złapanie wielu najczęstszych problemów związanych z montażem, konfiguracją lub komponentem. Przedstawione tutaj dane nie obejmują spadku z tej fazy, ale zamiast tego zaczynają się, gdy systemy są oficjalnie uruchamiane do użytku. Dlatego też nasze dane powinny być spójne z tym, co normalny użytkownik końcowy powinien widzieć, ponieważ większość producentów sprzętu wprowadza swoje systemy do podobnych testów przed wysyłką.

Przygotowanie danych

Definicja awarii. Wąska definicja tego, co stanowi uszkodzenie, jest trudnym zadaniem w tak dużej operacji. Producenci i użytkownicy końcowi często widzą różne statystyki podczas awarii komputera, ponieważ używają różnych definicji. Podczas gdy producenci napędów często cytują roczne współczynniki awaryjności poniżej 2%, badania użytkowników wykazały stopy aż 6%. Elerath i Shah twierdzą, że od 15 do 60% dysków uważanych za uszkodzone w witrynie gwarancyjnej użytkownika nie mają wad producenta po zwróceniu urządzenia. Hughes i wsp. po badaniu stwierdzają “nie znaleziono żadnych problemów” między 20-30% przypadków po analizie uszkodzonych napędów w ich badaniu 3477 dysków.

Z punktu widzenia użytkownika końcowego uszkodzony dysk jest uszkodzony w sposób wystarczająco poważny lub wystarczająco spójny w scenariuszu użytkownika, który nie jest już odpowiedni do używania go. Ponieważ awarie są czasami wynikiem kombinacji składników (tj. Konkretnego dysku z określonym kontrolerem lub kablem, itd.) nic dziwnego, że wiele dysków, które nie działają dla danego użytkownika, można nadal uznać za operacyjne w różnych przeprowadzanych testach. Dlatego najdokładniejsza definicja, jaką możemy zaprezentować w przypadku awarii naszego badania to: dysk uważa się za uszkodzony, jeśli został wymieniony w ramach procedury naprawy. Należy zauważyć, że ta definicja w sposób domyślny wyklucza dyski, które zostały zastąpione z powodu uaktualnienia oprogramowania.
Ponieważ nie zawsze jest jasne, kiedy dokładnie uszkodził się napęd to uważamy, że czas gdy został on wymieniony, co może niekiedy być kilka dni po zaobserwowanym zdarzeniu awarii. Warto również wspomnieć, że parametry używane w tym badaniu nie były używane w ramach procedury diagnostyki naprawy w czasie zebrania tych danych. Nie ma zatem ryzyka wystąpienia fałszywych (wymuszonych) korelacji pomiędzy tymi sygnałami a wynikami naprawy.

Filtracja

Przy tak dużej liczbie jednostek monitorowanych przez długi okres problemy z integralnością danych zawsze się pojawiają. Informacje mogą zostać utracone lub uszkodzone w czasie gromadzenia zbiorczego. Dlatego konieczne jest pewne czyszczenie danych. W przypadku braku wartości, poszczególne wartości są oznaczone jako niedostępne, a konkretne dane są wyłączone z badań szczegółowych. Inne rekordy tego samego napędu nie są odrzucane.

W przypadkach, gdy dane są wyraźnie fałszywe, cały rekord dysku zostaje usunięty przy założeniu, że jedna część niejawnych danych wiąże się z innymi dziedzinami dla tego samego napędu. Identyfikacja fałszywych danych jest jednak trudnym zadaniem. Ponieważ część badania danych polega na tym, aby dowiedzieć się, co oznaczają liczby, musimy uważać, aby nie odrzucić zbyt wielu danych, które mogą okazać się nieprawidłowe. Zdefiniujmy więc fałszywe po prostu jako wartości ujemne lub wartości danych, które są oczywiście niemożliwe. Na przykład niektóre dyski zgłaszały temperaturę wyższą niż powierzchnia słońca. Inne mają negatywne cykle zasilania. Zostały one uznane za fałszywe i usunięte. Z drugiej strony nie przefiltrowaliśmy podejrzeń z dużą ilością sygnałów SMART, w ramach hipotezy, że duże liczby nieprawdopodobne jako liczby surowe, mogą być dobrymi wskaźnikami czegoś naprawdę niekorzystnego z napędem. Filtrowanie wartości niepożądanych zmniejszyło rozmiar zestawu próbek o mniej niż 0,1%.

Wyniki

Teraz analizujemy zachowanie awarii naszej floty napędów dysków przy użyciu szczegółowych danych z monitoringu zgromadzonych w ciągu dziewięciomiesięcznego cyklu obserwacji. W tym czasie rejestrowaliśmy zdarzenia awarii, a także wszystkie dostępne dane dotyczące środowiska i działalności oraz większość parametrów SMART z samych napędów. Informacje o uszkodzeniach obejmujące dużo dłuższy przedział (około pięciu lat) zostały również wydobyte z bazy starych napraw. Wszystkie przedstawione tutaj wyniki zostały przetestowane pod kątem ich statystycznego znaczenia przy użyciu odpowiednich testów.

Stopy wyjściowe awarii

Foto 2. przedstawia średnie roczne stany awaryjne (AFR) dla wszystkich napędów w naszym badaniu, w wieku od zera do 5 lat, pochodzących z naszej starszej bazy danych napraw. Dane są podzielone według wieku, w którym napęd był uszkodzony. Należy zauważyć, że oznacza to pewną zakładkę między zestawami próbek dla 3-miesięcznych, 6-miesięcznych i 1-jedno rocznych, ponieważ napęd może osiągać 3-miesięczny, 6-miesięczny i 1-roczny wiek w całym okresie obserwacji. Ponad 1 rok nie ma więcej nakładania się.
Choć może być kuszące, aby przeczytać ten wykres jako ścisły wskaźnik awarii z wiekiem napędu, czynniki modelu napędowego są silnie mieszane w tych danych. Mamy tendencję do generowania konkretnego modelu napędowego tylko przez ograniczony czas (w miarę wprowadzania nowych, bardziej efektywnych kosztowo modeli), więc często zdarza się, że gdy patrzymy na zestawy napędów w różnym wieku, także patrzymy na bardzo odmienną mieszankę modeli. W konsekwencji dane te nie są bezpośrednio przydatne w zrozumieniu wpływu wieku dysków na szybkość awaryjności (wyjątek stanowią pierwsze trzy punkty danych, które są zdominowane przez stosunkowo stabilną mieszankę modeli dysków). Wykres jest jednak dobrym sposobem na zapewnienie podstawowej charakterystyki awarii w całej populacji. Jest to również przydatne w późniejszych badaniach w gazecie, gdzie możemy ocenić, jak konsekwentny jest wpływ danego parametru na różne grupy modelu napędów. Spójne i zauważalne oddziaływanie wszystkich grup wskazuje silnie, że mierzony sygnał ma zasadniczo silną korelację z awariami, biorąc pod uwagę fakt, że jest obserwowany w szeroko zmieniającym się wieku i modelach.

Obserwowany zakres AFR (patrz rysunek 2) zmienia się od 1,7%, w przypadku napędów, które były w pierwszym roku eksploatacji, do ponad 8,6%, obserwowane w populacji 3-letniej. Wyższy AFR bazowy dla 3 i 4-letnich napędów jest silniejszy pod wpływem niezawodności poszczególnych modeli w tym roczniku, niż skutków starzenia się dysku. Warto zauważyć, że nasze 3-miesięczne, 6-miesięczne i 1-letnie dane wskazują na widoczny wpływ zjawisk śmiertelności młodych dysków, a 1-letni AFR znacznie spadł z AFR zaobserwowanym w pierwszych trzech miesiącach.

Producenci, modele i roczniki

Stopy awaryjne są znane jako silnie skorelowane z modelami napędowymi, producentami i rocznikami. Nasze wyniki nie są sprzeczne z tym faktem. Na przykład, Rysunek 2 zmienia się znacznie, gdy normalizujemy współczynniki awarii na każdy model napędu. Większość skutków związanych z wiekiem ma wpływ na rok produkcji. Jednak w niniejszym artykule nie pokazujemy podziału dysków na producenta, modelu lub rocznika ze względu na zastrzeżone własności tych danych.
Co ciekawe, nie zmienia to naszych wniosków. W przeciwieństwie do wyników związanych z wiekiem, zauważamy, że wszystkie wyniki przedstawione w pozostałej części nie mają wpływu na populację mieszanki dyskowej. Żadne z naszych wyników wyszukiwania danych SMART nie ulega istotnym zmianom, gdy normalizuje je model napędowy. Jedynym wyjątkiem jest poszukiwanie poziomu błędu, który zależy od konkretnego producenta napędu, jak omawiamy w sekcji.

Wykorzystanie

Literatura ogólnie odnosi się do wskaźników utylizacji, wykorzystując termin cyklu pracy, który niestety nie ma spójnej i precyzyjnej definicji, ale może być w przybliżeniu scharakteryzowany jako ułamek czasu, w którym napęd jest aktywny poza całkowitym zasilaniem. To, co powszechnie mówi się w literaturze, polega na tym, że wyższe cykle pracy wpływają negatywnie na dyski. Trudno nam dotrzeć do znaczącego liczbowego wskaźnika wykorzystania, biorąc pod uwagę, że nasze pomiary nie dostarczają wystarczająco szczegółowych informacji, aby uzyskać 100% użyteczności dla dowolnego modelu dysku. Wybieramy zamiast tego mierzenie zużycia w ujęciu tygodniowym średniej szerokości pasma odczytu/zapisu na dysk. Kategoryzujemy wykorzystanie na trzech poziomach: niskie, średnie i wysokie, odpowiadające odpowiednio najniższemu 25 percentylowi, 50-75 percentylowi i najwyższemu 75 percentylowi. Ta kategoryzacja jest wykonywana dla każdego modelu dysku, ponieważ maksymalna szerokość pasma ma znaczną zmienność w rodzinach napędów. Zauważmy, że przy użyciu liczby operacji I/O i bajtów przekazywanych jako metryki wykorzystania są bardzo podobne. Rysunek 3 przedstawia wpływ wykorzystania leku na AFR w różnych grupach wiekowych.
Ogólnie rzecz biorąc, spodziewaliśmy się zauważyć bardzo silną i konsekwentną korelację między wysokim poziomem wykorzystania a wyższymi wskaźnikami awaryjności. Jednak nasze wyniki wydają się bardziej złożone. Po pierwsze, tylko bardzo młode i bardzo stare grupy wiekowe wydają się wykazywać spodziewane zachowanie. Po pierwszym roku współczynnik AFR dla napędów o wysokiej wydajności jest w większości umiarkowanie wyższy niż w przypadku napędów o niskim zużyciu. Trzyletnia grupa rzeczywiście wydaje się mieć przeciwieństwo oczekiwanego zachowania, a dyski o niskim zużyciu mają nieco wyższe współczynniki awarii niż te wysokie. Jednym z możliwych wyjaśnień tego zachowania jest przetrwanie najsilniejszej teorii. Możliwe jest, że tryby awarii, które są związane z większym wykorzystaniem, są bardziej widoczne na początku życia napędu. Jeśli tak jest dyski, które przetrwały fazę śmiertelności jako niemowleta, są najmniej podatne na ten tryb awaryjny i powodują, że liczba populacji jest bardziej odporna na zmiany poziomów wykorzystania. 

Innym możliwym wyjaśnieniem jest to, że wcześniejsze obserwacje wysokiej korelacji między wykorzystaniem a awariami opierały się na ekstrapolacjach przeprowadzonych przez eksperymenty życiowe producentów. Te eksperymenty prawdopodobnie lepiej ilustrują charakterystykę wczesnego porażenia życiowego i jako takie zgadzają się z tendencją obserwowaną dla młodych grup wiekowych. Możliwe jest jednak, że długoterminowe badania populacji mogłyby ujawnić mniej wyraźny efekt w późniejszym okresie życia. Kiedy spojrzymy na te wyniki w poszczególnych modelach, znów mamy do czynienia ze złożonym wzorem, z różnymi wzorami zachowań awaryjnych na trzech poziomach wykorzystania. Podsumowując, nasze dane wskazują na znacznie niższą korelację między poziomami wykorzystania i porażkami niż sugerują poprzednie prace.

Temperatura

Temperatura jest często cytowana jako najważniejszy czynnik środowiskowy wpływający na niezawodność dysku. Wcześniejsze badania wskazują, że temperatury w delcie tak niskiej jak 15 ° C mogą spowodować niemal podwójną szybkości awarii dysku. W ciągu całego ciągu 9-miesięcznego okna obserwujemy odczyty temperatury z rejestrów SMART co kilka minut i staramy się zrozumieć korelację pomiędzy poziomami temperatury a szybkością awarii.
Łączyliśmy odczyty temperatury na kilka różnych sposobów, w tym średnie, maksima, ułamek czasu spędzonego nad określoną wartością temperatury, liczbę przekroczeń granicy temperatury i ostatnią temperaturę przed awarią. Przedstawiamy dane o średnich i zauważmy, że inne formy agregacji wykazały podobne tendencje i sugerują te same wnioski.
Najpierw przyjrzymy się korelacji między średnią temperaturą w okresie obserwacji a awarią. Na rysunku 4 przedstawiono rozkład dysków o średniej temperaturze w stopniach o jednym stopniu i odpowiadających im rocznych stopach awaryjności. Na rysunku pokazano, że wzrost średniej temperatury nie wzrasta. W rzeczywistości istnieje wyraźna tendencja wskazująca, że ​​niższe temperatury są związane z wyższymi wskaźnikami awaryjności. Tylko w bardzo wysokich temperaturach występuje niewielki odwrót tego trendu.
Na rysunku 5 przedstawiono średnie temperatury dla różnych grup wiekowych. Rozkłady są zsynchronizowane z Figurą 4, wykazującą głównie płaski współczynnik uszkodzenia w temperaturach średniej i niewielki wzrost przy niskim końcu rozkładu temperatury. Co wyróżnia się to 3 i 4-letnie dyski, w których tendencja do wyższych awarii o wyższej temperaturze jest znacznie bardziej stała, a także bardziej wyraźna.
Ogółem nasze eksperymenty mogą potwierdzić wcześniej zgłoszone efekty temperaturowe tylko w przypadku wysokiego końca naszego zakresu temperatur, a zwłaszcza starszych. W niższych i średnich przedziałach temperatur wyższe temperatury nie są związane z wyższymi wskaźnikami awaryjności. Są to dość zaskakujące wyniki, które mogą wskazywać, że projektanci serwerów datacenter lub serwerzy mają większą swobodę niż myśleli wcześniej podczas ustawiania temperatur roboczych urządzeń zawierających dyski. Można stwierdzić, że w umiarkowanych temperaturach prawdopodobne jest, że istnieją inne efekty, które mają wpływ na szybkość awarii znacznie silniej niż temperatury.

Analiza danych SMART

Teraz przeglądamy różne sygnały samokontroli, które są dostępne z praktycznie wszystkich naszych napędów dyskowych za pośrednictwem standardowego interfejsu SMART. Nasza analiza wskazuje, że niektóre sygnały wydają się być bardziej istotne dla badania awarii niż inne. Najpierw spoglądamy na te szczegóły, a następnie podsumujemy nasze ustalenia dla pozostałych. Na końcu tej sekcji omawiamy nasze wyniki i uzasadnienie użyteczności parametrów SMART w uzyskiwaniu predykcyjnych modeli poszczególnych awarii dysku.
Prezentujemy wyniki w trzech formach. Najpierw porównujemy wartość AFR dla napędów z liczbą zera i niezerową dla danego parametru w podziale według tych samych grup wiekowych, jak na rysunkach 2 i 3. Przydatne jest również wykreślanie prawdopodobieństwa przetrwania napędów w ciągu dziewięciu miesięcy, miesięcznym oknie obserwacji dla różnych zakresów wartości parametrów. Poza wykresami opracowujemy pojedyncze dane, które mogą przekazywać, jak istotne są wartości danego parametru SMART w przewidywaniu bliskich awarii. W tym celu dla każdego parametru SMART szukamy progów, które zwiększyły prawdopodobieństwo awarii w ciągu najbliższych 60 dni o co najmniej współczynnik 10 w odniesieniu do napędów, które mają zerową liczbę dla tego parametru. Zgłaszamy takie krytyczne progi, gdy tylko jesteśmy w stanie je znaleźć z dużym zaufaniem (> 95%).

Błędy skanowania

Dyski zazwyczaj skanują powierzchnię dysku w tle i zgłaszają błędy, gdy odkrywają je. Duże liczby błędów skanowania mogą wskazywać na wady powierzchniowe i dlatego są uważane za mniej wiarygodne. W naszej populacji mniej niż 2% dysków wykazuje błędy skanowania i są niemal równomiernie rozłożone na różne typy dysków.
Na rysunku 6 przedstawiono wartości AFR dwóch grup napędów, bez błędów skanowania i tych z co najmniej jednym. Dzielimy paski we wszystkich grupach wiekowych, w których mamy statystycznie istotne dane. Okazuje się, że grupa dysków z błędami skanowania jest dziesięć razy bardziej narażona na uszkodzenia niż grupa bez błędów. Ten efekt jest również zauważony w dalszym rozbiciu grup według modelu dysku.
Z rysunku 8 widać drastyczne szybki spadek prawdopodobieństwa przeżycia po pierwszym błędzie skanowania (lewy wykres). Nieco ponad 70% dysków przetrwa pierwsze 8 miesięcy po pierwszym błędzie skanowania. Linie przerywane reprezentują przedział ufności 95%. Środkowy wykres na rysunku 8 dzieli populację w czterech grupach wiekowych (w miesiącach) i pokazuje efekt, który nie jest widoczny w działkach AFR. Wydaje się, że błędy skanowania wpływają znacznie bardziej na prawdopodobieństwo przetrwania młodych dysków już wkrótce po wystąpieniu pierwszego błędu skanowania, ale po pierwszym miesiącu krzywa wygładza się. Starsze dyski nadal jednak obserwują stały spadek prawdopodobieństwa przetrwania w ciągu 8 miesięcy. To zachowanie może być kolejną manifestacją zjawiska śmiertelności niemowląt. Prawy wykres na rysunku 8 ilustruje efekt wielu błędów skanowania. Chociaż dyski z jednym błędem są bardziej podatne na błędy niż te z żadnym, dyski z wieloma błędami jeszcze szybciej ulegają awariom.

Rysunek 8: Wpływ błędów skanowania na prawdopodobieństwo przeżycia. Lewa ilustracja pokazuje prawdopodobieństwo przeżycia całkowitego dla wszystkich napędów po pierwszym błędzie skanowania. Średnia sylwetka rozkłada prawdopodobieństwo przetrwania na dyski w ciągu kilku miesięcy. Właściwa liczba dzieli dyski na liczbę błędów skanowania.
Krytyczna analiza progów potwierdza, co oznaczają wizualnie: krytyczny próg dla błędów skanowania jest jednym. Po pierwszym błędzie skanowania dyski są 39 razy częściej uszkodzone w ciągu 60 dni od dysków bez błędów skanowania.

Ponowne przypisanie (Realokacja)

Gdy logika dysku uważa, że ​​sektor jest uszkodzony (zazwyczaj w wyniku powtarzających się błędów miękkich lub błędów twardych), można zmapować uszkodzony numer sektora do nowego sektora fizycznego pobieranego z puli części zamiennych. Liczbę ponownych przydziałów odzwierciedla liczbę razy, co się stało, i jest postrzegane jako wskazanie zużycia powierzchni napędu. Około 9% naszej populacji ma realokację więcej niż zero. Chociaż niektóre z naszych modeli napędowych wykazują wyższe wartości bezwzględne niż inne, obserwowane trendy są podobne we wszystkich modelach. Podobnie jak w przypadku błędów skanowania, obecność ponownego podziału wydaje się mieć konsekwentny wpływ na AFR dla wszystkich grup wiekowych (rysunek 7), nawet jeśli jest nieco mniej wymowny. Dyski z jednym lub większą liczbą ponownych alokacji nie występują częściej niż te, które nie mają żadnego. Średni wpływ na AFR wydaje się wynosić 3-6x.
Rysunek 11 pokazuje prawdopodobieństwo przetrwania po pierwszej realokacji. Obniżymy wykres do 8,5 miesięcy z powodu drastycznego spadku poziomu ufności po tym punkcie. Ogólnie, na lewym wykresie widać, około 85% dysków przetrwało po 8 miesiącach od pierwszego realokacji. Efekt jest bardziej wyraźny (średni wykres) dla dysków w przedziałach wiekowych [10,20] i [20, 60] miesięcy, podczas gdy nowsze dyski w przedziale [0,5] miesięcy ulegają bardziej awariom niż ich następne generacje. Może to być spowodowane tzw. śmiertelnością niemowląt, chociaż wydaje się, że w tym przypadku jest mniej drastyczny niż w przypadku błędów skanowania.
Po pierwszej realokacji dyski są ponad 14 razy bardziej podatne na awarie w ciągu 60 dni od dysków bez konieczności ponownej alokacji, co powoduje, że krytyczny próg dla tego parametru jest równy. 

Rysunek 11: Wpływ wartości liczby ponownego przydziału na prawdopodobieństwo przeżycia. Lewa ilustracja pokazuje prawdopodobieństwo przeżycia całkowitego dla wszystkich napędów po pierwszej realokacji. Średnia sylwetka rozkłada prawdopodobieństwo przetrwania na dyski w ciągu kilku miesięcy. Właściwa liczba dzieli dyski na liczbę ponownych przydziałów.

Realokacja offline

Ponowne przypisanie trybu offline jest definiowane jako podzbiór obliczonych wcześniej poziomów ponownego przydziału, w których obliczane są tylko przefiltrowane sektory w trakcie przeszukiwania tła. Innymi słowy, należy wykluczyć sektory, które są ponownie przypisane w wyniku błędów znalezionych podczas rzeczywistych operacji we/wy. Na przykład niektóre modele wykazują więcej realokacji offline niż całkowite przesunięcia. Ponieważ wpływ ponownego przypisywania offline jest znaczący i nie jest tożsamy ​​z całkowitymi przydziałami, zdecydowaliśmy się przedstawić osobno (rysunek 9). Około 4% naszej populacji wykazuje niezerowe wartości dla ponownego podziału offline i zazwyczaj koncentrują się na określonym podzestawie modeli napędów.
Ogólnie rzecz biorąc, wpływ na prawdopodobieństwo przetrwania ponownego przydziału offline wydaje się być bardziej drastyczny niż w przypadku całkowitych przesunięć, jak pokazano na Rysunku 12 (jak wcześniej niektóre krzywe zostały przycięte po 8 miesiącach, ponieważ nasze dane nie były w wysokich przedziałach ufności). Napędy starszych grup wiekowych wydają się im silniej oddziaływać, chociaż nie jesteśmy w stanie przypisać tego efektu do wieku, biorąc pod uwagę różne modele mieszańców w różnych grupach wiekowych.
Po pierwszym ponownym przydzieleniu trybu offline dyski mają ponad 21-krotnie większe szanse na awarie w ciągu 60 dni od dysków bez ponownego przypisywania trybu offline; co jest bardziej drastyczne niż całkowite realokacje.

Nasze dane sugerują, że chociaż realokacje offline mogą być ważnym parametrem wpływającym na awarie, szczególnie ważne jest interpretowanie trendów w tych wartościach w określonych modelach, ponieważ istnieją pewne dowody, że różne modele napędów mogą inaczej klasyfikować ponowne przydziały.

Nadzorowane liczenie sektorów

Napędy dysków umieszczają podejrzane sektory uszkodzone “pod nadzorem”, dopóki nie zostaną trwale przeniesione (zrealokowane) i zostaną ponownie przydzielone lub będą działały bez problemów. 

Rysunek 13: Wpływ liczby próbkowej na prawdopodobieństwo przeżycia. Lewa ilustracja pokazuje prawdopodobieństwo przeżycia całkowitego dla wszystkich napędów po pierwszym liczeniu prób. Średnia sylwetka rozkłada prawdopodobieństwo przetrwania na dyski w ciągu kilku miesięcy. Prawy rysunek rozkłada dyski według liczby prób.

Nadzorowane liczenie sektorów może być postrzegane jako miękka informacja o błędzie. Może stanowić wcześniejsze ostrzeżenie o możliwych problemach, ale może też być słabszym sygnałem, w tych sektorach w okresie próbnym gdzie nigdy nie zostać realokowany. Około 2% naszych napędów miało niezerowe wartości zliczania probacyjnego. Zauważmy, że liczba ta jest niższa niż zarówno realna, jak i offline, co wskazuje, że sektory mogą zostać usunięte z prób testowych po dalszej obserwacji ich zachowania. Po raz kolejny dystrybucja dysków z niezerowymi próbami liczy się nieco w kierunku podzbioru modeli dysków. Foto 10 i 13 pokazują, że tendencje liczenia probacji są zasadniczo podobne do obserwowanych przy ponownym przypisywaniu offline, a grupa wiekowa jest nieco mniej wymowna. Krytyczny próg liczby prób liczy się również: po pierwszym zdarzeniu, dyski są 16 razy bardziej podatne na uszkodzenie w ciągu 60 dni niż dyski z zerową liczbą prób.

Różne sygnały

Oprócz parametrów SMART opisanych w poprzednich sekcjach, które stwierdziliśmy, że najbardziej wpływają na współczynniki awaryjności, zbadaliśmy również kilka innych parametrów z zestawu SMART oraz innych czynników środowiskowych. Poniżej krótko wspomnieć o naszych istotnych ustaleniach dotyczących niektórych z tych parametrów.

Szukaj błędów. Błędy wyszukiwania pojawiają się, gdy dysk nie prawidłowo śledzi sektor i musi czekać na kolejną rewolucję do odczytu lub zapisu z lub do sektora. Dyski zgłaszają to jako stawkę i mają być używane w połączeniu z progami specyficznymi dla danego modelu. Badając naszą populację, stwierdzamy, że błędy wyszukiwania są szeroko rozpowszechnione wśród dysków jednego producenta, podczas gdy inne są bardziej konserwatywne w pokazaniu tego rodzaju błędów. Dla tego jednego producenta tendencja w poszukiwaniu błędów nie jest jasna, zmieniając się z jednego na drugi. Dla innych producentów nie ma korelacji między wskaźnikami awaryjności i błędów.

Błędy CRC. Podczas transmisji danych między mediami fizycznymi a interfejsem wykrywane są błędy CRC (Cyclic Redundancy Check). Chociaż obserwujemy pewną korelację między wyższymi liczeniami CRC a porażkami, efekty te są nieco mniej wyraźne. Błędy CRC są mniej wskazujące na awarie napędu niż kable i złącza. Około 2% naszej populacji miało błędy CRC.

Cykle zasilania. Wskaźniki cyklu zasilania liczą, ile razy napęd jest zasilany w górę iw dół. W przypadku wdrożenia serwerów, w których napędy są zasilane ciągle, nie spodziewamy się osiągnąć wystarczająco dużej liczby cykli, aby zobaczyć jakikolwiek wpływ na współczynniki awarii. Nasze wyniki wykazują, że w przypadku dysków w wieku do dwóch lat jest to prawda, nie ma znaczącej korelacji między awariami a licznymi cyklami dużej mocy. Jednak w przypadku napędów w wieku 3 lat i starszych, większa liczba cykli pracy może zwiększyć bezwzględny współczynnik awaryjności o ponad 2%. Uważamy, że jest to spowodowane naszą mieszanką populacji niż skutkami starzenia się. Co więcej, korelacja ta może być skutkiem (a nie przyczyną) problemów z maszynami, które wymagają wielu iteracji naprawy, a więc wiele cykli zasilania ma być ustalona.

Ponowne próby kalibracji. Nie udało nam się osiągnąć spójnej i jasnej definicji tego parametru SMART z dokumentów publicznych, a także konsultacji z niektórymi producentami dysków. Niemniej jednak, nasze obserwacje nie wskazują, że jest to szczególnie użyteczny parametr dla celów niniejszego badania. Poniżej 0,3% naszych napędów przeprowadzono próbę kalibracji, a tej samej grupie około 2% nie powiodło się, co czyni to bardzo słabym i nieprecyzyjnym sygnałem w porównaniu z innymi parametrami SMART.

Spin Retries. Liczą liczbę prób, gdy dysk próbuje spinować. W całej naszej populacji nie zarejestrowaliśmy jednego hrabia. Godziny włączenia Chociaż nie kwestionujemy, że godziny pracy mogą mieć wpływ na żywotność dysku, zdarza się, że w naszym wdrożeniu wiek napędu jest doskonałym przybliżeniem dla tego parametru, biorąc pod uwagę, że nasze napędy pozostają zasilane na większość ich życia.
Wibracja Nie jest to parametr wchodzący w skład zestawu SMART, ale jest to kwestia, która jest ogólnie związana z projektowaniem obudów napędu, ponieważ większość producentów opisuje, w jaki sposób drgania mogą wpływać zarówno na wydajność, jak i na niezawodność napędów dyskowych. Niestety, nie mamy informacji o czujniku do pomiaru tego efektu bezpośrednio w przypadku dysków w serwisie. Staraliśmy się pośrednio wnioskować o skutkach wibracji, biorąc pod uwagę różnice w poziomie niepowodzeń między systemami z pojedynczym napędem a tymi z wieloma napędami, ale te eksperymenty nie były wystarczająco kontrolowane w celu uzyskania innych możliwych czynników, abyśmy mogli wyciągnąć wnioski.

Prorocza moc parametrów SMART

Biorąc pod uwagę silne skorelowanie niektórych parametrów SMART z wyższymi wskaźnikami niepowodzenia, mieliśmy nadzieję, że można stworzyć dokładne modele predykcyjnych niepowodzeń opartych na sygnałach SMART. Modele predykcyjne są bardzo przydatne, ponieważ mogą zmniejszyć zakłócenia w świadczeniu usług z powodu nieudanych komponentów i umożliwić bardziej efektywne zaplanowane procesy konserwacji zastępujące mniej skuteczne (i reaktywne) procedury napraw. W rzeczywistości jednym z głównych motywacji SMART było dostarczenie wystarczającej wiedzy na temat zachowania się dysków, aby umożliwić budowanie takich modeli.
Po naszych początkowych próbach wyłonienia takich modeli uzyskaliśmy stosunkowo mało efektowne wyniki, zwróciliśmy się do kwestii, która może być górną granicą dokładności dowolnego modelu opartego wyłącznie na parametrach SMART. Nasze wyniki są zaskakujące, jeśli nie nieco rozczarowujące. Spośród wszystkich nieudanych napędów, ponad 56% z nich nie liczy się w żadnym z czterech silnych sygnałów SMART, mianowicie błędów skanowania, ponownego przydziału, ponownej alokacji offline i liczby próbnej. Innymi słowy, modele oparte tylko na tych sygnałach nigdy nie mogą przewidzieć więcej niż połowy uszkodzonych napędów. Rysunek 14 pokazuje, że nawet jeśli dodamy wszystkie pozostałe parametry SMART (z wyjątkiem temperatury) nadal stwierdzamy, że ponad 36% wszystkich uszkodzonych napędów miało zerowe liczebności na wszystkich zmiennych. Ta populacja obejmuje poszukiwanie poziomów błędów, które obserwowaliśmy powszechnie w naszej populacji (> 72% naszych napędów), co znacznie zmniejsza rozmiar próbki dysków bez żadnych błędów.
Trudno jest dodać temperaturę do tej analizy, pomimo tego, że została ona zgłoszona jako część SMART, nie ma ostrych progów, które bezpośrednio wskazują błędy. Jeśli jednak arbitralnie przypuszczamy, że wydawanie ponad 50% czasu obserwowanego powyżej 40 ° C jest wskazówką możliwego problemu i dodaj te dyski do zestawu przewidywalnych awarii, wciąż pozostajemy w około 36% wszystkich dysków bez awarii w ogóle. Rzeczywiste użyteczne modele, które muszą mieć małe fałszywie pozytywne stawki, są w rzeczywistości znacznie gorsze, niż sugerują to limity.
Stwierdzamy, że mało prawdopodobne jest, że dane SMART mogą być skutecznie wykorzystywane do tworzenia modeli przewidujących awarie poszczególnych dysków. Parametry SMART nadal wydają się przydatne w rozumowaniu całkowitej niezawodności dużych populacji dysków, co jest nadal bardzo ważne w planowaniu logistycznym i łańcuchem dostaw. Możliwe jest jednak, że modele wykorzystujące parametry poza tymi, które oferują SMART, mogą osiągnąć znacznie lepsze dokładności. Na przykład anomalie wydajności i inne sygnały aplikacji lub systemu operacyjnego mogą być przydatne w połączeniu z danymi SMART w celu stworzenia silniejszych modeli. W naszej przyszłej pracy planujemy zbadać tę możliwość.

Rysunek 14: Procent uszkodzonych dysków z błędami SMART.

Podobne prace

Poprzednie badania z tej dziedziny w większości przypadków dzielą się na dwie kategorie: papiery techniczne (dyski twarde lub urządzenia magazynujące) i badania dotyczące doświadczeń użytkowników. Badania dostawców dysków zapewniają cenną wiedzę na temat cech elektromechanicznych dysków, a także danych opartych na modelach i eksperymentach, które sugerują, jak wiele czynników środowiskowych i aktywności użytkowej mogą mieć wpływ na żywotność urządzenia. Yang, Sun i Cole opisują procesy i ustawienia eksperymentalne wykorzystywane przez Quantum i firmę Seagate do testowania nowych jednostek i modeli, które próbują przewidzieć długoterminowe niezawodność w oparciu o przyspieszone testy życia małych populacji. Godziny włączenia, cykl pracy, temperatura są określane jako kluczowe parametry rozmieszczenia, które wpływają na współczynniki awaryjności, z których każdy może mieć podwójne współczynniki awaryjności podczas przechodzenia z wartości nominalnych do ekstremalnych. Na przykład Cole przedstawia modele termoregulacji, które wykazują, że MTBF może spaść nawet o 50% podczas pracy z temperaturą 30 ° C do 40 ° C. Raport Cole’a przedstawia roczne stopnie niepowodzenia w bazie danych gwarancji firmy Seagate, wskazując na liniowy spadek rocznych wskaźników awaryjności z 1,2% w pierwszym roku do 0,39% w trzecim (i ostatnim roku rejestracji). W naszym badaniu nie stwierdzono znacznej korelacji pomiędzy szybkością niewydolności a podwyższoną temperaturą lub wykorzystaniem. To najbardziej zaskakujący wynik naszego badania. Nasze roczne wskaźniki niepowodzenia były na ogół wyższe niż te zgłaszane przez sprzedawców i bardziej zgodne z innymi doświadczeniami z doświadczeniem użytkowników.
Shah i Elerath napisali kilka artykułów w oparciu o zachowanie dysków w produktach pamięci masowej Network Appliance. Wykorzystują bazę danych o niezawodności, która zawiera statystyki awarii polowych oraz dzienniki pomocy, a ich pozycja jako dostawcy urządzeń umożliwia im większą kontrolę i widoczność w rzeczywistych wdrożeniach niż typowy dostawca dysku. Chociaż nie zgłaszają bezpośrednio korelacji pomiędzy parametrami SMART lub czynnikami środowiskowymi a porażkami (być może dotyczy to poufności), ich praca jest użyteczna w umożliwieniu jakościowego zrozumienia czynników wpływających na niezawodność dysku. Na przykład komentują, że współczynniki awaryjności użytkownika końcowego mogą wynosić nawet dziesięć razy więcej niż przewidywanego przez producenta napędu; wykazują silną eksperymentalną korelację między liczbą głów i wyższymi wskaźnikami awaryjności (efekt przewidywany przez modele) i zauważają, że różne mechanizmy niepowodzeń są w toku na różnych etapach życia napędu. zgodnie z tymi wynikami.
W badaniach nad użytkowaniem przez użytkownika może brakować dogłębnej analizy wewnętrznej “pracy urządzenia”, która jest w raportach producenta, ale kluczowe znaczenie ma zrozumienie zachowań urządzeń w rzeczywistych wdrożeniach. Niestety, jest tak mało takich badań, prawdopodobnie z powodu dużej liczby urządzeń potrzebnych do obserwacji statystycznie istotnych wyników i złożonej infrastruktury wymaganej do śledzenia awarii i ich czynników wpływających.

Wnioski

W tym badaniu informujemy o uszkodzeniach typowych dysków twardych. Według naszej wiedzy badanie jest bezprecedensowe, ponieważ wykorzystuje znacznie większą liczbę populacji niż została wcześniej opisana i przedstawia obszerną analizę korelacji między awariami a kilkoma parametrami, które mogą wpływać na trwałość dysku. Taka analiza jest możliwa dzięki nowej, wysoko elastycznej infrastrukturze zbierania i analizy danych zdrowotnych, a także dzięki szerokiemu zakresowi wdrażania komputerów.
Jednym z naszych kluczowych ustaleń jest brak spójnego wzorca wyższych wskaźników awarii dla napędów o wyższej temperaturze lub dla tych napędów przy wyższych poziomach wykorzystania. Takie korelacje wielokrotnie podkreślano w poprzednich badaniach, ale nie możemy ich potwierdzić, obserwując naszą populację. Chociaż nasze dane nie pozwalają nam stwierdzić, że nie ma takiej korelacji, dostarcza ona silnych dowodów na to, że inne efekty mogą być bardziej widoczne, co wpływa na niezawodność dysku w kontekście profesjonalnie zarządzanego wdrożenia centrum danych.

Nasze wyniki potwierdzają wyniki wcześniejszych badań dotyczących mniejszych populacji, które sugerują, że niektóre parametry SMART są dobrze skorelowane z wyższymi prawdopodobieństwami awarii. Okazuje się, że na przykład po pierwszym błędzie skanowania, dyski są 39 razy bardziej podatne na uszkodzenie w ciągu 60 dni niż dyski bez takich błędów. Pierwsze błędy w ponownym przypisywaniu, realokacji offline i liczebności próbnej są również silnie skorelowane z wyższymi prawdopodobieństwami awarii. Pomimo tych silnych korelacji stwierdzamy, że modele predykcyjne błędów oparte na samych parametrach SMART prawdopodobnie będą poważnie ograniczone do ich dokładności przewidywania, biorąc pod uwagę, że duża część naszych uszkodzonych napędów nie wykazała żadnych sygnałów błędu SMART w ogóle. Ten wynik sugeruje, że modele SMART są bardziej użyteczne w prognozowaniu trendów dla dużych populacji ogółem niż dla poszczególnych składników. Sugeruje również, że silne modele predykcyjne muszą korzystać z sygnałów poza tymi dostarczonymi przez SMART.