Diagnozowanie dysków HDD słownik S.M.A.R.T

Objawy uszkodzonego dysku

Z punktu widzenia użytkownika objawy uszkodzonego dysku to przeważnie brak dostępu do danych. Komputer zawiesza się przy pracy lub nie można uruchomić systemu. Tego typu przypadki są związane z różnymi uszkodzeniami dysku:

1. BAD SECTORY - czyli uszkodzone sektory dysku z których nie można nic odczytać

W zależności od ilości i umiejscowienia Bad Sectorów możemy mieć sporadyczny dostęp do danych. W przypadku bardzo małej ilości dysk może się zachowywać normalnie. W przypadku większej mogą się pokazać następujące objawy:

Dysk nie zgłasza się w systemie
Dysk bardzo wolno pracuje
Dysk zgłasza się, ale nie można nic odczytać
Komputer zawiesza się podczas pracy lub nie można uruchomić systemu

2. Uszkodzenie głowicy odczytująco-zapisujących w dysku

W przypadku uszkodzenia głowic w zależności od stopnia uszkodzenia możemy spotkać się z następującymi objawami: Dysk zgłasza się w komputerze ale nie można odczytać danych Dysk klika, piszczy, zgrzyta lub wydaje inne dziwne dźwięki

Programy do diagnozowania dysków

HDD TUNE

Zgodność: Xp/Vista
Obsługa RAID: TAK
Opis: Program do testowania dysków IDE i SCSI. Umożliwia sprawdzenie wydajności dysku mierzonej prędkościami transferów, czasem dostępu i użyciem procesora, prezentując wyniki w formie wykresu i tabeli liczbowej. Podaje informacje np. pojemności, partycji, buforów, wersji oprogramowania wewnętrznego, numeru seryjnego itp. Program wyświetla temperatury dysku w zasobniku systemowym paska zadań. Istnieje możliwość przeskanowania urządzenia pod kątem wykrycia ewentualnych błędów.

VICTORIA

Zgodność: Xp/Vista/W7 (64 bit też)
Obsługa RAID: TAK
Opis: Choć mało znany, przez wielu uważany za najlepsze narzędzie diagnostyczne, pozwala sprawdzić odczyt S.M.A.R.T., oraz sprawdzić każdy sektor – jaki jest jego czas dostępu, czy jest re alokowany, oraz czy nie jest po prostu uszkodzony.

HDtACH

Zgodność: Xp/Vista(po ustawieniu zgodności z Xp SP2)
Obsługa RAID: TAK
Opis: HD Tach to program umożliwiający przeprowadzenie niskopoziomowego testu szybkości dysków. Można nim zbadać dyski twarde (IDE/ATA, Serial ATA, SCSI, napędy ZIP/JAZZ), karty pamięci flash i macierze RAID. HD Tach omija standardowe metody dostępu do dysków, aby pokazać bardziej wiarygodne wyniki, niezależnie od oprogramowania i systemu operacyjnego.

Słownik S.M.A.R.T

S.M.A.R.T. (ang. Self-Monitoring, Analysis and Reporting Technology) ? system monitorowania i powiadamiania o błędach działania twardego dysku. Technologia ta została zaimplementowana w dyskach ATA-3, późniejszych ATA, ATAPI, IDE oraz SCSI-3, aby zwiększyć bezpieczeństwo składowanych danych. Dzięki niej dysk potrafi ocenić swój stan i jeśli awaria jest wysoce prawdopodobna zaalarmować system operacyjny i użytkownika komputera. System zapewnia skuteczne ostrzeganie o zbliżającej się awarii w około 30 do 40% przypadków. (źródło: Wikipedia)
Każdy dysk twardy posiada opcję S.M.A.R.T. Producenci dysków w celach bezpieczeństwa zaopatrzyli użytkownika w ten właśnie system.
S.M.A.R.T. włączamy w biosie komputera. Teoretycznie powinien być włączony automatycznie. Jeżeli natomiast z jakichś powodów nie mamy go włączonego to dla bezpieczeństwa proponujemy włączyć w zakładce SETUP (lub innej w zależności od wersji Biosu)

Wyniki testu S.M.A.R.T. odczytujemy między innymi za pomocą programów: Victoria , HD tune, Speedfan
Oczywiście jest jeszcze masa innych dostępnych na rynku programów (np. Sisoft Sandra) które posiadają opcję odczytu testu S.M.A.R.T jednak dla pewności i z doświadczenia radzimy używać wymienionego softu.

Opiszę teraz w jaki sposób należy interpretować wyniki testu S.M.A.R.T;

Self-Monitoring

Podczas pracy dysku system S.M.A.R.T na bieżąco monitoruje istotne parametry, każdy z nich może przyjąć następujące stany:

– Pre-failure warranty attribute (PW)– Wskazuje warunek przed awaryjny, może uchronić od straty wielu danych.
– Online collection attribute (OC)– Oznacza, że wartości są obliczane podczas pracy dysku.
– Performance attribute (PE)– Oznacza pogorszenie spowodowane zużyciem lub wiekiem dysku.
– Error rate attribute (ER) – Oznacza parametr częstości pomiaru błędów.
– Error count attribute (EC) – Oznacza parametr ilości zmierzonych błędów.
– Self-preserving attribute (SP)– Oznacza parametr który jest automatycznie ustawiany podczas testu S.M.A.R.T.

Najczęstsze monitorowane parametry:

UWAGA: Wszystkie wartości stwierdzające problem zapisywane są w polu Data

01 Raw Read Error Rate – Atrybut ten zależy od ilości błędów odczytu i stanu powierzchni dysku, wskazuje na częstość sprzętowych błędów odczytu, które wystąpiły podczas odczytu danych z powierzchni dysku (talerza). Wartości w przedziale Data wskazują na problem z powierzchnią dysku lub głowicami odczytu/zapisu. Jest to parametr określający błąd krytyczny dysku twardego. Często wywołany jest uszkodzeniem mechanizmu napędowego dysku/głowic (łożysko etc.) lub podzespołów elektronicznych.
UWAGA: Dyski Seagate nie monitorują parametru Raw Read Error Rate, stąd tak wysokie wartości podczas testu S.M.A.R.T

02 Throughput Performance – Łączna (ogólna) sprawność dysku. Jeśli wartość tego atrybutu się obniża jest duża szansa, że zbliżają się problemy z dyskiem. Nie jest to błąd krytyczny. Niestety nie każdy program monitoruję tą wartość.

03 Spin Up Time – Średni czas na rozkręcenie (rozpędzania) talerzy (od 0 obr/min do pełnej prędkości). Wartość RAW tego atrybutu wyraża czas w sekundach lub milisekundach. Zależnie od modelu dysku. Nie jest to błąd krytyczny, ale wysokie czasy rozpędzania talerzy świadczą o pojawiających się problemach z układami mechanicznymi dysku.

04 Start/Stop Count – Wartość RAW tego atrybutu określa liczbę czyli start/stop dysku. Nie jest to błąd krytyczny, ale w połączeniu z parametrem 09 Power-On Time Count i 10 Spin Retry Count daje obraz o sposobie użytkowania dysku. Czas startu dysku powinien być zbliżony do ilości prób rozpędzania talerzy. Zbyt duże różnice pomiędzy tymi parametrami świadczą o problemie z zasilaniem dysku, który uruchamia się poprawnie, ale nie rozpędza talerzy. Nie tylko jest to wina zasilania.

05 Reallocated Sectors Count – Ilość realokowanych sektorów (określanych również jako: “bady”, “bad sectors”). W momencie gdy dysk napotyka błąd odczytu/zapisu/weryfikacji, oznacza ten sektor jako realokowany i przenosi dane do specjalnego zarezerwowanego obszaru (obszaru rezerwowego). Proces ten jest również określany mianem remapowania a realokowane sektory określa się remapami. To właśnie dlatego, na nowoczesnych dyskach, nie widzimy “bad bloków” podczas testów powierzchni – jest to błąd krytyczny, świadczy o powstaniu logicznych lub fizycznych “badów”. Odczytując tą wartość możemy stwierdzić czy posiadamy na dysku “bad sectory”.

06 Read Channel Margin – Rezerwa kanału podczas odczytu danych. Funkcja tego atrybutu nie jest objęta specyfikacją. Nie informuje o błędzie krytycznym.

07 Seek Error Rate – Częstość błędów wyszukiwania głowic magnetycznych. W razie uszkodzenia mechanicznego systemu pozycjonowania, uszkodzenia serwa albo termicznej rozszerzalności dysku, ilość błędów wyszukiwania wzrasta.
Więcej błedów wyszukiwania oznacza pogarszanie się stanu powierzchni dysku i podsystemu mechanicznego dysku. Nie jest to błąd krytyczny, ale warto go monitorować.

08 Seek Time Performance – przeciętna wydajność operacji wyszukiwania głowic magnetycznych. Jeśli wartość atrybutu maleje, jest to oznaka problemów z podsystemem mechanicznym dysku.

09 Power-On Time – Ilość godzin w stanie zasilania. Wartość RAW atrybutu odpowiada łącznej ilości godzin (lub minut, sekund, w zależności od producenta) przepracowanych przez dysk. Zmniejszenie się tej wartości do poziomu krytycznego (threshold) wskazuje na zmniejszenie się parametru MTBF (średni czas między awariami). Niemniej, w rzeczywistości, nawet jeśli MTBF zmaleje do zera, nie oznacza to że zasoby MTBF całkowicie się wyczerpały i dysk przestanie działać.

0A Spin Retry Count – Ilość ponowień prób rozpędzenia tależy. Atrybut ten przechowuje łączną ilość prób uruchomienia talerzy przed osiągnięciem pełnej szybkości obrotowej (pod warunkiem, że pierwsza próba nie powiodła się). Spadek tego atrybutu jest oznaką problemów z podsystemem mechanicznym dysku.

0B Recalibration Retries – Atrybut ten wskazuje liczbę żądań rekalibracji (po warunkiem, że pierwsza próba nie powiodła się). Spadek tego atrybutu jest oznaką problemów z podsystemem mechanicznym dysku.

0C Device Power Cycle Count– Atrybut ten określa łączną ilość pełnych cykli zasilania dysku.

0D Soft Read Error Rate – Jest to ilość programowych błędów odczytu występujących podczas odczytu danych z powierzchni dysku.

0E G-Sense Error Rate – częstotliwość występowania błędów spowodowanych wstrząsem. Atrybut ten przechowuje wskazania czujnika przeciążeń i podaje łączną ilość błędów występujących jako rezultat wewnętrznych przeciążeń (upuszczenia dysku, niewłaściwej instalacji, itp.).

0F Power Cycle Count – Atrybut ten określa ile razy dysk był wyłączany. Właściwie to określa ilość naprawionych cykli włączania dysku. W połączeniu z parametrem 04 Start/Stop Countinformuje o problemie z zasilaniem dysku.

0G Load/Unload Cycle Count – Ilość cykli parkowania/wyparkowania ze strefy parkowania (Landing Zone).

C2 Temperature – Temperatura dysku twardego. Wartość RAW tego atrybutu podaje wskazania wbudowanego czujnika ciepła (w stopniach Celsjucza). Często zdarza się ,że czujnik temperatury jest uszkodzony więc wartość ta jest bardzo duża lub wogóle nie monitorowana.

C4 Reallocation Event Count – Ilość operacji remapowania (przenoszenia danych z uszkodzonego sektora do specjalnego zarezerwowanego obszaru – obszaru rezerwowego). Wartość RAW tego atrybutu określa łączną ilość prób transferu danych z realokowanego sektora do obszaru rezerwowego. Liczone są zarówno próby udane jak i nieudane. Jest to nie wątpliwie jeden z wżniejszych parametrów, dzieki któremu możemy usunąć poprzez remap/zerowanie kolejne (będące w drodze) bad sectory.

C5 Current Pending Sector Count – Parametr ten określa liczbę sektorów niestabilnych (oczekujących na remapowanie). Dysk podczas próbny odczytu/zapisu odznaczył te sektory jako niestabilne. Będą one oczekiwać na remap powierzchni talerz. Jeżeli tego nie zrobimy wówczas dysk przeniesie je do obszaru Reallocated Sectors Count, a tym samym powstaną nowe bad sectory.
Jest to błąd jak najbardziej krytyczny i warto go monitorować.

C6 Off-line Uncorrectable Sector Count – Ilość niekorygowalnych błędów. Wartość RAW tego atrybutu wskazuje łączną ilość niekorygowalnych błędów podczas odczytu/zapisu sektora. Wzrost wartości tego atrybutu wskazuje na ewidentne defekty powierzchni dysku i/lub problemy z podsystemem mechanicznym dysku. Jest to błąd krytyczny, świadczy o poważnym uszkodzeniu tablicy talerza lub nadchodzącym uszkodzeniu mechanizmu dysku.

C7 UltraDMA CRC Error Count – Łączna ilość błędów CRC w trybie UltraDMA. Wartość RAW atrybutu wskazuje ilość błędów wykrytych przez CRC (CRC Interfejsu) podczas przesyłania danych w trybie UltraDMA. Wysokie wartości świadczą o uszkodzeniu podzespołów elektronicznych dysku. Jednocześnie parametr ten informuje nas o tym, że dysk ma problemy w komunikacji z kontrolerem (dysk<->płyta<-dysk). Najczęstszą przyczyną pojawiania się tego błędu jest: uszkodzona wstęga (taśma), fiksujący zasilacz, uszkodzona elektronika dysku, uszkodzona elektronika płyty głównej.

C8 Write Error Rate (Multi Zone Error Rate) – Częstość błędów zapisu. Atrybut ten wskazuje na łączną ilość błędów zapisu podczas zapisywania sektora. Im wyższa wartość RAW, tym gorszy stan powierzchni dysku i/lub mechanicznego podsystemu. W połączeniu z parametrem Raw Read Error Rate informuje nas o stanie talerzy, a właściwie zapisu na ich powierzchni.
Wartość 0 (zero) oznacza iż dysk jest sprawny i nie wykazuje tych błędów. Inne wartość świadczą o problemie zapisu/odczytu z powierzchni talerza. Monitorujmy tą wartość. Jest to błąd krytyczny. Często duże wartość w polu Data zmniejszają szanse na poprawne działanie dysku, który z czasem pewnie ulegnie uszkodzeniu. Warto pamiętać o zabezpieczeniu danych z takiego dysku.

Inne parametry jakie monitoruje S.M.A.R.T:

Disk Shift – Przesunięcie dysków od osi. Wartość RAW pokazuje jak bardzo dysk został przesunięty. Jednostka miary jest nieznana.
UWAGA: Przesunięcie dysków jest możliwym rezultatem silnego uderzenia lub upadku. Niewątpliwie błąd krytyczny.

Loaded Hours -Użycie aktuatora głowic magnetycznych spowodowane normalną eksploatacją. Liczy się tylko czas działania aktuatora.

Load/Unload Retry Count – Użycie aktuatora głowic magnetycznych spowodowane licznymi wystąpienia operacji takich jak: odczyt, zapis, pozycjonowanie głowic itp. Liczy się tylko czas gdy głowice były w stanie działania.

Load Friction – Użycie aktuatora głowic magnetycznych spowodowane tarciem mechanicznych części dysku. Liczy się tylko czas gdy głowice były w stanie działania.

Load-in Time – Łączny czas działania aktuatora głowic. Atrybut ten wskazuje łączny czas w którym dysk był obciążony (przy założeniu, że głowice były w stanie działania, poza obszarem parkowania).

Torque Amplification Count – Ilość prób rozkręcenia talerzy dysku.

GMR Head Amplitude – Amplituda drgań głowic (GMR-head) w czasie pracy.

Head Flying Hours – Czas w jakim głowica jest pozycjonowana.

Read Error Retry Rate – częstotliwość występowania błędów podczas odczytu.