HDD故障による障害が発生

June 30, 2021 – 4:28 pm

数日前、このブログを発信している「自宅サーバー」が、突然、反応しなくなった。本ブログにアクセスしようとしても、アクセスが拒否されてしまう事態になった。

サーバの状況を把握しよとしても、アクセス不能で、手の打ちようもなくなっていた。

結局、障害発生の原因は、HDDの故障。SEAGATE社製のHDD(1TB)をHITACHI社製の同容量のHDDに換装した。

障害発生のマシン上にOS(ALMALINUX8.3)をインストールし、SMARTCTLコマンドでハードディスクの状態を確認してみたのが、以下の結果、

[root@server02 ~]# smartctl -A /dev/sda
smartctl 7.1 2020-08-23 r5080 [x86_64-linux-4.18.0-305.3.1.el8_4.x86_64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   116   092   006    Pre-fail  Always       -       231411186
  3 Spin_Up_Time            0x0023   097   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   077   077   020    Old_age   Always       -       23738
  5 Reallocated_Sector_Ct   0x0033   090   090   036    Pre-fail  Always       -       410
  7 Seek_Error_Rate         0x002f   079   060   030    Pre-fail  Always       -       13196067736
  9 Power_On_Hours          0x0032   078   078   000    Old_age   Always       -       19901
 10 Spin_Retry_Count        0x0033   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   092   092   020    Old_age   Always       -       9065
180 Unknown_HDD_Attribute   0x002b   100   100   000    Pre-fail  Always       -       3513
183 Runtime_Bad_Block       0x0032   088   088   000    Old_age   Always       -       12
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       358
188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       25770197015
189 High_Fly_Writes         0x003a   098   098   000    Old_age   Always       -       2
190 Airflow_Temperature_Cel 0x0022   063   056   045    Old_age   Always       -       37 (Min/Max 37/40)
194 Temperature_Celsius     0x0022   037   044   000    Old_age   Always       -       37 (0 6 0 0 0)
195 Hardware_ECC_Recovered  0x003a   029   024   000    Old_age   Always       -       231411186
196 Reallocated_Event_Count 0x0032   090   090   036    Old_age   Always       -       410
197 Current_Pending_Sector  0x0032   099   099   000    Old_age   Always       -       52
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0

Current_Pending_Sector が52となっており、HDD上に不良セクターがあることがわかる。

サーバーのコンソール上にデータの読み書き時に意味不明のエラー(らしきもの)が表示されることがあったので、これが原因だったように思う。

対応としては、予備用に購入していたHDDと交換し、新たに交換したHDD上にOSのインストールし、システムを再構築。

バックアップデータの取り込みを行い。復帰したところ。

10年以上にわたって「自宅サーバ」を運営してきたが、この種の障害ははじめて。

あらためて、日常的なバックアップデータの取得を再確認した次第。
   


Post a Comment