HDD故障による障害が発生
June 30, 2021 – 4:28 pm数日前、このブログを発信している「自宅サーバー」が、突然、反応しなくなった。本ブログにアクセスしようとしても、アクセスが拒否されてしまう事態になった。
サーバの状況を把握しよとしても、アクセス不能で、手の打ちようもなくなっていた。
結局、障害発生の原因は、HDDの故障。SEAGATE社製のHDD(1TB)をHITACHI社製の同容量のHDDに換装した。
障害発生のマシン上にOS(ALMALINUX8.3)をインストールし、SMARTCTLコマンドでハードディスクの状態を確認してみたのが、以下の結果、
[root@server02 ~]# smartctl -A /dev/sda smartctl 7.1 2020-08-23 r5080 [x86_64-linux-4.18.0-305.3.1.el8_4.x86_64] (local build) Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 116 092 006 Pre-fail Always - 231411186 3 Spin_Up_Time 0x0023 097 094 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 077 077 020 Old_age Always - 23738 5 Reallocated_Sector_Ct 0x0033 090 090 036 Pre-fail Always - 410 7 Seek_Error_Rate 0x002f 079 060 030 Pre-fail Always - 13196067736 9 Power_On_Hours 0x0032 078 078 000 Old_age Always - 19901 10 Spin_Retry_Count 0x0033 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 092 092 020 Old_age Always - 9065 180 Unknown_HDD_Attribute 0x002b 100 100 000 Pre-fail Always - 3513 183 Runtime_Bad_Block 0x0032 088 088 000 Old_age Always - 12 184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0 187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 358 188 Command_Timeout 0x0032 100 098 000 Old_age Always - 25770197015 189 High_Fly_Writes 0x003a 098 098 000 Old_age Always - 2 190 Airflow_Temperature_Cel 0x0022 063 056 045 Old_age Always - 37 (Min/Max 37/40) 194 Temperature_Celsius 0x0022 037 044 000 Old_age Always - 37 (0 6 0 0 0) 195 Hardware_ECC_Recovered 0x003a 029 024 000 Old_age Always - 231411186 196 Reallocated_Event_Count 0x0032 090 090 036 Old_age Always - 410 197 Current_Pending_Sector 0x0032 099 099 000 Old_age Always - 52 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
Current_Pending_Sector が52となっており、HDD上に不良セクターがあることがわかる。
サーバーのコンソール上にデータの読み書き時に意味不明のエラー(らしきもの)が表示されることがあったので、これが原因だったように思う。
対応としては、予備用に購入していたHDDと交換し、新たに交換したHDD上にOSのインストールし、システムを再構築。
バックアップデータの取り込みを行い。復帰したところ。
10年以上にわたって「自宅サーバ」を運営してきたが、この種の障害ははじめて。
あらためて、日常的なバックアップデータの取得を再確認した次第。