我が自宅サーバーにHardware Error 発生

November 22, 2012 – 12:40 pm

数日前、logwatchにHardware Error の発生を知らせるログがでていた。ログの詳細を確認したところ、エラーの原因は、CPU温度が閾値を超えたことによることが判明。

PCケースを開け、CPUクーラー周辺にかなりの埃がたまっているのを確認。掃除機で埃を除去。これでエラーは発生しなくなった。

自宅サーバの保守記録としてメモしておいた。

logatch上のエラーメッセージ: logwatchに示されたエラーメッセージは次のようなもの:


 --------------------- Kernel Begin ------------------------ 

 
 WARNING:  Kernel Errors Present
    [Hardware Error]: Machine check  ...:  9 Time(s)
 
 ---------------------- Kernel End ------------------------- 

var/log/messages上の関連情報: システムログに次ぎのようなmessageが繰り返し記録されていた。


Nov 19 07:45:21 yamasserver01 kernel: CPU3: Core temperature above threshold, cpu clock throttled (total events = 19498)
Nov 19 07:45:21 yamasserver01 kernel: CPU7: Core temperature above threshold, cpu clock throttled (total events = 19498)
Nov 19 07:45:21 yamasserver01 kernel: CPU3: Core temperature/speed normal
Nov 19 07:45:21 yamasserver01 kernel: CPU7: Core temperature/speed normal
Nov 19 07:46:18 yamasserver01 kernel: CPU2: Core temperature/speed normal
Nov 19 07:46:18 yamasserver01 kernel: CPU6: Core temperature/speed normal
Nov 19 07:50:19 yamasserver01 kernel: [Hardware Error]: Machine check events logged

これを見る限り、Hardware Errorは、CPU温度が閾値を超えたことによる。

PCケースのなかを開けてみると、CPUクーラー周辺にかなりの埃がたまっているのを確認。

とりあえず、家庭用掃除機で埃を除去して2,3日様子を眺めてみたが、これでErrorは発生しなくなった。

この措置で、症状が改善しなかった場合には、CPUファンをとりはずし、清掃、さらには熱伝導グリスの塗り直しといった作業が必要になるのでは、と心配したが、今回は、掃除機による簡単な対応のみで事態を収集することができた。

多少の考察: 今回、Errorが発生したPCは昨年9月から稼働しているものだ。それ以来、1年超にわたって、休むことなく連続で運転をしてきた。1年の稼働で埃によるCPUの冷却機能が損なわれた、ということになる。

PCを更新したときに、現在使っているのと、先代のPCについてスペックをまとめている(「Scientific Linux 6.1 で自宅サーバー再構築(その1) 」)。ここに示しているように、先代のCPUはPentium-4に対し、現在のCPUがCore-i7。CPUの違いで、発熱がかなり違っているということが今回のHardware Errorの要因ということになるのかもしれない。その分、今後、メンテナンスも大変になる、と考えるべきだろう。

先代のPCについても3年以上にわたって連続運転をしていたが、今回のようなエラーは発生していない。単に、CPUの発熱量の違いのみであれば、頻繁な清掃作業ということで済むが、何らかの障害の先触れであるかもしれない。このあたりも念頭に、今後のサーバー運用をしなければならない。

以上、作業記録。


  1. 2 Responses to “我が自宅サーバーにHardware Error 発生”

  2. 同様のエラーが再度発生
    今回は、package(clamav)の更新時近辺で、それなりに負荷が高い状態で発生したものと思われる。
    グリースの塗り直し、CPUクーラーの交換などについて検討の必要があるかもしれない。
    もう少し、様子を見ることにする。

    By yama on Dec 4, 2012

  1. 1 Trackback(s)

  2. Dec 13, 2016: core temperature above threshold !!! | Yama's Memorandum

Post a Comment