MASUDAQ Blog

NO DEVELOPMENT NO LIFE.

ML115 G5 610-Temperatrue Violation Detected

今年の夏は本当に暑い。空調を入れないでいると室温の平均が 30℃ 以上だ。
ましてや、湿度も 50% を超えて、体感温度はかなりものがある。

そんな中で、 空調を入れない室内で一緒にがんばってくれている ML115 G5 の電源が突然切れた。
(ファンを換装したマシンでのみ発生する現象。デフォルトのファン構成では再現はない。)

UPS を入れているわけではないので、電源の瞬断でもあったとおもい電源を入れると、以下のようなメッセージが表示された。
610-Temperatrue Violation Detected!

610-Temperatrue Violation Detected!
Wating 5 minutes for system to cool.
Press ESC Key to resume booting without wating for the system to cool.
Warning: Pressing ESC is NOT recommended as system may shutdown unexpectedly.
Recheck Temperature in XXX Seconds!

どうもこの猛暑でマシンが熱中症になってしまったようだ。

さらに、[ESC] キーを押さないで、Recheck を待つも、同じエラーが発生し、症状の改善はない。

仕方なく、マシンの電源を切り、ケースカバーを外し、しばらく (about 30min.) 待つと、通常に起動する。

しかし、起動してからしばらくすると、また、電源がオフになってしまう。

慢性的な熱中症の症状だ。

この症状、空調を入れていると発生頻度が激減する、ケースカバーを開けておくと、電源がオフになってしまうまでの時間が比較的長くなることから、マシンのサーモセンサーが温度を監視し、ある閾値を超えると強制的に電源をオフにしてしまう仕様と推察される。(デフォルトのファン構成では、この現象は再現がないため、厳密に言うと、温度とファンの回転数に因果があると推察される。)

BIOS の設定画面を起動して状態を確認する。
(*) 610-Temperatrue Violation Detected! は、[BIOS ROM-BASED SETUP UTILITY] の起動前に発生するので、その場合は、電源を切り十分に冷却してから、[BIOS ROM SETUP UTILITY] を起動する。もしくは、[ESC] キーで、強制的に起動する方法もあるが、もちろんエラーメッセージ通り、推奨されない方法となる。

[BIOS ROM-BASED SETUP UTILITY] を起動し、[Advanced] -> [IPMI Configuration] を選択。
BIOS ROM-BASED SETUP UTILITY Advanced Settings

[IPMI Configuration] -> [Hardware health information] を選択。
BIOS ROM-BASED SETUP UTILITY IPMI Configuration

[CPU Temperature]、[Front Ambient Temperature]、[CPU Fan Spped]、[Rear Fan Speed] の項目が参照できる。
BIOS ROM-BASED SETUP UTILITY Hardware helth information

この [Hardware helth information] 画面では、ML115 G5 の "CPU の温度"、"フロント周辺温度"、"CPU ファン回転数"、"リアファン回転数" を確認することができる。

特に温度の部分を参照すると、分子/分母 で表示されているため、分母の温度が閾値と考えられる。
分子の温度 (CPU 温度、フロント周辺温度) が、分母の温度を超えるとシステムが適切な処理を強制実行すると考えられる。

この例では、"72/79 deg. C" とあり、CPU の温度が分母に非常に近い値であるとわかる。

次に、電源強制オフ発生直後のログ (BMC System Event Log) を参照する。

[IPMI Configration] -> [SEL Configuration] -> [View BMC System Event Log] を選択する。

時系列で古い順にログを参照する。

[Enet Sensor Type] より、フロント周辺サーモセンサーで検知され、アサートが発生していることがわかる。
BMC System Event Log 1

[Enet Sensor Type] より、CPU ダイオード センサーで検知され、アサートが発生していることがわかる。
BMC System Event Log 2

[Enet Sensor Type] より、CPU ダイオード センサーで検知され、アサートが停止していることがわかる。
BMC System Event Log 3

以上から、CPU の温度が閾値 (この例では、79deg. C) を超えてしまったことが原因で、電源が強制的にオフになったと推察される。(電源オフ発生時直後の CPU 温度が分母の値に近いこと、フロント周辺サーモセンサーでは、アサートの発生のみがロギングされている。CPU ダイオード サーモセンサーでは、アサート発生と、停止がロギングされている。)

当マシンは、静音化のため CPU ファンを "サイズ 刀3クーラー SCKTN-3000" に換装している

今年の猛暑では、この CPU クーラーでは、力不足のようだ。

これらの調査結果が、静音性を保ちつつ、さらなる冷却性を追い求める旅のはじまりとなった。

このエントリーをはてなブックマークに追加