お茶漬けぶろぐ

S.M.A.R.T.エラーがちゃんと通知された(?)

NASの仕上げ(監視とか) - お茶漬けぶろぐでやったsmartdがアラートを起こしてくれたのでそれを読んで見る。

メール件名はSMART error (Temperature) detected on host: hogeだった。

This message was generated by the smartd daemon running on:

   host name:  hoge
   DNS domain: [Empty]

The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], Temperature 50 Celsius reached critical limit of 50 Celsius (Min/Max 32/50!)

Device info:
Samsung SSD 860 QVO 1TB, S/N:XXXXXXXXXXXXXXX, WWN:X-XXXXXX-XXXXXXXXX, FW:RVQ01B6Q, 1.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
No additional messages about this problem will be sent.

読んで見るとか言ったけど、「sdbの温度が摂氏50度を記録しましたよ」といった内容しかなかったのでした。

なんかログを見ろって書いてあるので、取り敢えずjournalを見てみる。

May 15 03:52:31 hoge smartd[339]: Device: /dev/sdb [SAT], Temperature changed +17 Celsius to 50 Celsius (Min/Max 32/50!)
May 15 03:52:31 hoge smartd[339]: Device: /dev/sdb [SAT], Temperature 50 Celsius reached critical limit of 50 Celsius (Min/Max 32/50!)
May 15 03:52:31 hoge smartd[339]: Sending warning via <mail> to root@hoge ...
May 15 03:52:31 hoge smartd[339]: Warning via <mail> to root@hoge: successful
May 15 04:22:31 hoge smartd[339]: Device: /dev/sdb [SAT], Temperature changed -7 Celsius to 43 Celsius (Min/Max 32/50)
May 15 04:22:31 hoge smartd[339]: Device: /dev/sdb [SAT], Temperature 43 Celsius dropped below 45 Celsius, warning condition reset after 1 email
May 15 04:52:31 hoge smartd[339]: Device: /dev/sdb [SAT], Temperature changed -10 Celsius to 33 Celsius (Min/Max 32/50)

上記は前後の抜粋。と言っても、摂氏50度になった後、メールでアラートを飛ばして、その後なんとなく温度が下がったので「まぁいいか」と出ているっぽいな。

…………ってあれ?監視対象ってsdc以降じゃなかったっけか?journalを見ててもsdaとsdbばかりしか監視してないくさい…うまく設定できてないんすね、かなしい…

/etc/smartd.confを見ていると、

The word DEVICESCAN will cause any remaining lines in this configuration file to be ignored: it tells smartd to scan for all ATA and SCSI devices.

などと書かれており、DEVICESCANを使うとコンフィグを無視するようになるらしい。正直それでsdc以後がスキャンされない理由はよくわからんが、とにかく前回施した記載から/dev/sd{c, d, e, f} -aな記載をコメントアウトしてsmartdを再起動したところ、すべてのデバイスが読み取られるようになった。
ただ、これだと、温度のみの監視になるため、もうちょっと頑張ってほしい。オプションの付け方については、手っ取り早くS.M.A.R.T. - ArchWikiのデバイスの監視に関する部分を読んでみると良さそうだが、とにかく-aをつければそれで良さそうな気配がある。
-aのときの基準値がどういう感じになるのかはちょっとよくわからんが、取り敢えずやってみて、また暫く様子を見るか…

横着せず、最初からコンフィグサンプルはきちんと読みましょうね…

< M1 MacでRosetta2を使わずにpdftkを使いたい

M1 Macでterminalをx86_64からarm64に切り替える >