事例から学ぶ 定期的な正常性確認の重要性
システム管理のつぼ(2018年6月号)
ソリューション開発部 勝山 遼
皆さんは定期的にサーバの点検作業を行っていますか?
特に異常が発生しているわけでもなく、正常に稼働していると思ってサーバの状態を長い間チェックしていないということはないでしょうか。
異常がないように見えても、小さなエラーから大きな障害につながってしまうこともあります。
実際に起きた事例を紹介していきます。
あるサーバにてバックアップディスクが壊れていて、バックアップが正常にできていない状態が、半年間続いていたということがありました。その事象に気づいたのは弊社の「点検パック」作業時に、バックアップが失敗しているログを発見したためでした。
普段使っているメールの機能などとは違い、バックアップ自体は通常のサービスに影響がありません。そのため、管理者はバックアップが失敗していることに気づくことができませんでした。
その間に、バックアップデータが必要なレベルの障害が起こっていたとしたら、大きな問題になっていたかもしれません。それでは、せっかくのバックアップが全く意味のないものになってしまいます。
もし普段から点検を行って、ログやバックアップの正常性を確認していたならもっと早くバックアップの失敗とバックアップディスクが壊れていたことに気づくことができていたでしょう。
普段からサーバを点検しログの確認を行わないと、異常に気づけないことがあります。定期的にシステムを細部まで点検することが大きな障害の予防につながります。その予防が、システムを安定して稼働させるために非常に重要です。
デージーネットでは、導入後サービスの一環として、「点検パック」のサービスを提供しています。「点検パック」ではログの中に問題が見つかった場合は、なぜそのログが出力されたのか、どのように対策を行えばよいかを報告書に記載し、お客様へ提出しています。
問題が発生する前にサーバの状態を確認する体制を検討してみて下さい。