原因不明の障害!どうする??
システム管理のつぼ(2019年3月号)
ソリューション開発部 恒川 稜平
今までに障害が発生して原因調査をしたが、原因が特定できなかったという経験がありませんか?例えば、急にWebページにアクセスが出来なくなってしまった際に、原因として考えられることは色々あると思います。サーバ側としては、「アクセスが多すぎて処理できない・・・」や「負荷が高すぎて動作に影響がでている」などの可能性があげられます。サーバ側以外にも、ネットワークの問題の可能性もあります。またfirewallの設定変更をしたら、接続不可になってしまったという可能性もあると思います。
障害が発生して一時的に解消をしても、根本的な解決が難しいものがあります。上記で言えば、負荷が高すぎて動作に影響がでているなどの場合です。Webサーバにアクセスができなくなったタイミングで調査をしても、既にログインも難しくなっていてサーバ再起動しか方法がないということも稀にあります。再起動をしてしまうと、どのサービスの負荷が高かったのか判別することができなくなってしまうので、根本的な原因の特定が難しくなってしまいます。
デージーネットでは、障害対応で復旧や原因調査を行うのは当然として、根本的な原因の特定と対策を行うようにしています。初回の障害で原因の特定ができなかった場合には、スクリプトを導入したり、デバッグログを出力する設定をしたりと同様の障害が発生した際には根本的な原因の特定ができるように準備をします。
根本的な原因がわからず放置をしてしまうと、更に深刻な障害が発生しても原因がわからず解消もできないといったことになりかねません。「まあいいや・・・」などと思って終わらせてしまうことはせず、次回同様の障害が発生した際に、根本的な原因の特定ができるように準備をしてみましょう。