障害発生時の対応について
システム管理のつぼ(2013年8月号)
フロンティア開発部 米山陽介
24時間365日サービスが稼動しているのは当たり前の世の中になってきました。障害発生時にも、サービスもほぼ無停止で提供する必要があり、
最近では冗長化のシステムは当たり前になっています。
それでも、障害が発生しないわけではなく、障害が発生した場合迅速かつ正確な対応をしなければいけない場面があります。
障害発生時には、サービスの復旧をするのが最優先ですが、ただ復旧するだけではまた同じことが必ず起こります。
そのために根本の原因を見つけ、解決する必要があります。しかし、根本の原因を見つけるのは容易なものではなく、
闇雲に確認しても見つかりません。
では、どうしたらいいのでしょうか?
各サービスがどのような状態になっているのかをすぐに確認できるようにし、その情報を元に、すぐに復旧できるようにしておく必要があります。
また、障害が起こったときの原因を特定できるように、ログ等の情報を残す必要もあります。
デージーネットが管理しているサーバでは、正常に動作しているときの状態を把握し、不具合がある場合は、すぐに察知できる仕組みを取り入れています。
また、ログ等から状況も判断できるようにサーバの状態も記録しています。それだけでは、解決できない場合もあります。
そのようなときには、原因を突き止めるために、次に障害が発生した際、正確に情報を取得できる仕組みを考え組み込むようにしています。
このような、日頃からの準備がいざというとき役に立つのです。