メールマガジン

問題管理

システム管理のつぼ(2013年1月号)

フロンティア開発部 米山陽介

デージーネットマガジン11月号にてサーバ管理のプロセスについて紹介させていただきました。今月号は、「問題管理」について説明していきます。

問題管理とは、品質低下をもたらす可能性のある現象を認識し、原因を特定し、効果的・効率的に解決する事です。インシデント管理は迅速に復旧することを目的としていましたが、問題管理は障害の根本の原因を取り除くことを目的としています。
問題管理が上手くできないと、根本の原因を取り除くことができず、一度解決したはずの問題が再度発生する状態になってしまうため、一番重要なプロセスであると言えます。

では、どうしたら問題管理を上手くできるのでしょうか?

上手く管理するためには、問題の根本の原因を特定し、正確な問題を発生経緯や、解決策などを導き出せることが重要となります。

デージーネットでは、問題が起こった際、まずはログを見てどのような状態であるかを調べます。その後、事例を調べ過去同じような問題がなかったかを確認します。 もしなければ、同じ状況を作り出し問題の再現をします。後は、問題のありそうな箇所をリストアップし、1つづつ確認していきます。
以前、同じ状況を作り出しても問題の再現ができない問題が起こった事があります。 そのようなときには、次に起きたときに原因が分かるようにするために、設定を入れ、原因を解決した経験があります。
また、サポート管理ツールというものを使用し、各お問い合わせから解決までを1つのジョブとして記録しておきます。この過去の事例から原因を探し出すこともあります。ジョブとして管理する事で、解決して完了したかも分かるようになっております。

つまり、下記を行うことで障害の根本の原因を取り除き、安全なサービスが提供できるのです。
・ログ等からいつ、どこで、どのような事が起きたか分かるようにする
・問題の再現を行い、問題がありそうな部分の検討をつける
・再現できないときは、次起きた際に解決できるような仕組みを入れるようにする
・1つ1つの問題を解決して確実に完了するような仕組みを作る
・問題の履歴を事例データベースとして使えるようにする

デージーネットマガジン2013年1月号記事一覧

問題管理の先頭へ