育てる運用マニュアル
システム管理のつぼ(2017年11月号)
システム設計部 松崎 元昭
システム管理者の仕事は、リソース管理や構成管理などといった日常的な業務に加え、障害が発生したときの対応があります。障害対応は突発的です。時に 緊急性が高く障害状態を脱するまで何時間もの時間を費やした、などといった経験のある方もいると思います。障害対応に時間がかかる要因は、想定外の事 象のため原因究明に時間がかかるといったものが大きいと思います。しかし、この「想定外」とは、いったい誰にとって想定外なのでしょうか?
障害対応のフローは、以前にも紹介しています。まずは障害を取り除くための「インシデント管理」、そして恒久対策である「問題管理」の順です。しかし、 インシデント管理のフローは出来上がっているものの、問題管理が不十分であることが「想定外」を生み出す要因となっているケースが時々見られます。
問題管理では、発生したインシデントの根本原因を取り除くことが重要です。それと同時に、事例を共有することもやはり重要です(2013年1月のバックナン バーでは「問題の履歴を事例データベースとして使えるようにする」と説明しています)。つまり、事例データベースを活用することが、インシデントを素 早く取り除くための大きな鍵となります。
ただ、個別の事例の対応記録を事例データベースと称して残しておくといった対応が往々にして見られます。これだけの情報では素早く対応しなくてはなら ない状況ではうまく活用できないでしょう。どのような情報でも、使える形で共有されていなければ、後々に活用することが困難になります。個別の対応記 録を残すことで、一見情報共有がなされたようにも思えますが、これだけでは不十分でしょう。結局、同種の障害対応についての情報が共有されているにも 関わらず、以前対応した当事者以外にとって「想定外」になってしまうのです。
システムを導入すると、運用手順書を担当者間で共有していると思います。特に大規模システムの運用手順書では、コマンドの羅列のみならず、個々のステ ップで異常が発生した場合の対処の方法などを、記載していることも多いでしょう。例えば、Aに失敗したらBの手順を実行する、といったスクリプト形式の ものです。これを障害対応にも応用し、インシデント対応マニュアルを作成し共有することで、障害対応をスムーズに行えるようになると期待されます。す なわち、想定外の障害が発生した場合には、問題管理の段階でインシデント対応マニュアルを更新する運用ルールにすることで、同種の障害にも素早く対応 できるようになるのです。
デージーネットでは、運用コンサルティングなども行っています。これまでに、お客様のセキュリティガイドラインに従った運用フローを提案するなどといっ た案件を扱った際、このような「育てて活用する運用マニュアル」を提案してきました。いつでも活用できる最新の情報を共有することで、より効率的なシ ステム管理ができるようになると思います。
参考バックナンバー:「インシデント管理」システム管理のつぼ(2012年12月号)
https://www.designet.co.jp/mailmagazine/201212/system/
参考バックナンバー:「問題管理」システム管理のつぼ(2013年1月号)
https://www.designet.co.jp/mailmagazine/201301/system/