サービスにつながらない? ネットワークの監視のあれこれ
システム管理のつぼ(2017年8月号)
システム設計部 利波 健ニ
先日、様々な事業者を巻き込んだ大規模なネットワーク障害が発生しました。このように、自社で提供しているサービスが、突然使えなくなった!ということがあるかと思います。そのとき、システム管理者は復旧へ向けて原因を特定して、対応しなければなりません。
なかには、管理者が自ら対処できない問題もあります。しかし、それを素早く検知できれば、冷静に対応することもできるでしょう。では、どのような手段でそれを特定できるでしょうか。
- サーバがスイッチやゲートウェイを監視する
- ネットワーク内の別のサーバからサービスを監視する
- データセンタ外から監視する
この方法は、ネットワークに問題がおきたときに、ログに記録を残すことができます。ただし、ネットワークに問題が発生しているときにリモートからログインできないため、別のルートでログインする方法を用意しておくか、事後での確認ということになります。
この方法は、もっとも多くの管理者が既に実践している方法だと思います。たとえばZabbix などをデータセンタのネットワークに設置して監視するという方法です。この場合は、サーバ間のネットワーク機器に問題があれば、それを知ることができる可能性があります。スイッチそのものを監視することもできますので、データセンタ内のほとんどの機器の問題を把握できる可能性があります。
サーバを設置しているデータセンタ以外の場所から監視する方法です。この方法では、サーバへの経路全体を監視することができます。例えば、社内に設置したり、他のクラウド上に設置したりするといった方法が取れます。
こういった監視では、利用者が誰なのかを考え、問題が発生したときに利用者に素早く事実を伝えることも大切です。また、そのサービスの重要性などを考慮し、必要なレベルの監視を導入すべきです。
例えば、自社内で利用するサーバであれば、社外からの監視は不要です。クラウド利用などでサーバが社外にあったとしても、業務上、致命的でなければ、データセンタ内の監視で十分でしょう。一方、コンシューマサービスを行っている場合には、データセンタ外からの監視があると良いでしょう。コンシューマサービスでは、利用できなくなった場合に、いち早くその理由を説明できた方が、ユーザへの安心が提供できます。
今回の障害を「どうしようもない」と考えるのではなく、いち早くそれを把握し、アナウンスするなどのサービス向上に向けるにはどうすればいいかを考える機会にしてみてはいかがでしょうか。