メールマガジン

アラート管理システム〜Alertmanager〜

OSS研究室 大野 公善

今回は、アラート管理を行うためのオープンソースソフトウェアをご紹介いたします。

アラート管理とは

コンピュータ/ネットワークシステムを正常に維持するために、システム管理者はシステム異常をいち早く検知して、その対応を行う必要があります。システム異常をいち早く検知するために、監視システムの導入が有効な手段となります。監視システムは、定期的に監視対象機器をポーリングしたり、監視機器からのトラップを受け取ったりして、システムの異常を監視し、異常を検知すると「アラート」を発行します。

システム管理者は、監視システムからの「アラート」を受け取り、その内容によってしかるべき対応を行う必要があります。システム管理者がシステム異常を検知するために監視システムのアラート機能はとても大切な役割を担うことになります。無駄なく、効率よくシステム障害対応を行うためのアラート機能が必要となります。

アラート受信時の問題点

システム障害が発生すると、監視システムはアラートを発行して、システム管理者に障害を通知します。システムの単一障害の場合、発行されるアラートは多くありませんので、システム管理者の負担は大きくありません。一方、大規模なシステム障害が発生した場合、大量のアラートが発行されることがあります。また、システム障害がすぐに復旧しない場合、何度もアラートが発行されることがあります。システム管理者は、アラートを受け取り、その内容によりシステム障害の切り分けを開始しますが、大量にアラートが届いていると、アラートの内容を把握するまでに時間がかかってしまい、障害対応の開始が遅れてしまうこともあります。

アラート管理システムAlertmanagerとは

アラート管理システムAlertmanagerを導入すれば、上記のような問題点を解消することができます。Alertmanagerには、下記のような機能が実装されています。

重複排除

同じ内容のアラートを排除する機能です。
障害が発生している時間が継続すると、監視システムは同じアラートを何度も発行することになります。システム管理者は、最初の1回だけアラートを受け取れば、一定期間は同じ内容のアラートは不要となります。Alertmanagerの重複排除は、同じアラートが連続して発行された場合、システム管理者への通知を一定期間抑制することができます。システム管理者は、不要なアラートを受信しなくてよくなります。

グルーピング

特定の条件にマッチしたアラートをグルーピングし、同一グループのアラートをまとめて通知する機能です。
大規模なシステム障害が発生した場合、監視システムはアラートを大量に発行することがあります。例えば、1000台のサーバが接続されているスイッチに障害が発生した場合、1000個のアラートが発行されてしまいます。Alertmanagerのグルーピングでは、1000台のサーバを同一グループとして設定しておけば、システム管理者にはひとつのアラートとして通知することができます。システム管理者は、大量のアラートをひとつずつ確認することなく、ひとつのアラートだけを確認すればよくなります。

アラート静観

特定の条件にマッチしたアラートを無視する機能です。
重複排除の機能に似ていますが、アラート静観では指定した日時まで特定のアラートを無視することができます。Alertmanagerでは、アラート静観をウェブUIから設定することができます。システム管理者は、ウェブUIから、静観の開始日時、終了日時、条件を入力して設定します。メンテナンス等、計画的に特定のアラートを無視する必要があるような時に便利な機能です。

ウェブユーザインタフェース

Alertmanagerでは、アラート管理のためにウェブユーザインタフェースを使用することができます。ウェブUIでは下記の機能があります。

  • 発生しているアラートの一覧表示・詳細表示
  • アラート静観の設定・一覧表示

上記の機能を使用すれは、システム管理者は監視システムからのアラートを無駄なく、効率よく受け取ることができるようになり、システム障害対応がやりやすくなります。

デージーネットの取り組み

本記事の執筆時点では、AlertmanagerのウェブUIは日本語対応されていませんでした。また、アラート受信時刻、アラート静観時刻は、UTC(協定世界時)でしか扱うことができませんでした。

デージーネットでは、Alertmanagerのソースコードを調査し、パッチを適用すれば、ウェブUIの日本語化、日本時間(JST)での表示・設定を行えることがわかりました。日本でも使用しやすい Alertmanagerのシステム提案を行っていきたいと考えております。

関連ページ

Alertmanager〜OSSアラート管理システム〜

OSS情報(Alertmnager)

監視システムの導入は、システムを正常に維持するために有効な手段となります。そこでシステム管理者が効率よく障害対応できるアラート管理の仕組みが必要になります。ここでは、オープンソースソフトウェアのアラート管理システムAlertmanagerを紹介します。

デージーネットからのお知らせ

【Webセミナー】生産性向上!テレワークの課題を解決するジョブ管理ツール活用セミナー

OSSを利用したリモートワーク環境の改善方法に関するセミナーを行います。中心となるソフトウェアの説明の他、既存のリモートワーク環境のセキュリティを強化するために役立つ事例も紹介していきます!

  • 日程:2020年9月24日(木)
  • 時間:15:00 〜 16:00(ログイン可能時間14:50 〜)

    ※ウェビナー開催OSS「BigBlueButton」を使用します。

お申込みはまだ間に合います!ぜひこの機会にご参加ください。

お申し込みフォーム↓↓
https://www.designet.co.jp/seminar/seminar.php?seminar_id=45

社内作業の見える化で進捗状況を共有 無料のジョブ管理ツール『CuMAS(カマス)』をバージョンアップ テレワーク効率化を実現する3つの機能を追加

https://www.designet.co.jp/info/?id=392

無料資料ダウンロードに【Alertmanager調査報告書】を掲載しました。

Alertmanagerは、オープンソースソフトウェアのアラート管理システムです。Alertmanagerは、監視システムであるPrometheusのアラート管理コンポーネントとして提供されています。独立したソフトウェアとして提供されているので、Prometheus以外のソフトウェアのアラート管理システムとして使用することもできます。本書は、Alertmanagerについて調査した内容をまとめたものです。

https://www.designet.co.jp/download/#operation

SaMMAがバージョンアップしました。内部ドメイン設定ファイルに ! を指定した場合に、内部ドメインが正しく判定されない不具合を修正しました。

https://www.designet.co.jp/open_source/samma/releasenote.php

バーチャル展示会「IT総合バーチャル展示会 マジTECH 2020夏」に出展中です。

弊社はオープンソースのブースでリモートワークソリューションを展示しています!

https://lp.majisemi.com/online-exhibition外部サイトへ

メールサーバの安全性を無料でチェックできるサイトを公開しています。

メールセキュリティへの関心が高まる中、メールセキュリティのチェック項目を整理して、誰でも簡単にチェックできるツールはありませんでした。本サイトでは、メールアドレスを入力するだけで、メールサーバのセキュリティを無料でチェックできます。

メールサーバセキュリティ診断MSchecker外部サイトへ

デージーネットマガジン2020年9月号記事一覧

アラート管理システム〜Alertmanager〜の先頭へ