監視システムが大量のアラートを生成すると集約ノイズが発生し、実際の問題を特定することが困難になります。 このスコアカード ルールは、過剰なアラートを生成するポリシーを特定し、真の問題に集中するのに役立ちます。
このスコアカードルールについて
この集約ノイズ ルールは、ビジネス稼働時間成熟度モデルのレベル 1 (Reactive) の一部です。 これは、チームに多大な負担を与え、重大な問題を引き起こす可能性のある、多すぎるインシデントを生成するアラートマスクポリシーを特定するのに役立ちます。
これが重要な理由:アラートの疲れにより応答時間が短縮され、チームが真の重要な問題を見逃す可能性があります。 アラートを大量に受け取ったチームは、多くの場合、鈍感になり、正当な問題に対する対応を無視したり遅らせたりすることがあります。
このルールの仕組み
このルールは、7 日間にわたってインシデントを評価し、その期間中に 14 を超えるインシデントを生成するアラート ポリシーを特定します。 この閾値は 1 日あたり約 2 インシデントに相当し、ほとんどのチームはアラート疲れを経験することなく効果的に処理できます。
スコアを理解する
- パス (緑):過去 7 日間に 14 を超えるインシデントを生成したアラートポリシーはありません
- 不合格 (赤): 1 つ以上のポリシーが 14 インシデントの閾値を超えました。
- 目標:すべてのアラート ポリシーは、チームが効果的に対応できる管理可能なインシデント ボリュームを生成する必要があります。
チームにとってこれが意味すること:
- 合格点:アラートポリシーが適切に調整され、実用的なアラートが生成されている
- 不合格スコア:一部のポリシーは敏感すぎるか、誤検知を減らすために調整が必要な可能性があります
まとめノイズを減らす方法
スコアが過剰な分割ノイズを示している場合は、次の手順に従ってアラート ポリシーを最適化してください。
1. 問題のある政策を特定する
- 失敗したポリシーを確認する: 14件を超えるインシデントを引き起こした特定のポリシーを確認します。
- インシデントパターンを分析:インシデントが一定の間隔で発生するか、または特定の条件中に発生するかを確認します。
- インシデントの妥当性を評価する:インシデントが注意を必要とする真の問題を表しているかどうかを判断します。
2. アラート条件を最適化する
閾値を調整します:
- 通常の変動でアラートがトリガーされる場合は、閾値の値を増やして感度を下げます
- 適切な場合は絶対値ではなくパーセンテージベースの閾値を使用する
- システムの通常の動作範囲を考慮する
評価ウィンドウを変更します。
- 一時的な急増によるアラートを回避するために時間枠を延長する
- 自然に変動するメトリクスの評価期間を長くする
よりスマートな検出を実装:
- 静的閾値の代わりに異常検出の使用を検討してください
- 予測可能なパターンでメトリクスのベースライン比較を使用する
3. アラートを統合して合理化する
- 関連する条件をグループ化:複数の関連するアラート条件を 1 つのポリシーにまとめます
- 一括相関を使用:関連するインシデントをグループ化し、重複通知を減らすためのルールを設定します。
- 重大なアラートを優先する:優先度の高いアラートが情報的なアラートと明確に区別されるようにする
4. 変更を検証する
調整後:
- 今後 7 日間のインシデントの量をモニターします
- 正当な問題がまだ検出されていることを確認する
- 残りのアラートにチームが効果的に対応できることを確認する
改善の測定
これらのメトリクスを追跡して、一括最適化の取り組みが機能していることを確認します。
- インシデントの量の減少:アラートポリシーによって生成されるインシデントの総量が減少します
- 応答時間の向上: アラートがより集中すると、チームはより速く応答できます
- より高い信頼性:チームメンバーはアラートを信頼し、適切に対応します
- 誤検知の減少:無視するのではなく、真の行動を必要とするインシデント
一般的なシナリオと解決策
高頻度、低影響のアラート:
- 問題:メトリクスの小さな変動でアラートがトリガーされる
- 解決策:閾値を増やすか、より長い評価期間を使用します。
カスケードアラート:
- 問題: 1つの問題が複数の関連するアラートをトリガーする
- 解決策:多数の相関関係を実装するか、依存関係ベースのアラートを作成します。
季節的または予測可能なパターン:
- 問題:既知の忙しい時間帯にアラートが発動する
- 解決策:動的ベースラインまたは時間ベースのアラート条件を使用する
重要な考慮事項
- 感度とノイズのバランスをとる:ノイズを減らしても真の問題の検出が妨げられないようにする
- 定期的なレビュー:システムの進化に合わせてアラートポリシーを見直し、調整する必要があります。
- チームフィードバック:集計の有効性を評価するために対応チームを関与させる
- カスタム閾値: 14-インシデント閾値は、チームの規模と対応能力に基づいて調整が必要な場合があります。
次のステップ
- 即時の対応:現在このルールに違反しているポリシーに対処する
- 継続的な監視:このスコアカード ルールを毎週確認して、集計ノイズの新しいソースを検出します。
- レベル 2 に進む:集計ノイズが抑制されたら、 積極的な監視の実践に焦点を当てる
一括最適化に関する追加のガイダンスについては、 「一括品質管理実装ガイド」を参照してください。