重大なアラートの範囲は、監視戦略における重大なアラートと警告アラートのバランスを測定します。このスコアカード ルールは、あらゆる問題について重大なアラートに過度に依存しないようにすることで、アラートの疲れを回避するのに役立ちます。
このスコアカードルールについて
この重大なアラート適用ルールは、ビジネス稼働時間成熟度モデルのレベル 1 (リアクティブ) の一部です。 これは、集計戦略に重大なアラート条件と警告アラート条件の適切な組み合わせが含まれているかどうかを評価します。
これが重要である理由:重大なアラートが多すぎるとアラート疲れにつながり、チームが緊急の通知に鈍感になる可能性があります。バランスのとれたアラート戦略は、チームがさまざまな重大度レベルに適切に対応するのに役立ちます。
このルールの仕組み
このルールは、アラートインシデントの 7 日間のサンプルを分析し、重大なアラート条件と警告アラート条件によってトリガーされる割合を計算します。 アカウント内のすべてのモニター エンティティにわたる比率を測定します。
スコアを理解する
- 合格(緑):アラートの25%以下が重大と分類されています
- 不合格(赤):アラートの25%以上が重大と分類されています
- 最終:重大なアラートが真の緊急事態を表すバランスの取れた個別戦略を維持する
これが意味するもの:
- 合格点:適切なエスカレーションレベルを備えたバランスの取れたアラート戦略を備えている
- 不合格スコア:重大なアラートを使いすぎている可能性があり、アラートの疲労や応答効率の低下につながる可能性があります。
バランスのとれた総合戦略の構築
適切に設計されたアラート戦略には、次の 3 種類のアラートが含まれている必要があります。
すぐに対処できるアラート(重大)
- 目的:即時の対応が必要なビジネスに影響を与えるイベントを示す
- 例:サービス停止、重大なシステム障害、セキュリティ侵害
- 応答時間:数分以内
- 対応者:オンコールエンジニアまたはインシデント対応チーム
予測アラート(警告)
- 目的:すぐにはビジネスに影響しないが、将来的な対応が必要になる可能性のあるシグナル状態
- 例:エラー率の上昇、容量制限への接近、パフォーマンスの低下
- 応答時間:数時間以内または営業時間内
- 応答者:開発チームまたはシステム アドミニストレーター
遡及アラート(情報提供)
- 目的:定期的な分析と長期的なシステム最適化のためのデータを提供する
- 例:週次パフォーマンス概要、キャパシティ プランニング メトリクス、傾向分析
- 対応時間:予定されたレビュー期間中
- 対応者:計画された分析セッション中の運用チーム
重大なアラートの適用範囲を改善する方法
スコアに重大なアラートが多すぎることが示されている場合は、次の手順に従って戦略のバランスを調整してください。
1. 現在のアラートを監査する
- すべての重大なアラートを確認する:現在クリティカルに設定されているすべてのアラート条件をリストします。
- ビジネスへの影響を評価する:重大なアラートごとに、「ビジネスへの影響を防ぐために、すぐに対応する必要がありますか?」と質問します。
- ダウングレードの候補を特定する:警告である可能性のあるアラートを探す
2. アラートを適切に再分類する
次の場合には警告にダウングレードします:
- この問題は顧客に直ちに影響するものではない
- 営業時間までご返信をお待ちください
- まとめは潜在的な問題の早期警告を提供します
- 手動介入は緊急には必要ない
次の場合はクリティカルとして保持します。
- 顧客向けサービスは利用できません
- データ損失やセキュリティインシデントが発生する
- 収益創出システムの失敗
- 迅速な対応が連鎖的な障害を防ぐ
3. 段階的なアラートを実装する
一括エスカレーション パスを作成します。
- メトリクスがレベルに近づくと最初に警告多数が発生します
- 状況が悪化したり持続したりすると、重大なアラートが発生する
- 時間ベースのエスカレーションを使用して、チームがエスカレーション前に対応できるようにします。
エスカレーションの例:
- 警告: 5 分間の応答タイム > 2 秒
- 重大: 応答タイムが 2 分間 > 5 秒、または警告が 30 分間続く
4. 変更を検証する
アラートを再分類した後:
- 見逃した問題を監視:重要な問題がまだ検出されていることを確認します
- 対応時間を測定する:チームがさまざまな重大度レベルに適切に対応していることを確認します。
- チームのフィードバックを集める:回答者に新しい分類が適切かどうか尋ねる
改善の測定
これらのメトリクスを追跡して、全体的なリバランスの取り組みを検証します。
- 重大なアラートの割合: 25% 目標に向けて減少するはずです
- 対応の有効性:本当に緊急の場合、チームは重大なアラートに対してより迅速に対応する必要があります。
- アラート疲れの軽減:集計分類の信頼性についてチームメンバーにアンケート
- インシデント検出範囲:重要な問題を早期に発見できるようにします
一般的なシナリオと解決策
重要とマークされているものすべて:
- 問題:チームはすべてのアラートを重要としてマークし、注意を喚起します
- 解決策:重大と警告の分類に関する明確な基準を確立し、適切な使用方法についてチームをトレーニングする
重要な問題を見逃すことへの恐れ:
- 問題:チームは警告アラートが無視されるのではないかと心配している
- 解決策:定期的な警告集計レビューのプロセスを作成し、さまざまな重大度レベルに対してSLAを確立する
レガシーまとめ設定:
- 問題:古いアラートは重大度レベルを考慮せずに設定されていた
- 解決策:既存のすべてのアラートを体系的に監査し、現在のビジネスへの影響に基づいて再分類する
25% 閾値を調整する時期
デフォルトの 25% 閾値はほとんどの組織で機能しますが、次の場合には調整が必要になる場合があります。
- より高い割合が許容される:組織は主に重要な実稼働システムを監視します
- 必要なパーセンテージが低い:開発環境やステージング環境を含む広範な監視を実施している場合
- 業界の要件:規制やコンプライアンスの要件によって、アラート戦略は異なります。
重要な考慮事項
- ビジネスコンテキストが重要:重大なアラートは、ビジネスの優先順位と顧客への影響に合わせて行う必要があります
- チームのキャパシティ:さまざまな集計ボリュームと重大度に対応するチームの能力を考慮する
- エスカレーション手順:集計タイプごとに明確なエスカレーションパスが存在することを確認する
- 定期的なレビュー:集計分類は、システムやビジネスの優先順位の変化に応じて進化する必要があります。
次のステップ
- 即時の対応:現在、不合格スコアの原因となっているアラートを確認し、再分類する
- 継続的な監視:バランスのとれたアラートを維持するために、このスコアカードのルールを毎週チェックしてください。
- レベル 2 に進む:網羅範囲が最適化されたら、 プロアクティブな監視の実践に焦点を当てる
一括戦略に関する包括的なガイダンスについては、 「一括品質管理実装ガイド」を参照してください。