アラートの品質を管理する

チームがあまりにも多くのアラートや誤報を受け取ると、アラート疲れが発生し始めます。どちらかの要因が増加すると、その疲労は深刻な悪影響を及ぼし始めます。圧倒的なイベントの対応担当者は誤ったアラートに慣れており、より深刻な問題ではなく、すぐに解決するのが簡単な問題を優先します。さらに悪いことに、応答期限内にとどまるために、未解決のまとめイベントを単純に閉じ始めてしまうことがよくあります。これは、集中イベントの応答時間や重大な停止の発生が増加する一方で、実際のアラートが騒音の中に紛れてしまうことを意味します。

アラート疲れを解消し、将来的に発生しないようにするには、アラートの品質を向上させる必要があります。個別品質管理 (AQM) のポリシーを採用すると、迷惑なイベントの数を減らすことに重点が置かれ、ビジネスに真の影響を与えるのみに焦点を当てることができます。これにより、アラート疲労が軽減され、あなたとあなたのチームが適切なタイミングで適切な場所に注意を集中できるようになります。

次の場合、あなたはAQMの有力候補です。

アラートの数が多すぎます。
長時間開いたままのアラートがある。
関連性のないアラートがたくさんあります。
モニタリングツールが発見する前に、お客様が問題を発見する。

ヒント

アカウントにこれを実装する前に、実践的な学習アプローチを試してみませんか?一括品質管理コースをご覧ください。

アラート品質管理を使用する理由は何ですか?

数回の品質管理に基づいたプラクティスを採用すると、応答時間が短縮され、重要なイベントに対する認識が高まります。集計の信号対雑音比が向上すると、混乱が軽減され、問題の根本原因を迅速に特定して切り分けることができるようになります。目標は、より価値の低いアラートを削減しながら、より価値のある集中イベントがいつ発生するかを識別する簡単な方法を作成することです。結果は次のようになります:

稼働時間と可用性の向上。
平均解決時間 (MTTR) の短縮。
アラートの音量が減少しました。
価値のないアラートを簡単に識別できるので、価値のあるものにするか、削除することができます。

重要業績評価指標の使用

適切な主要パフォーマンス指標 (KPI) を使用すると、最もノイズが多く価値の低いアラートを見つけて、その価値を向上させたり削除したりすることができます。 AQM プロセスを使用して、イベントの量とエンゲージメント KPI を収集および測定し、それらを使用して傾向を特定し、深刻な問題を引き起こす問題を修正します。以下に、すべての KPI に関する情報と、 New Relic UIのどこからでも監視できるようにするための各 KPI のNRQL書き込みを示します。

まとめイベントボリューム

大量イベント（アラートの有無にかかわらず）をタスクのキューのように扱う必要があります。キューと同様に、アラートの数は常に可能な限りゼロに近くする必要があります。集中イベントごとに、状態を解決するための調査または是正措置を開始する必要があります。集計が何らかのアクションをもたらさない場合は、アラート条件の価値を疑う必要があります。

特に、特定の集計イベントが頻繁にトリガーされる場合は、常に意味のある影響がある状態なのか、それとも単にノイズが多いだけなのかを疑問視する必要があります。まとめイベントのボリューム KPI は、これらの質問に答え、高品質のアラートの健全な状態に向けた進捗状況を測定するのに役立ちます。

これは、一定期間に発生したイベントの数です。通常は、現在の週と前の週を比較する必要があります。

Goal: 価値の低いイベントや迷惑イベントの数を減らします。

Best practices:

条件設定が実際のビジネスインパクトを検出するためのものであることを確認する。
条件設定が異常な動作を検出していることを確認してください。
まとめイベントの詳細Acknowledge機能を使用して、アラートの価値を測定します。「集中イベント承認 KPI」の割合を参照してください。
AQMのKPIをすべてのステークホルダーに報告する。
```
FROM NrAiIncident SELECT count(*) AS 'Incident Count' WHERE event = 'open' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO
```

これは、一定期間にわたるすべてのイベントの合計分数の合計です。通常は、現在の週と前の週を比較する必要があります。

Goal: イベント累計の累計時間を短縮します。

Best practices:

この KPI の精度が損なわれる可能性があるため、頻繁イベントを手動で閉じないでください。
受信者からの修復アクションが発生しないアラートを削除します。
検出とレスポンスタイムの改善における重要性を伝えることで、 percent investigatedとmean-time-to-investigate KPI を改善します。

AQMのKPIをすべてのステークホルダーに報告する。

FROM NrAiIncident SELECT sum(durationSeconds)/60 AS 'Incident Minutes' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

これは、測定期間内のイベントの平均継続時間です。この数値はできるだけ低くしたいものです。

Goal: MTTCの短縮

Best practices:

この KPI の精度が損なわれる可能性があるため、頻繁イベントを手動で閉じないでください。
信頼性エンジニアリングスキルを向上させます。

AQMのKPIをすべてのステークホルダーに報告する。

FROM NrAiIncident SELECT average(durationSeconds/60) AS 'Incident MTTC (minutes)' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

これは、合計時間が 5 分未満の集中イベントの割合です。これは、集中イベントの状態が頻繁に変化することを示している可能性があり、そのため、集中イベントの原因と重大度がわかりにくくなります。この状態はalert event flappingと呼ばれます。

Goal: 期間が短い集中イベントの割合を最小限に抑えます。

Best practices:

システムに重大な影響を与える正当な異常が条件によって検出されていることを確認します。

サービスレベル管理を理解します。

FROM NrAiIncident SELECT percentage(count(*), WHERE durationSeconds <= 5*60) AS '% Under 5min' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

ユーザーエンゲージメント

人気イベントの価値は、それが受ける注目の量によって測るべきです。個人が受け取るエンゲージメントの量は、その価値を直接測る指標です。エンゲージメントが高いほど集計は有益である一方、エンゲージメントが低い（またはゼロ）場合は集計がノイズになる可能性があり、変更するか無効にする必要があることを意味します。

イベントの意識が高まった瞬間を測定することと、解決活動がいつ始まるかを認識することの間には大きな違いがあります。 New Relicアラートとの統合を使用している場合は、まとめイベントが外部の大量イベント管理ツールに送信されたときではなく、解決アクティビティの開始時にNew Relicに送信されたAcknowledgeイベントがトリガーされるようにしてください。

これは、 true確認フラグが付いているイベントの割合を示します。現在の週と前の週を比較する必要があります。

Goal: イベント全体のエンゲージメントの割合を増やします。

Best practices:

該当する場合、 DevOpsチームがイベント大量を承認するのが適切なタイミングを認識していることを確認してください。
アラートの確認をゲーム化することで、利用を促進します。

大量の謝罪会見をしない。

FROM NrAiIssue SELECT filter(count(*), WHERE event='acknowledge')/filter(count(*), WHERE event='create')*100 AS '% Investigated' WHERE priority='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

これは、イベントを承認するまでにかかる平均時間を示します。通常は、現在の週と前の週を比較する必要があります。

Goal: 調査にかかる平均時間を短縮します。

Best practices:

イベント対応者のアラートに対する信頼を築くよう努めてください。
貴重なアラートが確認されていることを確認してください。

アラートに迅速に対応するよう、対応チームにインセンティブを与える。

FROM NrAiIssue SELECT average(acknowledgeTime - activateTime) / 60000 AS 'Incident MTTI (minutes)' WHERE event = 'acknowledge' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

次は何ですか？

前のドキュメントの AQM プロセスを実装すると、信頼性と安定性を維持しながら、アラートの量が大幅に削減されることがわかります。上記のベストプラクティスに従う場合、AQM KPI はこれらの改善に関する正確な情報を提供します。

AQM の実装が完了したら、次のようなプラットフォームの他の側面の改善と管理を検討することもできます。

一つ前の手順

アラートを使用してスタックを改善する方法を学ぶ

この機械翻訳は、参考として提供されています。

ヒント

アラート品質管理を使用する理由は何ですか?

重要業績評価指標の使用

まとめイベントボリューム

累計イベント数KPI

累計イベント期間KPI

MTTC（Mean Time To Close）KPI

5分未満の割合 KPI

ユーザーエンゲージメント

承認されたKPIの割合

MTTI（Mean Time to Investigation）KPI

次は何ですか？

一つ前の手順

この機械翻訳は、参考として提供されています。

アラートの品質を管理する

ヒント

アラート品質管理を使用する理由は何ですか? .css-21sua1{background:none;border:none;width:0;padding:0;}

重要業績評価指標の使用

まとめイベントボリューム

累計イベント期間KPI

MTTC（Mean Time To Close）KPI

5分未満の割合 KPI

ユーザーエンゲージメント

承認されたKPIの割合

MTTI（Mean Time to Investigation）KPI

次は何ですか？

一つ前の手順

アラート品質管理を使用する理由は何ですか?