• EnglishEspañol日本語한국어Português
  • ログイン今すぐ開始

この機械翻訳は、参考として提供されています。

英語版と翻訳版に矛盾がある場合は、英語版が優先されます。詳細については、このページを参照してください。

問題を作成する

アラートの品質を管理する

チームが受信するアラートが多すぎる場合、または誤ったアラームが多すぎる場合、アラート疲労が発生し始めます。いずれかの要因が増加すると、その疲労は深刻な悪影響を及ぼし始めます。圧倒されたインシデント対応担当者は、誤ったアラートに慣れ、より深刻な問題ではなく、迅速に解決するのが簡単なアラートを優先します。さらに悪いことに、応答時間の目標内に収めるために、未解決のインシデントを単純にクローズし始めることがよくあります。これは、インシデントへの対応時間や重大な停止の発生が増加する一方で、実際のアラートがノイズの中に紛れてしまうことを意味します。

アラート疲れを直し、将来的に再発しないようにするには、アラートの質を向上させる必要があります。 集計品質管理 (AQM) ポリシーを採用すると、不要なインシデントの数を減らすことに重点が置かれ、ビジネスに真の影響を与えるのみに集中できるようになります。 これによりアラート疲労が軽減され、あなたとあなたのチームが適切なタイミングで適切な場所に注意を集中できるようになります。

次の場合、あなたはAQMの有力候補です。

  • アラートの数が多すぎます。
  • 長時間開いたままのアラートがある。
  • 関連性のないアラートがたくさんあります。
  • モニタリングツールが発見する前に、お客様が問題を発見する。

ヒント

これをアカウントに実装し始める前に、実践的な学習アプローチを試してみませんか?アラート品質管理ラボを確認してください。

アラート品質管理を使用する理由は何ですか?

アラート品質管理に基づいたプラクティスを採用すると、応答時間が短縮され、重要なイベントに対する認識が高まります。アラートの信号対雑音比を改善すると、混乱が軽減され、問題の根本原因を迅速に特定して切り分けることができます。目標は、価値の低いアラートを削減しながら、より価値の高いインシデントが発生したときを識別する簡単な方法を作成することです。その結果、次のような結果が得られます。

  • 稼働時間と可用性の向上。
  • 平均解決時間 (MTTR) の短縮。
  • アラートの音量が減少しました。
  • 価値のないアラートを簡単に識別できるので、価値のあるものにするか、削除することができます。

重要業績評価指標の使用

適切な主要業績評価指標 (KPI) を使用すると、最もノイズが多く価値の低いアラートを見つけて、その価値を向上させたり削除したりすることができます。AQM プロセスを使用してインシデントの量とエンゲージメント KPI を収集および測定し、それらを使用して傾向を特定し、深刻な問題を引き起こす問題を修正します。以下に、すべての KPI に関する情報と、New Relic UI のどこからでも監視できるようにする各 KPI の NRQL クエリを示します。

インシデント量

インシデントは (アラートの有無にかかわらず) タスクのキューのように扱う必要があります。キューと同様に、アラートの数は常に可能な限りゼロに近づける必要があります。各インシデントは、状態を解決するために調査または是正措置を開始する必要があります。アラートによって何らかのアクションが発生しない場合は、アラート条件の値を疑問視する必要があります。

特に、特定のインシデントが頻繁に発生する場合は、意味のある影響を与える継続的な状態にあるのか、それとも単に大量のノイズが発生しているだけなのかを疑う必要があります。インシデント量 KPI は、これらの質問に答え、高品質のアラートの健全な状態に向けた進捗状況を測定するのに役立ちます。

ユーザーエンゲージメント

インシデントの価値は、それが受ける注目の量によって測るべきです。個々のアラートが受け取るエンゲージメントの量は、その価値の直接の測定値となります。エンゲージメントが多いということは、価値のあるアラートを意味し、エンゲージメントが低い(またはゼロ)ということは、アラートが単にノイズが多い可能性があるため、変更するか無効にする必要があることを意味します。

インシデントを認識した瞬間を測定することと、解決活動がいつ始まるかを認識することの間には大きな違いがあります。New Relic アラートとの統合を使用している場合は、New Relic に送信された Acknowledge イベントが、インシデントが外部インシデント管理ツールに送信されたときではなく、解決アクティビティの開始時にトリガーされるようにしてください。

次は何ですか?

前のドキュメントの AQM プロセスを実装すると、信頼性と安定性を維持しながら、アラートの量が大幅に削減されることがわかります。上記のベスト プラクティスに従う場合、AQM KPI はこれらの改善に関する正確な情報を提供します。

AQM の実装が完了したら、次のようなプラットフォームの他の側面の改善と管理を検討することもできます。

一つ前の手順

アラートを使用してスタックを改善する方法を学ぶ

Copyright © 2024 New Relic株式会社。

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.