• ログイン

本書は、お客様のご参考のために原文の英語版を機械翻訳したものです。

英語版と齟齬がある場合、英語版の定めが優先するものとします。より詳しい情報については、本リンクをご参照ください。

問題を作成する

サービスレベルに関するアラート

サービス レベルを実装することで期待される結果の 1 つは、アラート ポリシーを調整し、実際にクライアント エクスペリエンスを損ない、ビジネスにリスクをもたらす問題に通知を削減できることです。

サービス レベル目標を設定すると、サービスがエラー バジェットを消費する速度が速すぎる場合に通知するアラートを構成できます。これらのアラートは、ビジネスに大きな影響を与えるインシデントが発生したときに表示されます。問題が発生した場合は、優先度を高く設定し、適切なチームと協力して問題の原因を診断するプロセスを開始する必要があります。

エラー バジェット バーンレートに関するアラート

バーン レート アラートの背後にある考え方は次のとおりです。エラー バジェットは、SLO 期間中に許容できる不良イベントの数を表します。定義上、すべてのエラー バジェットを一定の割合で使用する場合、バーン レート = 1 になります。その場合、SLO 期間が終了する前にエラー バジェットを完全に使い切ってしまうため、許容バーン レートを超えるバーン レートは維持できません。したがって、それが長時間続く場合は、アラートを受け取ることをお勧めします。

エラー バジェットの燃焼率に関するアラートを作成する

サービス レベルの詳細ページにアラートを作成するオプションがあります。

[アラート] をクリックすると、アラート構成カードが表示されます。このカードは、SLO 予算の消費率に関する Google の推奨に従って、特に高速バーン アラート用に事前入力されます。これらのアラートは、使用量の突然の大幅な変化を警告します。これを修正しないと、すぐにエラー バジェットを使い果たしてしまいます。1 時間以内に 2% の SLO バジェット消費量を設定します。これは、達成されないままにしておくと、サービスが 50 時間でエラー バジェットを完全に消費することを意味します。

または、独自のしきい値を設定することもできます。

条件のしきい値を設定する

エラー バジェット バーン レートは、SLO 期間全体を考慮して、サービスがエラー バジェットを消費する速さを示します。これを計算する式は次のとおりです。

クリティカル バーン レート = (許容される予算消費 * SLO 期間 [h]) / (評価期間 [h])

  • 許容予算消費: 評価期間中に消費できる予算の量。
  • SLO 期間: SLO の時間枠 (通常は時間単位)。
  • 評価期間: 考慮している集計ウィンドウ (簡単にするために、アラート条件の集計ウィンドウで 1 時間を使用できます)。

アラートのしきい値を定義するには、1 時間あたりのクリティカル バーン レートにエラー バジェットを掛けます。

しきい値 = = エラー バジェット * クリティカル バーン レート =

99.9%の目標を持つ28 日間のSLO の例で、これがどのように機能するかを見てみましょう。

28 日間の SLO の場合、Googleは、過去 1 時間2%の SLO 予算消費についてアラートを出すことを推奨しています。つまり、同じ割合で予算を消化し続けると、50 時間で SLO に違反することになります (100% / 2% の結果)。

次に、次の変数があります。

SLO 目標: 99.9%

SLO 期間: 28 日 (28 * 24 時間)

許容予算消費: 2% (0.02)

評価期間:1時間

したがって:

1 時間あたりの臨界燃焼率 = (0.02 28 24) / 1 = 13.44

そして最後に:

しきい値 = 0.1 * 13.44 = 1.344

これは、アラート条件のしきい値として使用する値です。クエリがしきい値 (この例では 1.344) を超える値を返した場合、評価期間 (この例では 60 分) に少なくとも 1 回、違反を開きます。 .

重要サービス レベル側で SLO 目標を編集する場合は、アラート条件の目標も忘れずに編集してください。

残りの設定

このアラート条件の追加パラメーターを調整することが重要です。

ウィンドウ期間を評価期間に設定します。前の例に従って、 60 分を設定します。これは、アラート システムが 60 分のデータを集計することを意味します。

重要評価期間は、最大 2 時間のデータの集計をサポートします。

New Relic が毎分前の 60 分間のデータを評価するように、間隔ごとに60 秒のスライドを使用できます。

次に、通知の管理方法を決定するポリシーに条件を関連付けます。

最後に、未解決の違反をいつ自動的にクローズするかを選択できます。

制限

New Relic Alerts は、最大 2 時間分のデータを集約できます。そのため、New Relic はまだ以下を提供していません。

  • SLO 期間全体にわたって SLO コンプライアンスについてアラートを出す機能。
  • 残りのエラー バジェットについて警告する機能。
Copyright © 2022 New Relic株式会社。

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.