• ログイン無料アカウント

本書は、お客様のご参考のために原文の英語版を機械翻訳したものです。

英語版と齟齬がある場合、英語版の定めが優先するものとします。より詳しい情報については、本リンクをご参照ください。

問題を作成する

サービスレベルの消費

SLIとSLOのセットを作成すると、NewRelicはSLIデータの生成を開始します。最初の結果がUIに表示されるまでに数分かかります。

サービスレベルの検索と表示

サービスレベルを見つけるには、いくつかの方法があります。

  • 上部のナビゲーションバーのその他メニュー(カスタマイズ可能)のサービスレベルの下。ここでは、SLIをタグでフィルタリングできます。
  • SLIが定義されている エンティティ のプレビューで。UIのいたるところで見ることができます。例えば、エクスプローラーの ナビゲータービュー からエンティティをクリックしてみてください。
  • APM サービスで、レポートの項目で。
  • APMサービスやブラウザアプリケーションなど、SLIまたはSLI関連のエンティティを含むワークロード。特定のワークロードでSLIをグループ化する場合は、必ずAPMサービスまたはブラウザーアプリを既存のワークロードに追加するか、新しいワークロードを作成してください。

サービスレベルリストには、行ごとに1つのサービスレベルが表示され、サービスレベル名、それに関連するエンティティ、およびSLOのターゲットと期間が示されます。

サービスレベルをフィルタリングする

サービスレベルにタグを追加する場合は、フィルターバーを使用して、取得するサービスレベルをスコープダウンし、それらをグループ化します。

  • フィルタリングを使用して、チームがまだコミットしていないテストまたは意欲的なサービスレベルを非表示にします。
  • グループ化を使用して、特定の所有者、組織単位、またはユーザーフローにリンクされているサービスレベルに焦点を合わせます。

SLOコンプライアンスビューモード

達成しようとしていることに応じて、次のビューモードのいずれかを使用してSLO準拠を確認します。

  • 運用:サービスの運用を担当する場合は、このビューを使用して、過去2時間、1日、7日、および28日のローリングウィンドウでのSLOコンプライアンスとエラーバジェットの傾向を確認します。
  • 期間全体:ビジネスレビュー、回顧展、優先順位付け会議の場合、このビューを使用して、暦週または月ごとのコンプライアンスを比較します。

リクエストベースのSLOは、リクエストの総数に対する適切な応答の数の比率として定義されたSLIから決定されることに注意してください。これは、要求ベースのSLOが、その比率がSLOコンプライアンス期間の目標を満たすか超えるときに満たされることを意味します。

操作のSLOを表示する

運用ビューは、さまざまな時間枠でサービスレベルがどのように向上または低下しているかを示します。

Service level operational view
  • SLOコンプライアンスセルの背景が緑色の場合は、その期間は順調に進んでいます。リクエストを100%正常に処理できなかった可能性がありますが、まだ消費するエラーバジェットが残っています。
  • SLOコンプライアンスセルの背景が黄色の場合、エラーバジェットは完全に消費されそうになり、残りの期間はもっと注意する必要があります。
  • SLOコンプライアンスセルの背景が赤の場合、この期間に目標SLOに到達しておらず、エラーバジェットをすべて消費しています。展開する必要がある場合は注意し、SLIを改善するための作業を計画してください。 SLOをクリックすると、ゴールデンメトリック、最新の展開、異常、進行中の問題など、エンティティに関する詳細データを表示できます。このデータは、SLOターゲットを逃した時期と理由を理解するのに役立ちます。

2時間のウィンドウは、クライアントに迅速かつ重大な影響を与えるインシデントを表面化する可能性があります。このSLOが満たされていない場合は、調査を開始し、サービスが低下し続けないことを確認してください。一方、時間枠が長くなると、アラート条件に違反するほど深刻ではない問題が表面化する可能性があり、そうでない場合は検出されなくなる可能性があります。

また、過去1、7、および28日間の残りのエラーバジェットを取得して、エラーバジェットを回復または消費している速度を確認します。

ビジネスレビューのために期間中のSLOを表示する

特定のカレンダー頻度で発生する計画およびレビュー会議でのレポートには、期間ごとのビューを使用します。このビューの付加価値は、特定の暦期間における時間枠にわたるSLOコンプライアンスのより長い履歴を表示することです。

Service level business view
  • 期間を数週間から数か月(そしてすぐに四半期も)に切り替えることができます。
  • セルの色は、操作ビューで説明されているとおりに機能します。

サービスレベルの詳細を理解する

SLIをクリックして、SLIの詳細を開きます。

SLI details

SLIの詳細を2つの主な目的に使用します。

  • SLO分析のために。どの時間帯でSLOの目標が達成できなかったかを確認する。
  • SLI/SLOの設定や微調整に。New Relic が SLO 値をどのように算出したかをご覧ください。

SLIカードには以下のチャートが含まれています。

良い反応と悪い反応

これらは、サービスレベルを分析するための 重要な概念です

  • 有効なリクエストとは、SLIにとって意味のあるものとしてカウントしたいリクエストのことです。
  • 良い反応とは、良い体験を提供すると考えられる反応のことです(例えば、サービスが2秒以内に反応し、エンドユーザーに良いナビゲーション体験を提供した場合など)。
  • バッドレスポンスとは、悪い体験を提供すると考えられるレスポンスのことです(サービスがサーバーエラーで応答し、ユーザーのフローを中断させたような)。

このグラフは、お客様のサービスが受け取った有効なリクエストの総数を、良いものと悪いものに分けて表示しています。

このグラフは、お客様のサービスの実際のスループットを示しており、スループットの増加と悪い反応の間に相関関係があるかどうかを確認するのに利用できます。

SLI達成度の推移(%)

これは、時間の経過とともに、良いと思われる応答の割合を示すものです。このラインは100%に近い値を示し、ほとんどのリクエストが正常に処理されたことを意味します。

期間中のコンプライアンス

これは、SLO遵守期間中に測定された、総イベント(リクエスト)に対する良好なイベント(レスポンス)の比率です。100%に近ければ近いほど、その期間中にSLOの目標を達成していることになります。この割合がSLOの目標値を下回ると、グラフが赤に変わります。信頼性にもっと力を入れる必要があります。

誤差予算の残額(Requests)

エラーバジェットは、SLOの別の読み方です。これは、SLOの期間中に、目的を損なうことなく、どのくらいの割合のリクエストに悪い反応があるかを示すものです。

許容される不良反応の総量はリクエストのスループットによって変わるため、New Relic ではエラーバジェットの残りの割合を表示しています。

  • 残りのエラーバジェットが25%以上であれば、グリーンが表示され、SLOは良好です。
  • 誤差予算が25%以下になると、黄色に変わります。これは、その期間の予算をすべて使い切ってしまうのに近いことを意味します。新しいデプロイメントや変更にはより注意を払い、信頼性向上のための作業を計画するとよいでしょう。
  • エラー予算が完全に使われると、赤で表示されます。

SLI達成度の経年変化とSLO目標値(%)

最後のグラフは、(SLI attainment over time)[#sli-over-time]とSLO目標値の2つの時系列を示しています。SLIの値がSLOの目標値を下回っている場合、そのサービスはSLOに達していないことになります。このチャートを使って、どの時間帯にSLO目標を達成できなかったのかを知ることができます。

悪い反応を分析する

SLO が準拠しない場合、元のデータを分析し、何が問題だったのかに特に重点を置いて、それが顧客にどのような影響を与えるかをよりよく理解したいと思うでしょう。これを行うには、どのサービスレベルでも利用可能な Analyze オプションを使用します。

Analyze SLI detractors

[分析]をクリックしてクエリビルダーを開き、データにドリルダウンして、SLOが欠落している原因と影響をよりよく理解します。元のNRDBの不良イベント、つまりSLOのコンプライアンスを侵害したイベントを表すクエリから開始します。次に、 FACET句を使用して特定の属性(アカウント、クライアントID、要求元など)を分析し、それがSLOに特に損害を与えるかどうかを検出することをお勧めします。これらの有害な値を「批判者」と呼びます。

たとえば、トランザクションデータの場合、 nameでファセットを作成して、サービスのトランザクションのいずれかが他のトランザクションよりも多くの失敗した結果を返しているかどうかを確認します。どのクライアントが最も多くの失敗した結果を取得しているかを知るには、 request.uriでファセットを試してみてください。

ブラウザPageViewTimingイベントの場合、 deviceTypeuserAgentNameuserAgentOS 、またはcountryCodeによるファセットを試すことができます。

Use the FACET clause to identify detractors

一人またはごく少数の違反者がSLOのコンプライアンスを本当に悪化させていることを察知した場合、いくつかの行動を取ることができます。

  • まず、問題のトラブルシューティングを行い、減点対象者がSLOを満たすように作業を計画する。
  • また、SLOターゲットをより現実的な値に一時的に調整し、信頼性を向上させるための作業を計画することも可能です。

しかし、もしその減点対象が本当に例外で、サービスのパフォーマンスや信頼性に対する一般的な期待に容易に合致しないのであれば、その場合のために専用のSLOを用意することを検討してください。このような手順をお勧めします。

  • まず、元のSLIクエリでWHERE句を使用して、中傷者(たとえば、 WHERE countryCode != 'US' )を除外します。
  • 次に、デトラクターのケース(たとえば、 WHERE countryCode = 'US' )のみを考慮したクエリでWHERE句を使用して新しいSLIを作成し、より現実的なSLOターゲットを設定します。
Copyright © 2022 New Relic株式会社。