エラーの最適化: エラー追跡を改善する

このガイドでは、エラーを最適化して、エラー率、エラー検出、カスタマーエクスペリエンスを向上させる方法について説明します。これは、オブザーバビリティの成熟度に関するシリーズの一部です。

概要

エラー追跡は、アプリケーションのエラーとエラー率を把握することで、顧客のソフトウェア体験に影響を与える問題に対処できるようにします。

このガイドの目的は、New Relic の顧客またはチームが以下を行えるようにすることです。

New Relic がエラーを理解する方法を調整して、エラー関連のメトリクスが意味のあるエラーのみを反映するようにします。
時間の経過とともにエラーの発生率を下げる

望ましい結果

アプリケーションのエラー率と平均解決時間を短縮することで、カスタマーエクスペリエンスと信頼性を向上させます。

主要業績評価指標

ビジネスKPI

顧客が経験するエラーを減らすことで、信頼性が向上します。信頼性を向上させた組織は、より高いコンバージョン率 (ユーザージャーニーの完了率) とより高いユーザーエンゲージメントを経験します。これにより、組織は収益目標 (商業) または社会的影響の目標 (非営利) の達成に近づきます。

コンバージョン率は、多くの場合、購入率または広告のクリックスルー率を示すために使用されます。この場合、コンバージョン率は完了したユーザージャーニーを測定するために使用されます。完了したユーザージャーニーには、チケットの発行、フォームの送信、ビデオの視聴、サイトへの広告のフォロー、オンラインでの購入などが含まれます。

Goal: ユーザージャーニーの完了とユーザーセッションの比率を高めます。

Best practices

エラーはフロントエンドアプリケーションとバックエンドアプリケーションの両方で発生しますが、通常はフロントエンドで測定されます。ファネルクエリはコンバージョンの測定によく使用されますが、特定の期間の合計セッション数に対するコンバージョン数をカウントすることで、さらに簡単に測定できます。

API サービスを提供し、ビジネスにコンバージョン率が適用される場合、最初のサービスへの呼び出し数と呼び出しを取得する最終サービスへの呼び出し数を比較することで、コンバージョン率を測定できます。例えば：

FROM Transaction SELECT 
   (FROM Transaction SELECT count(*) WHERE request.uri = '/api/v1/lastStep') /
   (FROM Transaction SELECT count(*) WHERE request.uri = '/api/v1/firstStep') AS conversionRate

コンバージョン改善のその他の例については、「 Bottom-of-the-Fanel 分析ガイド」を参照してください。このガイドでは、ユーザージャーニーの最終ステップから始めてコンバージョン率を向上させる方法が説明されています。

ページビューをカウントして、エンゲージメントの増減を測定します。

Goal: ページビューを増やす

Best practices

エラーはフロントエンドアプリケーションとバックエンドアプリケーションの両方で発生しますが、通常はフロントエンドで測定されます。改善を行っている箇所に関連するフロントエンドアプリケーションのページビューを追跡することで、エラーの改善がユーザーエンゲージメントに与える影響を測定します。

NRQL クエリは次のようになります。

FROM PageView SELECT count(*) WHERE appName IN ('CustomerApp1', 'CustomerApp2')

API をサービスとして提供し、それがビジネスに関連している場合は、トランザクション数を追跡することで、ページビューに相当するものを追跡できます。

FROM Transaction SELECT count(*) WHERE appName = 'apiService'

ページビューをカウントして、エンゲージメントの増減を測定します。

Goal: サイトにアクセスするユーザー数を増やす

Best practices

エラーはフロントエンドアプリケーションとバックエンドアプリケーションの両方で発生しますが、通常はフロントエンドで測定されます。一定期間内にサイトにアクセスしたユーザーの数を追跡することで、エラーの改善がユーザーエンゲージメントに与える影響を測定します。ユーザーを追跡するためにカスタムインストゥルメンテーションを追加していない場合は、代わりにセッションを追跡できます。

NRQL クエリは次のようになります。

FROM PageView SELECT uniqueCount(userId) WHERE appName IN ('CustomerApp1', 'CustomerApp2')

また

FROM PageView SELECT uniqueCount(session) WHERE appName IN ('CustomerApp1', 'CustomerApp2')

API をサービスとして提供し、顧客 ID を取得し、それがビジネスに関連している場合、トランザクションで顧客を追跡することにより、ユーザーに相当するものを追跡できます。

FROM Transaction uniqueCount(customerId) WHERE appName = 'apiService'

上記のビジネス KPI は、フロントエンドアプリケーションを提供することでユーザーをサポートすることを前提としています。API を介して顧客をサポートする場合、上記の KPI をトランザクションエンティティタイプに適合させることができる場合があります。API をサービスとして提供する一部の組織は、以下のような運用 KPI を使用して、提供するサービスの品質を高めています。

運用 KPI

エラー率は、リクエストに対するエラーの比率です。

エラーは、300 以上の HTTP 応答コード、未処理の例外、モバイルクラッシュ、またはチームの誰かがエラーになるように構成したイベントである可能性があります。

Goal: 管理するアプリケーション全体のエラー率を削減します。

Best practices

これは、エラー追跡の改善に対する進捗状況を追跡するために使用する主要な KPI です。エラー率を改善するための手順には、重要でないエラーを除外することと、影響の大きいエラーを解決することが含まれます。

解決までの平均時間は、問題が解決された直後に、アラートが問題を通知してから問題が解決されるまでの時間を測定します。この KPI は、アラートの品質管理の一部として追跡されます

Goal: エラー率を下げることで、問題解決までの平均時間を短縮します。

Best practices

強力なエラー対策を講じておくと、問題が発生したときに、次のことをより迅速に検出できるようになります。

問題がエラーの急増に関連しているかどうか
問題の原因がエラーである場合、どのエラーが問題の原因であるか
アラート品質管理ガイドには、この KPI を追跡する方法が示されています。

前提条件

必要なインストールと構成

、、モバイル監視、サーバーレス監視、またはOpenTelemetryソリューションでエラーが発生していることを確認してください。
Web アプリケーションの最新のソースマップ
モバイルアプリケーションの最新の記号化

アプリケーションのワークロードを作成する

エラーを最適化しようとしているアプリケーションとサービスのリストを定義します。エラー最適化プロセスを実施するチームは、これらのアプリとサービスに対して完全な責任と制御を持つ必要があります。決定したら、これらのエンティティのワークロードを設定します。

ワークロードは、特定のチームが担当するエンティティ (アプリケーション、インスタンスなど) のグループです。それらを使用すると、何かを実行できるエンティティのみのデータを確認できます。ここで設定したワークロードに基づいて、ほとんどの作業を進めることになります。

ワークロードのセットアップには数分しかかかりません。ワークロードの手順を参照してください。

すでにワークロードに精通しており、アプリケーションとサービスを複数のワークロードに分割したい場合は、そうすることができます。ワークロードごとに以下の手順に従ってください。

ワークロードのサービスレベルを作成する

サービスレベルを使用すると、特定のエンティティグループのサービスレベル目標 (SLO)を簡単に構成および表示できます。サービスレベルを使用することは、エラー管理プロジェクトの成功を監視および伝達するための 1 つの方法です。

ワークロードから、 Service levelsタブに移動します。ワークロード内のエンティティごとにエラー率を測定するサービスレベルを作成します。これは、サービスレベルUIのステップ 2 で設定します。サービスレベルごとに、WHERE 句を使用して、考慮すべきでない適切なrequestsやエラーを除外します。

モバイルクラッシュのサービスレベルを作成する

ステップ 2 では、有効なイベントのソースとしてMobileSession選択します。不正な応答のソースとしてMobileCrash選択します。
ステップ 4 では、サービスレベルにタグを追加します。デフォルトのタグcategory:successを使用できます。
モバイルリクエストエラーのサービスレベルを作成する
ステップ 2 では、有効なイベントのソースとしてMobileRequest選択します。不正な応答のソースとしてMobileRequestError選択します。
ステップ 4 では、サービスレベルにタグを追加します。デフォルトのタグcategory:successを使用できます。

サーバーレス監視と統合された AWS Lambda 関数のエラー率サービスレベルを作成します。

ステップ 1 では、エンティティタイプとしてLambda functionを選択します
ステップ 2 では、有効なイベントの場合はAWSLambdaInvocationを選択し、不適切な応答の場合はAwsLambdaInvocationErrorを選択します
ステップ 4 では、サービスレベルにタグを追加します。デフォルトのタグを使用できます category:success
現在、サービスレベルは、AWS Lambda の New Relic サーバーレスモニタリングを使用する AWS Lambda 関数のエラー率のみをサポートしています。次のクエリを使用して、サービスレベル外のエラー率を取得できます。
```
SELECT sum(provider.errors.Sum) / sum(provider.invocations.Sum) * 100 
FROM ServerlessSample
```

ステップ 1 でService - OpenTelemetryを選択します。
ステップ 2 の有効なイベントの場合、適切なイベントタイプとしてSpanエンティティタイプを使用します。以下を WHERE 句に追加します。 (span.kind LIKE 'server' OR span.kind LIKE 'consumer' OR kind LIKE 'server' OR kind LIKE 'consumer')
ステップ 2 の無効なイベントには、 SpanエンティティタイプとRepeat WHERE clauseオプションを使用します。以下を WHERE 句に追加して、不適切な応答を検出します。 otel.status_code = 'ERROR'
ステップ 4 では、サービスレベルにタグを追加します。デフォルトのタグcategory:successを使用できます。

サービスレベルを使用して、現在のエラー率に対する進捗状況を追跡します

上記のプロセスを使用して、現在のエラー率に基づいてサービスレベルを作成しました。

SLO 列には、ベースラインを使用して選択した目標エラー率が表示されます。
運用ビューモードでは、ターゲットに対する最近のパフォーマンスが表示されます。
期間表示モードでは、より長い期間にわたってターゲットに対するパフォーマンスが表示されます。
改善が行われると、エラー率の目標を更新できます。

改善プロセス

重要でないエラーを特定する
エラー率から重要でないエラーを取り除く
エラー率アラートを設定する
エラーヒーロー名簿を確立する
エラーインボックスを使用してエラーをトリアージする
エラーを JIRA にリンクする
エラーを Slack にリンクする
CodeStream を使用する

重要でないエラーを特定する

最も快適な方法でエラーを調べてください。以下を使用してこれを行うことができます。

APM、モバイル監視、JavaScript エラー、サーバーレス監視、および OpenTelemetry のすぐに使えるビュー
ワークロード用にフィルター処理された受信トレイのエラー
TransactionError 、 JavaScriptError 、 MobileRequestError 、 AwsLambdaInvocationError 、 Span

エラー率から重要でないエラーを取り除く

重要でないエラーは、次の 2 つの方法のいずれかで削除できます。

構成(APM のみ) またはドロップルールを使用して、それらの取り込みを停止します。このアプローチは、キャプチャする必要がないことが確実なエラーに対してのみ機能します。このアプローチの追加の利点は、ノイズの多いエラーの取り込みが減少することです。
NRQL を使用して、サービスレベルの計算からエラーを除外します。これを行うには、不適切な応答の WHERE 句フィルターに追加します。これによりエラー率が大幅に改善される場合は、必ずサービスレベルを再ベースしてください。そうすることで、エラーアラートの精度が向上します。

エラー率アラートを設定する

ワークロードのサービスレベルの作成で設定した各サービスレベルを確認し、エラー率が許容範囲を超えた場合にチームに通知するアラートを作成します。

エラーヒーロー名簿を確立する

アラートは、現在のレベルのエラーパフォーマンスを満たしているかどうかを知らせますが、改善には役立ちません。顧客の感情を改善するには、チームのメンバーが毎日エラーを確認するプロセスを作成します。エラーヒーローは次のことを行う必要があります。

最初は、スクロールせずに見える範囲で発生するエラーに焦点を当てます。毎日のレビュープロセスの場合、これは、過去 24 時間以内にのみ発生したエラーに焦点を当てることを意味します。
エラーインボックスを使用してエラーをトリアージする

エラーインボックスを使用してエラーをトリアージする

エラーインボックスは、すべてのエラーが顧客に影響を与える前に、プロアクティブに検出、トリアージ、アクションを実行するための単一の場所です。同様のエラーはグループ化され、作業の重複を回避し、発生回数によってエラーに優先順位を付けることができます。

エラーインボックスにアクセスするときは、チームに関連するエラーのみが表示されるように、必ずワークロードを選択してください。

チームとしてエラーインボックスを確認する時間を定期的に取っておきます。多数のエラーグループを処理する必要があるため、まず、毎日または週に数回が理にかなっています。その後、毎週または隔週がより適切な場合があります。

トレースやログなどの詳細情報を取得する必要がある場合は、エラーの詳細画面をクリックして、エラーを 1 つずつ確認します。これは、エラーの原因を指摘するか、さらなる調査の開始点を提供します。

簡単な議論の後、エラーグループを次のいずれかとしてマークする立場になるかもしれません:

無視: エラーが問題にならない場合に使用します。これにより、その時点から受信トレイビューからエラーグループが非表示になります。
解決済み: エラーが既知の問題の結果であり、現在は修正されている場合に使用します。これにより、再発しない限り、リストからエラーグループが削除されます。再発する場合は、以前に実装した修正を再考する必要があります。

注: エラーインボックスを介してエラーを無視または解決しても、エラー率メトリックへのカウントは停止しません。

上記のステータスのいずれも適切でない場合は、エラーを適切なチームメンバーに割り当てて、さらなる調査と解決を依頼してください。そのチームメンバーは、自分の時間にさらに調査を実施し、エラーグループのメモを進捗状況で更新したり、メモセクションを介して他のチームメンバーに助けを求めたりすることができます。

次のトリアージミーティングで、これらのエラーグループに再度アクセスして、解決済みとしてマークできるかどうかを確認できます。時間が経つにつれて、新しいエラーグループの数が減り、KPI にプラスの動きが見られるようになるはずです。

エラーを JIRA にリンクする

特殊なケースや複雑なエラーが発生すると、他のチームに助けを求める必要があることに気付くかもしれません。エラーインボックスを Jira にリンクすると、これに役立つ場合があります。エラー受信トレイを Jiraに接続して、エラーグループに接続されたチケットを簡単に作成できるようにします。Jira テンプレートを介して Jira に送信される情報を制御できます。

エラーを Slack にリンクする

エラーインボックスに届くエラーの速度が低下するにつれて、定期的なチームセッションはもはや有効な時間の使い方ではない可能性があります。別の方法として、エラーインボックスを Slack にリンクし、a) チャネルを監視し、発生したエラーグループを解決/無視/割り当てする担当者をローテーションで指名するか、b) チームがエラーグループに積極的に対応できるようにする、のいずれかを行います。

CodeStream を使用する

エラーグループの多くは、解決するためにコードの変更が必要になります。CodeStream を New Relic アカウントに接続して、問題のあるコードを IDE で直接開き、コードを直接調査します。開発者がレビューできるように、コードの特定の行にメモやコメントを残すこともできます。

CodeStream を使用した New Relic は、バージョン番号の確認や SHA のコミットなど、エラーグループに関するより多くのコンテキストを提供します。さらに、コードの問題を特定、議論、および修正するための一元化された場所としてエラーインボックスを使用すると、コードの問題に効率的に対応し、作業の重複を避けることができます。

価値の実現

練習を進めながら、エラー率を毎週確認してください。エラー率が低下するにつれて、解決までの平均時間が短縮され、顧客満足度が向上するはずです。

この機械翻訳は、参考として提供されています。

エラーの最適化: エラー追跡を改善する

概要

望ましい結果

主要業績評価指標

ビジネスKPI

変換速度

ページビュー数

ユーザー数

運用 KPI

エラー率

エラーをクローズする平均時間

前提条件

必要なインストールと構成

現在の状態を確立する

アプリケーションのワークロードを作成する

ワークロードのサービスレベルを作成する

アプリケーションサービスごとにエラーレートサービスレベルを作成する

各ブラウザアプリケーションのエラーレートサービスレベルを作成する

モバイルアプリケーションごとにエラーレートサービスレベルを作成する

各サーバーレスアプリケーションのエラー率サービスレベルを作成する

開いているテレメトリアプリケーションごとにエラーレートサービスレベルを作成する

サービスレベルを使用して、現在のエラー率に対する進捗状況を追跡します

改善プロセス

重要でないエラーを特定する

エラー率から重要でないエラーを取り除く

エラー率アラートを設定する

エラーヒーロー名簿を確立する

エラーインボックスを使用してエラーをトリアージする

エラーを JIRA にリンクする

エラーを Slack にリンクする

CodeStream を使用する

価値の実現

この機械翻訳は、参考として提供されています。

エラーの最適化: エラー追跡を改善する

概要 .css-21sua1{background:none;border:none;width:0;padding:0;}

望ましい結果

主要業績評価指標

ビジネスKPI

ページビュー数

ユーザー数

運用 KPI

エラー率

エラーをクローズする平均時間

前提条件

必要なインストールと構成

現在の状態を確立する

アプリケーションのワークロードを作成する

ワークロードのサービス レベルを作成する

アプリケーション サービスごとにエラー レート サービス レベルを作成する

各ブラウザ アプリケーションのエラー レート サービス レベルを作成する

モバイル アプリケーションごとにエラー レート サービス レベルを作成する

各サーバーレス アプリケーションのエラー率サービス レベルを作成する

開いているテレメトリ アプリケーションごとにエラー レート サービス レベルを作成する

サービス レベルを使用して、現在のエラー率に対する進捗状況を追跡します

改善プロセス

重要でないエラーを特定する

エラー率から重要でないエラーを取り除く

エラー率アラートを設定する

エラーヒーロー名簿を確立する

エラー インボックスを使用してエラーをトリアージする

エラーを JIRA にリンクする

エラーを Slack にリンクする

CodeStream を使用する

価値の実現

概要

ワークロードのサービスレベルを作成する

アプリケーションサービスごとにエラーレートサービスレベルを作成する

各ブラウザアプリケーションのエラーレートサービスレベルを作成する

モバイルアプリケーションごとにエラーレートサービスレベルを作成する

各サーバーレスアプリケーションのエラー率サービスレベルを作成する

開いているテレメトリアプリケーションごとにエラーレートサービスレベルを作成する

サービスレベルを使用して、現在のエラー率に対する進捗状況を追跡します

エラーインボックスを使用してエラーをトリアージする