信頼性エンジニアリング診断: アプリケーションパフォーマンスのトラブルシューティングに関する初心者向けガイド

このガイドは、顧客に影響を与える問題を診断するスキルを向上させるための入門書です。このガイドの手順に従うことで、アプリケーションのパフォーマンスの問題からより迅速に回復できるようになります。

このガイドは、オブザーバビリティの成熟度に関するシリーズの一部です。

前提条件

このガイドを使用するための要件と推奨事項を次に示します。

New Relic 可観測性の範囲:
- Required :ディストリビューティッド（分散）トレーシングを備えたAPM 、コンテキスト内のAPMログ、およびインフラストラクチャエージェント
- 推奨:ログとネットワーク監視(NPM)
Required: サービスレベル管理
推奨: New Relic APM 、ディストリビューティッド（分散）トレーシング、 NRQLクエリ、および UIの使用経験
推奨: 以下のガイドを読んだことがある方:
- アラート品質管理
- サービスレベル管理

概要

このガイドの使用を開始する前に、学習内容を理解するのに役立ちます。このガイドは、次のことを理解するのに役立ちます。

診断スキルの向上がビジネスに与える影響。
成功を測定するために使用される運用上の主要業績評価指標。
エンドユーザーがさまざまな種類の信頼性の問題をどのように認識しているか。
問題の直接的な原因と根本的な原因の違い。
問題を見つけて解決するための基本的な診断手順には、次のものが含まれます。
- 問題の定義 - 問題ステートメントの作成
- 問題の原因を見つける
- その問題の直接の原因を見つける
一部のパフォーマンスの問題カテゴリ (出力パフォーマンス、入力パフォーマンス、クライアントパフォーマンス) と、それらの問題の診断に使用されるNew Relic機能 ( APM 、外形監視、、モバイル監視)。
一般的な問題とその原因を理解するためのチートシートである問題マトリックスの使用方法。

最後に、これらの概念をよりよく理解するのに役立ついくつかのパフォーマンスの問題の例を確認します。

期待される成果

概要

ビジネスにとっての価値は次のとおりです。

業務に支障をきたすインシデントの発生を抑制する
問題解決に要する時間 (MTTR) の短縮
インシデントの運用コストを削減

IT 運用と SRE の価値は次のとおりです。

理解と解決にかかる時間を短縮

事業成果

2014 年、 Gartner は IT ダウンタイムの平均コストを 1 分あたり 5,600 ドルと見積もっています。ビジネスに影響を与えるインシデントの累積コストは、知るまでの時間、頻度、修復にかかる時間、収益への影響、およびインシデントをトリアージして解決するエンジニアの数などの要因によって決まります。簡単に言えば、パフォーマンスへの影響を解決するために必要な人員を減らして、ビジネスに影響を与えるインシデントを減らし、インシデントの期間を短縮し、診断を高速化する必要があります。

最終的に、ビジネスの目標は、稼働時間を最大化し、ダウンタイムを最小化することです。ダウンタイムのコストは次のとおりです。

Downtime minutes x Cost per minute = Downtime cost

ダウンタイムは、ビジネスを混乱させるインシデントの数とその期間によって決まります。ダウンタイムのコストには多くの要因が含まれますが、最も直接的に測定できるのは運用コストと収益の損失です。

ビジネスは、以下の削減を推進する必要があります。

ビジネスを混乱させるインシデントの数
インシデントの運用コスト

運用成果

必要な運用上の結果は、製品層のサービスレベル目標への準拠を維持することです。これを行うには、低下したサービスレベルを診断し、診断を伝え、迅速な解決策を実行します。しかし、予期しない劣化やインシデントは常に発生するため、迅速かつ効果的に対応する必要があります。

このシリーズの他のガイドでは、 time to know改善に重点を置いています。弊社の一括品質管理ガイドでは、把握までの時間を短縮するためのreactive方法に焦点を当てており、サービスレベル管理ガイドでは、 proactive方法に焦点を当てています。

現在お読みいただいているガイドでは、 time to understandとtime to resolve改善に重点を置いています。

主要業績評価指標 - 運用

「インシデント管理」と SRE 理論の世界では、多くの指標が議論され、議論されています。ただし、主要業績評価指標の小さなセットに注目することが重要であることにほとんどの人が同意しています。

以下の KPI は、成功した SRE およびインシデント管理プラクティスで使用される最も一般的な指標です。

解決までの時間は、多くの場合、MTTR (復元/修復/解決の平均時間) と呼ばれます。これは、(サービスレベルによって決定される) パフォーマンスの低下が始まってから、サービスレベルが期待されるパフォーマンスレベルに戻るまでの時間を測定します。

Note: 解決時間は、根本原因が特定され、永久に修正されたことを意味するものではありません。恒久的な修正は、インシデントが解決された後の「問題管理」プロセスの一部です。根本原因と直接原因、および「根本原因の症状」について調査してください。

信頼性に対するエンドユーザーの認識

顧客が製品のパフォーマンスをどのように認識しているかは、緊急性と優先度を測定する方法を理解する上で重要です。また、顧客の視点を理解することは、ビジネスが問題をどのように見ているかを理解するのに役立ち、影響を受ける機能をサポートするために必要なワークフローを理解するのにも役立ちます。顧客とビジネスの認識を理解すると、その機能の信頼性に影響を与えている可能性があるものをよりよく理解できます。

最終的に、顧客の視点から見たオブザーバビリティは、信頼性エンジニアリングに積極的かつ熟練するための最初のステップです。

デジタル製品のパフォーマンスとその機能に対するエンドユーザーの認識に影響を与える 2 つの主要なエクスペリエンスがあります。以下の条件は、一般的な顧客用語を使用した顧客の観点からのものです。

可用性は、接続性、稼働時間、到達可能性とも呼ばれます。しかし、それはまた、成功 (非エラー) と混同されています。

エンドユーザーは、ログイン、ブラウズ、検索、インベントリの表示などの必要な機能にアクセスできないと述べる場合があります。または、サービス全体が利用できないと単に述べている場合もあります。これは、サービスに接続できないか、エラーを返すサービスのいずれかの症状です。

従来、「可用性」または「アップタイム」は、サービスへの接続能力を測定することにより、バイナリの「アップ/ダウン」方法で測定されていました。従来の方法には、サービス全体が完全に利用できなくなった場合にのみ測定するという重大なギャップがあります。この従来の信頼性の尺度では、可観測性のギャップが大きくなり、診断が困難になり、対応する前にエンドユーザーが大きな影響を受けることになります。

可用性は、「サービスに到達する能力」（「稼働時間」とも呼ばれます）と「サービスが期待される応答を返す能力」（つまり、「エラーがない」）の両方によって測定されます。 New Relicのオブザーバビリティ成熟度フレームワークは、input performance (接続性) と output performance (成功と応答のレイテンシ) によって 2 つを区別します。

パフォーマンスは、レイテンシーおよび応答時間としても知られています。

エンドユーザーは、サービスが遅すぎると言うことがあります。

IT リーダーとビジネスリーダーの両方にとって、「パフォーマンス」という用語にはさまざまな問題が含まれます。New Relic のサービスレベル管理では、「速度」は「出力」と「クライアント」の両方のカテゴリで測定されます。ただし、速度の問題の大部分は、従来「バックエンドサービス」と呼ばれていたものに起因する出力の問題が原因で発生します。

根本原因と直接原因

問題の根本的な原因は、その問題の直接的な原因と同じではありません。同様に、直接的な原因 (短期的) を修正しても、通常は問題の根本的な原因 (長期的) を修正したことにはなりません。 It's very important to make this distinction.

パフォーマンスの問題を探すときは、まず「何が変わったの?」という質問をして、問題の直接の原因を見つけようとする必要があります。通常、変更されたコンポーネントまたは動作は根本的な原因ではありませんが、実際には最初に解決する必要がある直接的な原因です。根本原因を解決することは重要ですが、通常、インシデント後の遡及的な議論と長期的な問題管理が必要です。

たとえば、ログイン機能のサービスレベルが突然低下します。トラフィックパターンが通常よりもはるかに多いことがすぐにわかります。パフォーマンスの問題を追跡して、TCP 接続キューがはるかに大きくなるオープン TCP 接続制限の構成にたどり着きます。TCP 制限の引き上げといくつかの追加のサーバーインスタンスを展開することで、問題をすぐに解決します。短期的には問題の直接的な原因を解決しましたが、根本的な原因は、不適切なキャパシティプランニング、マーケティングからの連絡の欠落、上流の負荷に意図しない結果をもたらす関連展開などである可能性があります。

この区別は、ITIL/ITSM Incident managementとProblem managementでも行われます。根本的な原因はインシデント後の話し合いで議論され、その後長期的な問題管理プロセスで解決されます。

診断手順 (概要)

ステップ 1: 問題を定義する

最初のルールは、問題のステートメントをすばやく確立することです。問題文を作成するためのガイドはたくさんありますが、シンプルで効果的なものが一番です。適切に構成された問題ステートメントは、次のことを行います。

エンドユーザーが経験していることを説明してください。エンドユーザーが経験している問題は何ですか?
製品機能の予想される動作を説明します。エンドユーザーが経験すべきことは何ですか?
製品機能の現在の動作を説明します。ユーザーが経験していることの技術的評価は何ですか?

問題文では、仮定を避けてください。事実に固執する。

ステップ 2: ソースを見つける

「ソース」は、問題の直接の原因に最も近いコンポーネントまたはコードです。

多くのジャンクション、スプリッター、バルブを介して接続された多くの水道管を考えてみてください。給水サービスレベルが低下しているというアラートが表示されます。どの合流点、分岐点、バルブ、またはパイプが問題を引き起こしているかを特定するまで、パイプを通る水の出力から問題を追跡します。電気バルブの 1 つがショートしていることに気付きました。そのバルブが問題の原因です。ショートはあなたの問題の直接の原因です。値を置き換えることで、直接的な原因を簡単に解決できます。根本的な原因は、気象条件、水中の化学物質、または製造など、より複雑なものである可能性があることに注意してください.

これは、複雑なテクノロジースタックを診断する場合と同じ概念です。ログイン機能が制限されている場合 (出力)、問題をその制限の原因となっているコンポーネント (ソース) までさかのぼって修正する必要があります。それは、API ソフトウェア (サービス境界)、ミドルウェアサービス、データベース、リソースの制約、サードパーティサービスなどです。

IT では、応答時間を改善するための主要なブレークポイントカテゴリが 3 つあります。

Output
Input
Client

これらのカテゴリ (別名サービスレベル) 内でパフォーマンスメトリックを定義すると、問題の原因を特定する際の応答時間が大幅に短縮されます。これらのカテゴリの測定については、サービスレベル管理ガイドで説明しています。診断でそれらを使用する方法を理解するには、読み続けてください。

ステップ 3: 直接の原因を見つける

問題の原因に近づいたら、何が変わったのかを特定します。これにより、短期間で問題を即座に解決する方法をすばやく判断できます。ステップ 2の例では、ハードウェアの劣化によりショートが発生したため、バルブが機能しなくなったという変化がありました。

IT における一般的な変更の例は次のとおりです。

スループット (トラフィック)
コード (デプロイ)
リソース (ハードウェアの割り当て)
アップストリームまたはダウンストリームの依存関係の変更
データ量

パフォーマンスに影響を与える問題のその他の一般的な例については、以下の問題マトリックスを参照してください。

ヘルスデータポイントを使用する

前述のように、診断の旅をすぐに開始できる 3 つの主要なパフォーマンスカテゴリがあります。これらの正常性データポイントを理解すると、問題の原因がどこにあるかを理解するための時間が大幅に短縮されます。

This requires: APM

出力パフォーマンスとは、期待される応答 (出力) をエンドユーザーに提供するための内部テクノロジスタックの能力です。これは伝統的に「バックエンド」サービスと呼ばれています。

大多数のシナリオでは、出力パフォーマンスは単に応答の速度と応答の品質によって測定されます (つまり、エラーがないかどうか)。上記のユーザーの視点を思い出してください。エンドユーザーは、サービスが遅い、機能していない、またはアクセスできないと述べます。

最も一般的な問題は、エンドユーザーの要求にタイムandに適切に応答できるかどうかです。

これは、問題のある製品機能をサポートするサービスのレイテンシ異常またはエラー異常によって簡単に識別されます。

This requires: 外形監視

入力パフォーマンスとは、サービスがクライアントからの要求を受け取る能力です。これは、リクエストを送信するクライアントの機能と同じではありません。

出力パフォーマンス (バックエンドサービス) が、予想されるパフォーマンスレベルを超えている可能性があります。ただし、クライアントとサービスの間の何かが、要求と応答のライフサイクルを壊しています。これは、クライアントとサービスの間のあらゆるものである可能性があります。

This requires: ブラウザ監視および/またはモバイル監視

クライアントパフォーマンスとは、ブラウザーやモバイルアプリケーションが要求を作成し、応答をレンダリングする能力です。出力 (バックエンド) と入力パフォーマンス (シンセティックス) の両方が除外されると、ブラウザーやモバイルが問題の原因として簡単に特定されます。

出力と入力のパフォーマンスは、除外 (または除外) するのが比較的簡単です。入力および出力診断の診断の深さにより、ブラウザとモバイルは将来的に高度な診断ガイドでカバーされる予定です。

問題マトリックス

問題マトリックスは、3 つの健康データポイントによって分類された一般的な問題のチートシートです。

問題の原因は、頻度の高い順に並べられており、最も一般的なものが一番上の行の左側に表示されます。より詳細な内訳を以下に示します。サービスレベル管理が適切に行われていれば、これらのデータポイントの 3 つのうち 2 つを迅速に除外することができます。

この表は、健康データポイントごとに並べ替えられた問題マトリックスです。

データポイント	New Relic の機能	一般的な問題の原因
出力	APM、インフラ、ログ、NPM	アプリケーション、データソース、ハードウェア構成の変更、インフラストラクチャ、内部ネットワーク、サードパーティプロバイダー (AWS、GCP)
入力	合成、ログ	外部ルーティング (CDN、ゲートウェイなど)、内部ルーティング、インターネット上のもの (ISP など)
クライアント	ブラウザ、モバイル	ブラウザまたはモバイルコード

問題は複雑化する傾向がありますが、サービスレベルを迅速に回復するために、「原因を突き止め」、「何が変化したか」を特定することが目標です。

問題例

問題の例を見てみましょう。あなたの会社が新製品を展開し、要求の大幅な増加により許容できない応答時間が発生したとします。ソースは、ログインミドルウェアサービスで検出されます。問題は、TCP キュー時間の急増です。

この状況の内訳は次のとおりです。

Category: 出力パフォーマンス
Source: ログインミドルウェア
Direct cause: 追加のリクエスト負荷によるTCPキュー時間
Solution: TCP接続制限の増加とリソースの拡張
Root-cause: ログインミドルウェアに影響を与える下流サービスの容量計画と品質保証テストが不十分

別の問題例

別の問題の例を次に示します。

ログイン時に 500 のゲートウェイエラーが突然増加しました...
ログイン API の応答時間は、タイムアウトが始まるポイントまで増加しました...
タイムアウトは、ミドルウェア層のデータベース接続まで追跡されました...
トランザクション追跡により、ログイン要求ごとのデータベースクエリ数が大幅に増加していることが明らかになりました...
問題の直前に発生した展開の展開マーカーが見つかりました。

この状況の内訳は次のとおりです。

Category: 出力パフォーマンスの低下が入力パフォーマンスの障害につながる
Source: ミドルウェアサービス呼び出しデータベース
Direct cause: コード展開後のデータベース書き込みが 10 倍増加
Solution: デプロイメントのロールバック
Root-cause: 品質保証テストが不十分

ソース別の問題マトリックス

これは、ソース別にソートされた問題マトリックスを含む表です。

Source	Common direct causes
アプリケーション	最近の展開 (コード) ハードウェアリソースの制約データベースの制約構成の変更（ハードウェア、ルーティング、またはネットワーク）サードパーティの依存関係
情報源	データベースの制約クエリロジックの変更 (n+1) メッセージキュー (通常、プロデューサーまたはコンシューマーのパフォーマンスが低下します)
内部ネットワーキングとルーティング	ロードバランサープロキシ API ゲートウェイルーター (まれ) ISP/CDN (まれ)

パフォーマンスパターンの異常の特定

ヒント

主要なトランザクション (機能) に関連するサービス境界で整形式のサービスレベルを設定すると、問題が存在するエンドツーエンドのワークフローをより迅速に特定するのに役立ちます。

パターンの異常を特定することで、問題の直接の原因がどこにあるのかを特定する能力が向上します。

パターンの識別に関する優れた情報や無料のオンラインクラスはたくさんありますが、一般的な概念はかなり単純で、強力な診断能力を解き放つことができます。

パフォーマンスデータのパターンと異常を識別するための鍵は、サービスがどのように実行されるべきかを知る必要がないことです。最近の動作が変化したかどうかを判断するだけで済みます。

このセクションで提供されている例では、メトリックとして応答時間またはレイテンシーを使用していますが、エラー、スループット、ハードウェアリソースメトリック、キューの深さなど、ほぼすべてのデータセットに同じ分析を適用できます。

ノーマル

以下は、APM での一見不安定な応答時間チャート (7 日間) の例です。よく見ると、応答時間の動作が反復的であることがわかります。つまり、7 日間にわたって行動に劇的な変化はありません。スパイクは反復的であり、タイムラインの残りの部分と比較して異常ではありません。

実際、データの表示をaverage over timeからpercentiles over timeに変更すると、応答タイムの変化がいかに「規則的」であるかがさらに明確になります。

異常な

このグラフは、最近の動作と比較して異常に増加したと思われるアプリケーションの応答時間を示しています。

これは、週ごとの比較を使用して確認できます。

パターンが変化し、先週の比較から悪化しているように見えます。

ソースを見つける

次に、New Relic でソースを見つける方法について説明します。このワークフローは分散トレースに依存していることに注意してください。

まず、エンドユーザーが経験する遅延またはエラーに関連するアプリケーションを見つけます。これは、アプリケーションやコードが問題であることを意味するわけではありませんが、フロー (最初) 内のアプリケーションを見つけることで、より迅速にソースに近づくことができます。このアプリケーションが見つかったら、コード、ホスト、データベース、構成、ネットワークなどのコンポーネントをすばやく除外できます。

アプリケーションが特定されると、問題は、そのアプリケーション内のどのトランザクションが問題の一部であるかです。パフォーマンスの問題が発生していると特定したアプリケーションを使用し、影響を受けるトランザクションを特定します。ここで、前述のIdentif パフォーマンスパターンの異常で説明したパフォーマンスパターンの異常スキルを繰り返すことができますが、今回はトランザクション自体についてです。

次のドキュメントは、New Relic を使用して問題のあるトランザクションを特定するのに役立ちます。

問題のあるトランザクションが特定されたら、分散トレースを使用して、そのトランザクションをサポートするエンドツーエンドのコンポーネントを確認できます。分散トレースを使用すると、スタック全体でレイテンシが発生している場所やエラーが発生している場所をすべて 1 つのビュー内ですばやく特定できます。

次のリソースは、分散トレーシングを使用して問題のソースコンポーネントを特定する方法を学習するのに役立ちます。

ソースの検索手順の簡単な要約を次に示します。

影響を受けるパフォーマンスに関連するアプリケーションを調べます。
問題の原因となっているトランザクションを特定します。
分散トレースを使用して、エンドツーエンドフロー内で問題のあるコンポーネントを特定します。

これで、直接的な原因を特定する最終ステップに進むことができます。

直接の原因を見つける

ソースコンポーネントが見つかったら、直接的な原因の特定を開始できます。

前の手順の知識を使用すると、問題が遅延、成功、またはその両方であるかがわかります。

遅延の問題は、分散トレース内のトランザクショントレースや「インプロセススパン」を使用して見つけることができます。

成功の問題のエラーメッセージもトレースで確認できますが、成功の問題の詳細は通常、アプリケーションログで確認できます。

いずれにせよ、あなたが第 1 層のインシデントレスポンダーまたは SRE である場合、直接的な原因を見つけることは、通常、発見されたソースコンポーネントを担当する開発者およびエンジニアである対象分野の専門家 (SME) に委ねられます。

ソースコンポーネントを発見した後の最も効果的な次のステップは、そのコンポーネントの対象分野の専門家に連絡することです。トリアージで発見されたデータと、トラブルシューティングを有利に開始するために完了した診断を示します。

ヒント

最新のエージェントでは、ログインコンテキストとディストリビューティッド（分散）トレーシングの両方がデフォルトで有効になっていることに注意してください。 (しばらくエージェントを更新していない場合は、定期的にエージェントを更新することをお勧めします。)

ログインコンテキストと分散トレースは、トリアージ、診断、および長期的な問題解決にかかる時間を短縮するために必要な重要な機能です。

さあ、New Relic で優れたサイト信頼性エンジニアになりましょう!

次のステップ

まだ読んでいない場合は、次のような関連する可観測性成熟度ガイドを読むことをお勧めします。

この機械翻訳は、参考として提供されています。

信頼性エンジニアリング診断: アプリケーションパフォーマンスのトラブルシューティングに関する初心者向けガイド

前提条件

概要

期待される成果

概要

事業成果

運用成果

主要業績評価指標 - 運用

サービスレベル目標 (SLO) への準拠

知る時間

理解する時間

解決する時間

信頼性に対するエンドユーザーの認識

可用性、別名、機能していません

パフォーマンス、別名、遅すぎる

根本原因と直接原因