サービスレベル カバレッジは、重要なサービスに、ユーザーの観点からパフォーマンスを追跡するサービスレベル インジケーター (SLI) が定義されているかどうかを測定します。 SLI は、サービスの健全性を理解し、信頼性の目標を設定し、改善に関するデータドリブンの意思決定を行うのに役立ちます。
このスコアカードルールについて
このサービス レベル カバレッジ ルールは、ビジネス稼働時間成熟度モデルのレベル 2 (プロアクティブ) の一部です。 サービスに SLI が定義されているかどうかを評価し、信頼性管理に対するプロアクティブなアプローチを示します。
これが重要な理由: SLI は、ユーザーの視点からサービス品質を客観的に測定します。SLI がないと、チームはサービスの健全性の主観的な評価に依存し、ユーザー エクスペリエンスに影響を与えるパフォーマンスの問題を見逃してしまう可能性があります。
このルールの仕組み
このルールは、最新のエンティティの収集を調べて、どのエンティティにサービスレベル インジケーター (SLI) が定義されているかを判断します。 サービスレベル測定から恩恵を受ける可能性のあるすべてのモニターエンティティを評価します。
スコアを理解する
- 合格(緑):重要なサービスには、ユーザー向けのパフォーマンスを測定するための SLI が定義されている
- 不合格(赤):重要なサービスにSLIがないため、サービス品質を客観的に測定することが困難です。
- ターゲット: ビジネスクリティカルなサービスとユーザー向けサービスに対する完全な SLI カバレッジ
これが意味するもの:
- 合格点:チームはユーザーの観点からサービスの信頼性を測定し、データドリブンの改善に関する意思決定を行うことができます。
- 不合格スコア:サービス品質の客観的な評価基準が欠如しており、サービスパフォーマンスに盲点が生じる可能性があります。
サービスレベル指標(SLI)を理解する
SLI は、ユーザーの観点からサービスのパフォーマンスを測定する特定のメトリクスです。 優れた SLI とは次のようなものであるべきです。
ユーザー重視
- ユーザー エクスペリエンスを測定:応答時間、エラー率、可用性
- ビジネス価値の反映:顧客満足度やビジネス成果に直接影響を与えるメトリクス
- 観察可能かつ測定可能:合成推定値ではなく、実際のテレメトリーデータに基づく
一般的なSLIの種類
可用性 SLI:
- 定義:成功した応答につながるrequestsの割合
- 例: HTTP requestsの99.9%はエラーではないステータスコードを返します
- 適している用途:重要なユーザー向けサービス、API、ウェブサイト
レイテンシ SLI:
- 定義:許容時間内に完了したrequestsの割合 閾値
- 例: requestsの95%が200ミリ秒以内に完了
- 適している用途:インタラクティブアプリケーション、リアルタイムサービス、モバイルアプリ
品質SLI:
- 定義:品質基準を満たす出力の割合
- 例:検索結果の99%は関連コンテンツを返します
- 適している用途:データ処理、コンテンツ配信、推奨システム
鮮度SLI:
- 定義:新しさの要件を満たすデータの割合
- 例:ダッシュボードのデータの95%は5分以内に作成されたものです
- 適している用途:分析プラットフォーム、レポートシステム、監視ダッシュボード
サービスレベルカバレッジの実装方法
包括的な SLI カバレッジを確立するには、次の手順に従います。
1. SLIを必要とするサービスを特定する
ビジネスへの影響に応じて優先順位を付ける:
- 顧客向けサービス:エンドユーザーに直接サービスを提供するアプリケーション
- 収益に不可欠なシステム:障害が発生するとビジネス収益に影響を与えるサービス
- 依存関係サービス:複数の顧客向けアプリケーションをサポートする内部サービス
- コンプライアンスが重要なシステム:規制やセキュリティのコンプライアンスに必要なサービス
サービスの特性を考慮してください。
- 複雑さ:複数のコンポーネントまたは依存関係を持つサービス
- ユーザーの期待:パフォーマンスがユーザー体験に直接影響するサービス
- ビジネスの重要性:コアビジネス機能をサポートするサービス
- 変更頻度:頻繁に更新または変更されるサービス
2. 意味のあるSLIを定義する
適切なメトリクスを選択してください。
- ユーザージャーニーから始める:重要なユーザーパスをマッピングし、測定ポイントを特定する
- 結果に焦点を当てる:技術的なメトリクスだけでなく、ユーザーにとって何が重要かを測定します
- 既存のデータの使用:すでに収集しているテレメトリを活用する
- シンプルに:基本的な可用性とレイテンシの SLI から始める
適切な測定ウィンドウを設定します。
- 短い時間枠(1~5分):即時の応答を必要とするリアルタイムサービス向け
- 中程度のウィンドウ(1~24時間):ほとんどのウェブアプリケーションとAPI向け
- 長いウィンドウ(週次/月次):バッチ処理または分析サービス向け
3. SLIを体系的に実装する
New Relic の SLI 機能を使用する:
- サービスレベルに移動: New Relicのサービスレベルセクションにアクセスします
- サービスを選択: SLIを作成するエンティティを選択します
- SLI 基準を定義する:特定のメトリクスと閾値を設定する
- アラートの設定: SLIが満たされていない場合に通知を設定する
実装のベストプラクティス:
- 小さく始める: 1つか2つの重要なサービスから始める
- 反復と改善:実世界のデータに基づいて SLI 定義を改良する
- 決定事項を文書化する:特定のSLIが選択された理由を記録しておく
- チームをトレーニングする:全員が SLI データの解釈方法と対応方法を理解していることを確認します。
改善の測定
これらのメトリクスを追跡して、サービスレベルのカバレッジの改善を確認します。
- SLI カバレッジ率:ビジネスクリティカルなサービスを 100% カバレッジする AI モニタリング
- SLI の関連性: SLI が実際のユーザー体験およびビジネスへの影響と相関していることを確認します。
- 実用性: SLIデータが意味のある改善につながる頻度を測定
- チームの採用:チームが意思決定において SLI データを参照する頻度を追跡します
一般的なシナリオと解決策
カバーするサービスが多すぎる:
- 問題:大規模なサービスポートフォリオにより、完全なカバレッジが困難になる
- 解決策:ティア1サービスから開始し、ビジネスの優先順位に基づいて段階的にサービス範囲を拡大
ユーザーに焦点を当てたメトリクスを定義することの難しさ:
- 問題:内部サービスにはユーザー向けの明確なメトリクスがありません
- 解決策:下流サービスの依存関係と社内顧客満足度に基づいてSLIを定義する
最新の計装のないレガシー サービス:
- 問題:古いアプリケーションには、意味のある SLI の詳細なテレメトリーが欠落している可能性があります
- 解決策:外形監視またはログベースのメトリクスを使用して、基本的な可用性 SLI から開始します。
パフォーマンス要件が変化するサービス:
- 問題:一部のサービスでは、時間帯によってパフォーマンスの期待値が異なる
- 解決策:時間ベースのSLIを使用するか、使用パターンごとに個別のSLIを作成する
高度なSLI戦略
多次元SLI
- 地理的セグメンテーション:地域ごとに異なる SLI
- ユーザーのセグメンテーション:ユーザーのタイプごとに個別の SLI (無料と有料、モバイルと Web)
- 機能ベース:特定の機能またはユーザー ジャーニー向けの SLI
複合SLI
- エンドツーエンドの測定:複数のサービスにまたがる SLI で完全なユーザー ジャーニーを実現
- 加重平均:ビジネスの重要性に基づいて複数のメトリクスを結合します。
- 依存関係を考慮:上流のサービスの健全性を考慮した SLI
アダプティブSLI
- 動的閾値:トラフィックパターンや季節変動に基づいて調整されるSLI
- 学習システム:ユーザー行動分析に基づいて進化するSLI
- コンテキスト認識:異なる運用コンテキストに応じた異なる SLI ターゲット
サービスレベル管理プログラムの構築
ガバナンスを確立する
- SLI 標準: SLI の定義と測定に関する組織全体の標準を作成する
- レビュープロセス: SLIの関連性と正確性の定期的な評価
- 所有権モデル: SLI の維持と対応に対する明確な責任
チームでの導入を可能にする
- トレーニング プログラム: SLI の概念と実装についてチームを教育します
- ツールと自動化: SLIの作成と管理のための使いやすいツールを提供します
- 成功事例: SLI がどのように改善を促したかの事例を共有する
継続的な改善
- 定期的なレビューサイクル:四半期ごとまたは半年ごとのSLI評価と改善
- フィードバックループ: SLI が実際のユーザー体験を反映していない場合にキャプチャするメカニズム
- 進化戦略:サービスとビジネスニーズの変化に応じて SLI がどのように成熟するかを計画する
重要な考慮事項
- 量より質:カバレッジ数を最大化するのではなく、意味のあるSLIに重点を置く
- ユーザーの視点:社内の技術メトリクスよりも常にユーザー体験を優先する
- ビジネスの整合性: SLI がビジネス目標と顧客満足度の目標をサポートしていることを確認する
- 実用的なインサイト: SLI は、閾値が満たされていない場合に具体的なアクションにつながる必要があります。
次のステップ
- 即時の対応:最も重要なサービスを特定し、基本的な可用性SLIを作成します。
- カバレッジの拡大:ビジネスの優先度に基づいて、追加サービスの SLI を段階的に追加します。
- 定義の洗練:実際の使用状況とフィードバックに基づいてSLIの精度を向上
- 目標の設定: SLI に基づいてサービスレベル目標 (SLO) の定義を進めます。
- レベル3に進む: SLIカバレッジが確立されたら、 サービスレベルの達成に焦点を当てます。
サービスレベル管理に関する包括的なガイダンスについては、 サービスレベル管理実装ガイドを参照してください。