取り込みデータが正しくグラフ化されていれば、テレメトリの最適化を開始して、冗長な取り込みデータを削減し、取り込みコストを削減できます。最初のステップは、最適化計画を作成し、データ最適化手法を使用してその計画を実行することです。
可観測性の目標を理解する
データ取り込みガバナンス フレームワークの最も重要な部分の 1 つは、可観測性の価値推進要因を作成することです。これらは、データを、目標にとってどれだけ重要 (または冗長) であるかを測定するために使用できる具体的な指標と調整するのに役立ちます。
また、将来新しいテレメトリを構成する必要がある場合に、目的を理解するのにも役立ちます。その場合、不必要な重複を防ぐために、可観測性システム全体に何を提供するのかを理解する必要があります。以下の目的のいずれにも当てはまらない新しいテレメトリ データを作成していることに気付いた場合は、そのデータが不要であることを示す良い兆候である可能性があり、コストを削減するためにそのデータの作成を中止できる可能性があります。
- 社内SLAを満たす
- 外部SLAを満たす
- 機能革新のサポート(A / Bパフォーマンスおよび導入テスト)
- 顧客体験のモニタリング
- ベンダーと内部サービスプロバイダーに SLA を遵守させる
- ビジネスプロセスの健全性の監視
- その他のコンプライアンス要件
これらの目標に合わせて調整することで、価値の優先順位付けについて正しい決定を下すことができ、チームが新しいプラットフォームやサービスを導入する際にどこから始めるべきかを理解するのに役立ちます。
最適化プランの策定
目的を理解したら、最適化計画を策定します。このプランは、取り込みデータの価値を測定し、コストを抑えるために安全に除外できるデータを見つけるのに役立ちます。
このセクションでは、2つの主要な仮定を行います。
独自のテレメトリの取り込みを評価し、組織のニーズに合わせて適切な決定を下す方法を示す 3 つの例を以下に示します。これらの例はそれぞれ 1 つの価値推進要因に焦点を当てていますが、ほとんどのインスツルメンテーションは多くの価値のある領域に関するデータを提供します。
アカウントは、予算よりも約20%多く取り込みます。彼らはマネージャーから消費を減らす方法を見つけるように頼まれました。それらの最も重要なバリュードライバーは、稼働時間、パフォーマンス、および信頼性です。
彼らの遺産は以下の通りです。
(開発、ステージング、本番)
ディストリビューティッド(分散)トレーシング
ブラウザ
100台のホストのインフラストラクチャ監視
Kubernetes モニタリング (開発、ステージング、本番)
ログ(dev, staging, prod - debugを含む)
最適化計画
- デバッグ ログを省略すると (問題がある場合に有効にできることがわかっています)、5% 節約されます。
- Kubernetes クラスター エクスプローラーの表示に必要のないいくつかの Kubernetes 状態メトリックを省略すると、10% 節約されます。
- 新機能のテスト時に収集していたいくつかのカスタム ブラウザ イベントを削除し、10% 節約しました。
これらの変更を実行した後、チームは予算を 5% 下回り、NPM パイロットを実行するためのスペースをいくらか確保し、マネージャーから割り当てられたタスクを完了しました。
最終結果
- 当初予算より5%減
- 稼働時間、パフォーマンス、および信頼性の目標を提供するNPMパイロット用に作成されたヘッドルーム
- 稼働時間と信頼性の可観測性の損失を最小限に抑える
に重点を置いた新しいユーザー向けプラットフォームを担当するチームブラウザ監視は予算を 50% 超過して実行されています。取り込みのサイズを適切に調整する必要がありますが、カスタマー エクスペリエンスの可観測性を犠牲にしないことに固執しています。
彼らの遺産は以下の通りです。
チームは、大規模な Python モノリスを 4 つのマイクロサービスにリファクタリングする過程にあります。モノリスは、顧客データベースやキャッシュ層を含む新しいアーキテクチャとインフラストラクチャを共有します。予算を 70% 上回っており、モノリスを正式に廃止できるまで 2 か月あります。
彼らの遺産は以下の通りです。
Kubernetes モニタリング (マイクロサービス)
New Relic ホスト監視 (monolith)
APM(マイクロサービス、ホスト監視)
分散トレース(マイクロサービス、ホスト監視)
Postgresql(共有)
Redis(共有)
MSSQL (マイクロサービスアーキテクチャのための将来のDB)
ロードバランサーのログ取得(マイクロサービス、ホスト監視)
最適化計画
5xx
応答コードのみを監視するようにロードバランサのログを構成します。- モノリスを実行しているホストの
ProcessSample
、 StorageSample
、および NetworkSample
のカスタム サンプル レートを 60 秒に設定します。 - 新しいアーキテクチャでは MSSQL 監視が使用されないため、MSSQL 監視を無効にします。
- モノリスの分散トレースは、マイクロサービスアーキテクチャではあまり役に立たないので、無効にしてください。
最終成果
- 当初予算を1%下回る
- イノベーションと成長の可観測性を失うことはありません
ヒント
最適化計画を管理し、各最適化タスクが及ぼす影響を理解するために、タスク管理ツールで計画を追跡することをお勧めします。この データ最適化計画テンプレートを 使用すると役立ちます。