NVIDIA DCGM 統合は、GPU のステータスの監視を支援します。この統合は、インフラストラクチャ エージェントと、NVIDIA の SMI ユーティリティとシームレスに統合される Prometheus リモート書き込み統合を活用します。GPU 使用率、XID エラー数、クロックとパフォーマンスの状態、温度、電力使用量などの重要な DCGM メトリクスを含む事前構築されたダッシュボードが提供されます。
NVIDIA DCGM 統合をセットアップすると、DCGM メトリクスのダッシュボードが提供されます。
インフラストラクチャエージェントをインストールします
データを New Relic に取り込むには、インフラストラクチャ エージェントをインストールします。当社のインフラストラクチャ エージェントはデータを収集して取り込むため、DCGM のパフォーマンスを追跡できます。
インフラストラクチャ エージェントは、次の 2 つの方法でインストールできます。
- ガイド付きインストールは、システムを検査し、システムに最適なアプリケーション監視エージェントとともにインフラストラクチャ エージェントをインストールする CLI ツールです。ガイド付きインストールの仕組みの詳細については、ガイド付きインストールの概要をご覧ください。
- インフラストラクチャ エージェントを手動でインストールしたい場合は、 Linux 、 Windowsの手動インストールのチュートリアルに従ってください。
DCGM エクスポーターを構成する
ターミナルで、
dcgm-exporter
リポジトリのクローンを作成します。bash$git clone https://github.com/NVIDIA/dcgm-exporterクローン作成されたリポジトリで、
dcgm-exporter
ディレクトリに移動します。bash$cd dcgm-exporter必要なバイナリをインストールします。
bash$make binarybash$sudo make installdcgm-exporter
を開始します。bash$dcgm-exporter &DCGM メトリクスの詳細を確認します。
bash$curl localhost:9400/metrics
Prometheus での NVIDIA-DCGM 構成
Prometheus は、NVIDIA-DCGM エクスポーターを使用して NVIDIA GPU を監視するために使用できるオープンソースの監視およびアラート ツールです。DCGM メトリクスを監視するように Prometheus を設定するには、次の手順に従います。
最新リリースを見つけるには、 Prometheus ダウンロード ページにアクセスしてください。
オペレーティング システムとアーキテクチャに適切なバージョンを選択します。Linux の場合は、linux-amd64 バージョンを選択することになるでしょう。tarball (
.tar.gz
ファイル) のダウンロード リンクをコピーします。Prometheus をダウンロードしたら、ダウンロードした tar ファイルを解凍します。
bash$tar -xvzf <filename.tar.gz>ダウンロードした Prometheus フォルダーに移動します。
bash$cd /DOWNLOADED-FOLDER/prometheus.yml
ファイルを開き、次の行を追加します。---scrape_configs:- job_name: NVIDIstatic_configs:- targets:['localhost:9400']プロメテウスを起動します。
bash$./prometheus --config.file=prometheus.yml
NVIDIA-DCGM 用の Prometheus リモート書き込みエージェントをインストールする
Prometheus 構成をセットアップした後、NVIDIA DCGM メトリクスを Prometheus に送信する必要があります。その後、Prometheus メトリクスを New Relic と統合するために、Prometheus リモート書き込みエージェントを利用できます。UI の Prometheus リモート書き込みセットアップ ランチャーに従ってください。
New Relic インフラストラクチャ エージェントを再起動します
データの読み取りを開始する前に、 インフラストラクチャ エージェントのドキュメント の手順に従ってインフラストラクチャ エージェントを再起動します。
$sudo systemctl restart newrelic-infra.service
New Relic で DCGM メトリクスを表示する
上記のセットアップが完了すると、nvidia-dcgm という名前の事前に構築されたダッシュボード テンプレートを使用してメトリクスを表示できます。このダッシュボードにアクセスするには:
one.newrelic.com > + Integrations & Agents
に移動します。
Dashboards
タブをクリックします。
検索ボックスに「nvidia-dcgm」と入力します。
選択して
Install
をクリックします。
nvidia-dcgm
クイックスタートを試してメトリックとアラートを確認するには、Install now [今すぐインストール]ボタンをクリックして、 Nvidia-DCGM クイックスタート ページ に従うこともできます。
以下に、クエリの例を示します。
Example: デバイスの GPU 温度のカウントを表示する
SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES
次は何ですか?
NRQL クエリの作成とダッシュボードの生成の詳細については、次のドキュメントをご覧ください。
基本的なクエリと高度なクエリを作成するためのクエリ ビルダーの概要。
表示モードを調整したり、ダッシュボードにコンテンツを追加したりできます。