NVIDIA DCGM の統合

NVIDIA DCGM 統合は、GPU のステータスの監視を支援します。この統合は、インフラストラクチャエージェントと、NVIDIA の SMI ユーティリティとシームレスに統合される Prometheus リモート書き込み統合を活用します。GPU 使用率、XID エラー数、クロックとパフォーマンスの状態、温度、電力使用量などの重要な DCGM メトリクスを含む事前構築されたダッシュボードが提供されます。

NVIDIA DCGM 統合をセットアップすると、DCGM メトリクスのダッシュボードが提供されます。

インフラストラクチャエージェントをインストールします

データを New Relic に取り込むには、インフラストラクチャエージェントをインストールします。当社のインフラストラクチャエージェントはデータを収集して取り込むため、DCGM のパフォーマンスを追跡できます。

インフラストラクチャエージェントは、次の 2 つの方法でインストールできます。

ガイド付きインストールは、システムを検査し、システムに最適なアプリケーション監視エージェントとともにインフラストラクチャエージェントをインストールする CLI ツールです。ガイド付きインストールの仕組みの詳細については、ガイド付きインストールの概要をご覧ください。
インフラストラクチャエージェントを手動でインストールしたい場合は、 Linux 、 Windowsの手動インストールのチュートリアルに従ってください。

DCGM エクスポーターを構成する

ターミナルで、 dcgm-exporterリポジトリのクローンを作成します。
bash
```
$git clone https://github.com/NVIDIA/dcgm-exporter
```
クローン作成されたリポジトリで、 dcgm-exporterディレクトリに移動します。
bash
```
$cd dcgm-exporter
```
必要なバイナリをインストールします。
bash
```
$make binary
```
bash
```
$sudo make install
```
dcgm-exporterを開始します。
bash
```
$dcgm-exporter &
```
DCGM メトリクスの詳細を確認します。
bash
```
$curl localhost:9400/metrics
```

Prometheus での NVIDIA-DCGM 構成

Prometheus は、NVIDIA-DCGM エクスポーターを使用して NVIDIA GPU を監視するために使用できるオープンソースの監視およびアラートツールです。DCGM メトリクスを監視するように Prometheus を設定するには、次の手順に従います。

最新リリースを見つけるには、 Prometheus ダウンロードページにアクセスしてください。
オペレーティングシステムとアーキテクチャに適切なバージョンを選択します。Linux の場合は、linux-amd64 バージョンを選択することになるでしょう。tarball ( .tar.gzファイル) のダウンロードリンクをコピーします。
Prometheus をダウンロードしたら、ダウンロードした tar ファイルを解凍します。
bash
```
$tar -xvzf <filename.tar.gz>
```
ダウンロードした Prometheus フォルダーに移動します。
bash
```
$cd /DOWNLOADED-FOLDER/
```
prometheus.ymlファイルを開き、次の行を追加します。
```
---
scrape_configs:
  - job_name: NVIDI
    static_configs:
      - targets:['localhost:9400']
```
プロメテウスを起動します。
bash
```
$./prometheus --config.file=prometheus.yml
```

NVIDIA-DCGM 用の Prometheus リモート書き込みエージェントをインストールする

Prometheus 構成をセットアップした後、NVIDIA DCGM メトリクスを Prometheus に送信する必要があります。その後、Prometheus メトリクスを New Relic と統合するために、Prometheus リモート書き込みエージェントを利用できます。UI の Prometheus リモート書き込みセットアップランチャーに従ってください。

New Relic インフラストラクチャエージェントを再起動します

データの読み取りを開始する前に、インフラストラクチャエージェントのドキュメントの手順に従ってインフラストラクチャエージェントを再起動します。

bash

$sudo systemctl restart newrelic-infra.service

New Relic で DCGM メトリクスを表示する

上記のセットアップが完了すると、nvidia-dcgm という名前の事前に構築されたダッシュボードテンプレートを使用してメトリクスを表示できます。このダッシュボードにアクセスするには:

one.newrelic.com > + Integrations & Agents
に移動します。
Dashboards
タブをクリックします。
検索ボックスに「nvidia-dcgm」と入力します。
選択して
Install
をクリックします。

nvidia-dcgmクイックスタートを試してメトリックとアラートを確認するには、Install now [今すぐインストール]ボタンをクリックして、 Nvidia-DCGM クイックスタートページに従うこともできます。

以下に、クエリの例を示します。

Example: デバイスの GPU 温度のカウントを表示する

SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES

次は何ですか？

NRQL クエリの作成とダッシュボードの生成の詳細については、次のドキュメントをご覧ください。

基本的なクエリと高度なクエリを作成するためのクエリビルダーの概要。
ダッシュボードをカスタマイズしてさまざまなアクションを実行するためのダッシュボードの概要。
ダッシュボードを管理して、
表示モードを調整したり、ダッシュボードにコンテンツを追加したりできます。