• EnglishEspañol日本語한국어Português
  • ログイン今すぐ開始

この機械翻訳は、参考として提供されています。

In the event of any inconsistency between the English version and the translated version, the English versionwill take priority. Please visit this page for more information.

問題を作成する

NVIDIA DCGM の統合

NVIDIA DCGM 統合は、GPU のステータスの監視を支援します。この統合は、インフラストラクチャ エージェントと、NVIDIA の SMI ユーティリティとシームレスに統合される Prometheus リモート書き込み統合を活用します。GPU 使用率、XID エラー数、クロックとパフォーマンスの状態、温度、電力使用量などの重要な DCGM メトリクスを含む事前構築されたダッシュボードが提供されます。

NVIDIA DCGM 統合をセットアップすると、DCGM メトリクスのダッシュボードが提供されます。

インフラストラクチャエージェントをインストールします

データを New Relic に取り込むには、インフラストラクチャ エージェントをインストールします。当社のインフラストラクチャ エージェントはデータを収集して取り込むため、DCGM のパフォーマンスを追跡できます。

インフラストラクチャ エージェントは、次の 2 つの方法でインストールできます。

DCGM エクスポーターを構成する

  1. ターミナルで、 dcgm-exporterリポジトリのクローンを作成します。

    bash
    $
    git clone https://github.com/NVIDIA/dcgm-exporter
  2. クローン作成されたリポジトリで、 dcgm-exporterディレクトリに移動します。

    bash
    $
    cd dcgm-exporter
  3. 必要なバイナリをインストールします。

    bash
    $
    make binary
    bash
    $
    sudo make install
  4. dcgm-exporterを開始します。

    bash
    $
    dcgm-exporter &
  5. DCGM メトリクスの詳細を確認します。

    bash
    $
    curl localhost:9400/metrics

Prometheus での NVIDIA-DCGM 構成

Prometheus は、NVIDIA-DCGM エクスポーターを使用して NVIDIA GPU を監視するために使用できるオープンソースの監視およびアラート ツールです。DCGM メトリクスを監視するように Prometheus を設定するには、次の手順に従います。

  1. 最新リリースを見つけるには、 Prometheus ダウンロード ページにアクセスしてください。

  2. オペレーティング システムとアーキテクチャに適切なバージョンを選択します。Linux の場合は、linux-amd64 バージョンを選択することになるでしょう。tarball ( .tar.gzファイル) のダウンロード リンクをコピーします。

  3. Prometheus をダウンロードしたら、ダウンロードした tar ファイルを解凍します。

    bash
    $
    tar -xvzf <filename.tar.gz>
  4. ダウンロードした Prometheus フォルダーに移動します。

    bash
    $
    cd /DOWNLOADED-FOLDER/
  5. prometheus.ymlファイルを開き、次の行を追加します。

    ---
    scrape_configs:
    - job_name: NVIDI
    static_configs:
    - targets:['localhost:9400']
  6. プロメテウスを起動します。

    bash
    $
    ./prometheus --config.file=prometheus.yml

NVIDIA-DCGM 用の Prometheus リモート書き込みエージェントをインストールする

Prometheus 構成をセットアップした後、NVIDIA DCGM メトリクスを Prometheus に送信する必要があります。その後、Prometheus メトリクスを New Relic と統合するために、Prometheus リモート書き込みエージェントを利用できます。UI の Prometheus リモート書き込みセットアップ ランチャーに従ってください。

New Relic インフラストラクチャ エージェントを再起動します

データの読み取りを開始する前に、 インフラストラクチャ エージェントのドキュメント の手順に従ってインフラストラクチャ エージェントを再起動します。

bash
$
sudo systemctl restart newrelic-infra.service

New Relic で DCGM メトリクスを表示する

上記のセットアップが完了すると、nvidia-dcgm という名前の事前に構築されたダッシュボード テンプレートを使用してメトリクスを表示できます。このダッシュボードにアクセスするには:

  1. one.newrelic.com > + Add data

    に移動します。

  2. Dashboards

    タブをクリックします。

  3. 検索ボックスに「nvidia-dcgm」と入力します。

  4. 選択して

    Install

    をクリックします。

nvidia-dcgm クイックスタートを計測し、メトリクスとアラートを確認するには、「今すぐインストール」ボタンをクリックしてNvidia-DCGM クイックスタート ページに従うこともできます。

以下に、クエリの例を示します。

Example: デバイスの GPU 温度のカウントを表示する

SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES

次は何ですか?

NRQL クエリの作成とダッシュボードの生成の詳細については、次のドキュメントをご覧ください。

  • 基本的なクエリと高度なクエリを作成するためのクエリ ビルダーの概要

  • ダッシュボードをカスタマイズしてさまざまなアクションを実行するためのダッシュボードの概要

  • ダッシュボードを管理して

    表示モードを調整したり、ダッシュボードにコンテンツを追加したりできます。

Copyright © 2024 New Relic株式会社。

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.