当社の AMD GPU インテグレーションでは、 Flexを備えたインフラストラクチャ エージェントを使用し、AMD の SMI ユーティリティにアクセスできるようにします。

AMD GPU インテグレーションをセットアップすると、GPU メトリクスのダッシュボードが表示されます。
インストールすると、重要な GPU メトリクスを含む事前に構築されたダッシュボードが表示されます。
- GPU使用率
- メモリ使用量と可用性
- アクティブな計算プロセス
- クロック周波数
- 温度監視
- 消費電力
- パフォーマンス状態
- サポートされている各デバイスに関する動的情報と静的情報
インフラストラクチャエージェントをインストールします
New Relicでデータをキャプチャするには、インフラストラクチャエージェントをインストールします。 当社のインフラストラクチャエージェントはデータを収集して取り込むので、GPU パフォーマンスを追跡できます。
インフラストラクチャ エージェントは、次の 2 つの方法でインストールできます。
- ガイド付きインストールは、システムを検査し、システムに最適なインフラストラクチャ エージェントをアプリケーション監視エージェントとともにインストールする CLI ツールです。 ガイド付きインストールの仕組みの詳細については、 「ガイド付きインストールの概要」を参照してください。
- インフラストラクチャエージェントを手動でインストールしたい場合は、 Linux 、 Windowsの手動インストールのチュートリアルに従ってください。
AMD SMIをインストールする
Flexを構成する前に、AMD の SMI ユーティリティをインストールします。
Ubuntu/Debian:
$# Add AMD GPU repository$wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -$echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/debian/ ubuntu main' | sudo tee /etc/apt/sources.list.d/rocm.list$
$# Update and install$sudo apt update$sudo apt install amd-smi
RHEL/CentOS/Fedora:
$# Add AMD GPU repository$sudo tee /etc/yum.repos.d/rocm.repo <<EOF$[ROCm]$name=ROCm$baseurl=https://repo.radeon.com/rocm/yum/rpm$enabled=1$gpgcheck=1$gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key$EOF$
$# Install AMD SMI$sudo yum install amd-smi
重要
インストール後、amd-smi バイナリがシステム PATH でアクセス可能であり、ユーザーが GPU デバイスにアクセスするための適切な権限を持っていることを確認してください。
AMD GPU 用のFlexの構成
Flex New Relic Infrastructure エージェントにバンドルされており、AMD GPU デバイスを監視するためのコマンドライン ユーティリティである AMD SMI と統合できます。
Flex を構成するには、次の手順に従います。
このパスに
amd-smi-gpu-monitoring.yml
という名前のファイルを作成します。bash$sudo touch /etc/newrelic-infra/integrations.d/amd-smi-gpu-monitoring.ymlGit リポジトリからダウンロードすることもできます。
統合構成を使用して
amd-smi-gpu-monitoring.yml
ファイルを更新します。AMD SMI GPU 監視設定からファイルの内容 (
.yml
) をコピーし、設定ファイルに貼り付けます。
GPU メトリクスが取り込まれていることを確認する
Flex 構成はインフラストラクチャ エージェントによって自動的に検出され、実行されるため、エージェントを再起動する必要はありません。次の NRQL クエリを実行すると、メトリクスが取り込まれていることを確認できます。
SELECT * FROM AMDGpuSample
アプリケーションを監視する
カスタムダッシュボードを作成して、AMD GPU メトリクスを監視できます。 始めるにあたって、NRQL クエリの例をいくつか示します。
GPU使用率
SELECT average(gfx_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
メモリ使用量
SELECT average(vram_used_mb), average(vram_total_mb), average(vram_free_mb) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
温度監視
SELECT average(temp_edge_c), average(temp_hotspot_c), average(temp_mem_c) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
消費電力
SELECT average(socket_power_w), max(max_power_w) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
クロック周波数
SELECT average(gfx_0_clk_mhz), average(mem_0_clk_mhz), average(fclk_0_clk_mhz) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
タイプ別GPUアクティビティ
SELECT average(gfx_activity_percent), average(umc_activity_percent), average(mm_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
ECCエラー監視
SELECT sum(ecc_total_correctable), sum(ecc_total_uncorrectable) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
PCIe パフォーマンス
SELECT average(pcie_bandwidth_mb_s), average(pcie_current_bandwidth_sent), average(pcie_current_bandwidth_received) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
包括的なダッシュボードを作成するには:
- one.newrelic.comに移動し、 Dashboardsをクリックします。
- Create a dashboardをクリックします。
- 上記の NRQL クエリを使用してチャートを追加します。
- ダッシュボードのレイアウトをカスタマイズして保存します。
ダッシュボードの使用と編集に関するドキュメントについては、ダッシュボードのドキュメントを参照してください。
トラブルシューティング
よくある問題と解決策:
AMD SMIが見つかりません:
- AMD SMIが適切にインストールされ、PATHでアクセスできることを確認してください。
- AMD SMI を次のように検証します。
amd-smi version
権限拒否エラー:
- ユーザーがGPUデバイスにアクセスするための適切な権限を持っていることを確認する
- ユーザーを
render
グループに追加する必要がある可能性があります:bash$sudo usermod -a -G render $USER - 変更を有効にするには、ログアウトしてから再度ログインしてください
GPUが検出されません:
- AMD GPU がシステムによって検出されていることを確認します。
lspci | grep -i amd
- amdgpu ドライバーがロードされているかどうかを確認します。
lsmod | grep amdgpu
- AMD GPUがAMD SMIでサポートされていることを確認する
メトリクスがありません:
- 一部の古いAMD GPUはすべてのセンサーをサポートしない場合があります
- どのメトリクスが利用可能かを確認してください。
amd-smi metric --help
- GPUの互換性を確認します。
amd-smi list
次は何ですか?
Flex設定を調整して、AMD SMI ユーティリティから入手できる情報を含めたり除外したりできます。 追加の AMD SMI オプションは次のとおりです。
amd-smi list
- 利用可能なGPUデバイスを一覧表示するamd-smi static
- 静的GPU情報amd-smi metric
- 今度の GPU メトリクスamd-smi process
- GPUを使用して情報を処理するamd-smi monitor
- 継続的な監視モード
NRQL クエリの構築とダッシュボードの生成の詳細については、次のドキュメントを参照してください。
- 基本的なクエリと高度なクエリを作成するためのクエリ ビルダーの概要。
- ダッシュボードをカスタマイズしてさまざまなアクションを実行するためのダッシュボードの概要。
- ダッシュボードを管理して、 表示モードを調整したり、ダッシュボードにコンテンツを追加したりできます。