AMD GPU 통합은 Flex 통합을 갖춘 인프라 에이전트를 사용하는데, 이를 통해 AMD의 SMI 유틸리티에 액세스할 수 있습니다.

AMD GPU 통합을 설정하면 GPU 메트릭에 대한 대시보드가 표시됩니다.
설치하면 중요한 GPU 지표가 포함된 사전 구축된 대시보드가 제공됩니다.
- GPU 활용도
- 메모리 사용량 및 가용성
- 활성 컴퓨팅 프로세스
- 클록 주파수
- 온도 모니터링
- 전력 소비량
- 성능 상태
- 지원되는 각 장치에 대한 동적 및 정적 정보
인프라 에이전트 설치
뉴렐릭으로 데이터를 캡처하려면 에이전트 에이전트를 설치하세요. 당사의 인프라 에이전트는 사용자가 GPU 성능을 추적할 수 있도록 데이터를 수집하고 처리합니다.
두 가지 방법으로 인프라 에이전트를 설치할 수 있습니다.
AMD SMI 설치
Flex 통합을 구성하기 전에 AMD의 SMI 유틸리티를 설치하세요.
우분투/데비안:
$# Add AMD GPU repository$wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -$echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/debian/ ubuntu main' | sudo tee /etc/apt/sources.list.d/rocm.list$
$# Update and install$sudo apt update$sudo apt install amd-smi
RHEL/CentOS/페도라:
$# Add AMD GPU repository$sudo tee /etc/yum.repos.d/rocm.repo <<EOF$[ROCm]$name=ROCm$baseurl=https://repo.radeon.com/rocm/yum/rpm$enabled=1$gpgcheck=1$gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key$EOF$
$# Install AMD SMI$sudo yum install amd-smi
중요
설치 후 amd-smi 바이너리가 시스템 PATH에서 접근 가능한지 확인하고 사용자에게 GPU 장치에 액세스할 수 있는 적절한 권한이 있는지 확인하세요.
AMD GPU에 대한 Flex 통합 구성
Flex 뉴렐릭 인프라 에이전트와 함께 번들로 제공되며 AMD GPU 장치를 모니터링하기 위한 배열줄 유틸리티인 AMD SMI와 통합될 수 있습니다.
Flex를 구성하려면 다음 단계를 따르세요.
다음 경로에
amd-smi-gpu-monitoring.yml
이라는 파일을 만듭니다.bash$sudo touch /etc/newrelic-infra/integrations.d/amd-smi-gpu-monitoring.ymlgit 저장소 에서 다운로드할 수도 있습니다.
통합 구성으로
amd-smi-gpu-monitoring.yml
파일을 업데이트합니다.AMD SMI GPU 모델링 설정 에서 파일 콘텐츠(
.yml
)를 복사하여 설정 파일에 붙여넣습니다.
GPU 측정항목이 수집되고 있는지 확인
Flex 구성은 인프라 에이전트에 의해 자동으로 감지되고 실행되므로 에이전트를 다시 시작할 필요가 없습니다. 다음 NRQL 쿼리를 실행하여 측정항목이 수집되고 있는지 확인할 수 있습니다.
SELECT * FROM AMDGpuSample
애플리케이션 모니터링
맞춤형 대시보드를 생성하여 AMD GPU 지수를 모니터링할 수 있습니다. 시작하는 데 도움이 되는 몇 가지 NRQL 쿼리 예는 다음과 같습니다.
GPU 활용도
SELECT average(gfx_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
메모리 사용량
SELECT average(vram_used_mb), average(vram_total_mb), average(vram_free_mb) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
온도 모니터링
SELECT average(temp_edge_c), average(temp_hotspot_c), average(temp_mem_c) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
전력 소비
SELECT average(socket_power_w), max(max_power_w) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
클록 주파수
SELECT average(gfx_0_clk_mhz), average(mem_0_clk_mhz), average(fclk_0_clk_mhz) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
유형별 GPU 활동
SELECT average(gfx_activity_percent), average(umc_activity_percent), average(mm_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
ECC 오류 모니터링
SELECT sum(ecc_total_correctable), sum(ecc_total_uncorrectable) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
PCIe 성능
SELECT average(pcie_bandwidth_mb_s), average(pcie_current_bandwidth_sent), average(pcie_current_bandwidth_received) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
포괄적인 대시보드를 만들려면:
- one.newrelic.com 으로 이동하여 Dashboards 를) 클릭합니다.
- Create a dashboard 을(를) 클릭합니다.
- 위에 제공된 NRQL 쿼리를 사용하여 차트를 추가합니다.
- 대시보드 레이아웃을 사용자 지정하고 저장하세요.
대시보드 사용 및 편집에 대한 문서는 대시보드 문서 를 참조하세요.
문제점 해결
일반적인 문제 및 해결 방법:
AMD SMI를 찾을 수 없습니다:
- AMD SMI가 PATH에 제대로 설치되어 접근 가능한지 확인하세요.
- AMD SMI를 확인하세요:
amd-smi version
권한 거부 오류:
- 사용자에게 GPU 장치에 액세스할 수 있는 적절한 권한이 있는지 확인하세요.
render
그룹에 사용자를 추가해야 할 수도 있습니다.bash$sudo usermod -a -G render $USER- 변경 사항을 적용하려면 로그아웃했다가 다시 로그인하세요.
GPU가 감지되지 않았습니다.
- 시스템에서 AMD GPU가 감지되는지 확인하세요.
lspci | grep -i amd
- amdgpu 드라이버가 로드되었는지 확인하세요:
lsmod | grep amdgpu
- AMD SMI가 AMD GPU를 지원하는지 확인하세요.
누락된 메트릭:
- 일부 구형 AMD GPU는 모든 센서를 지원하지 않을 수 있습니다.
- 어떤 지표를 사용할 수 있는지 확인하세요:
amd-smi metric --help
- GPU 호환성 확인:
amd-smi list
다음은 뭐지?
AMD SMI 유틸리티에서 사용 가능한 정보를 포함하거나 제외하도록 Flex 설정을 조정할 수 있습니다. 추가 AMD SMI 옵션은 다음과 같습니다.
amd-smi list
- 사용 가능한 GPU 장치 나열amd-smi static
- 정적 GPU 정보amd-smi metric
- 실시간 GPU 메트릭amd-smi process
- GPU를 사용하여 정보 처리amd-smi monitor
- 연속 모니터링 모드
NRQL 쿼리 작성 및 대시보드 생성에 대해 자세히 알아보려면 다음 문서를 참조하세요.
- 기본 및 고급 쿼리를 생성 하기 위한 쿼리 빌더 소개
- 대시보드를 사용자 지정하고 다양한 작업을 수행하기 위한 대시보드 소개
- 대시보드를 관리하여 디스플레이 모드를 조정하거나 대시보드에 더 많은 콘텐츠를 추가하세요.