NVIDIA DCGM 통합은 GPU 상태를 모니터링하는 데 도움이 됩니다. 이 통합은 NVIDIA의 SMI 유틸리티와 원활하게 통합되는 인프라 에이전트와 Prometheus 원격 쓰기 통합을 활용합니다. GPU 활용도, XID 오류 수, 클럭 및 성능 상태, 온도, 전력 사용량 등 중요한 DCGM 지표가 포함된 사전 구축된 대시보드를 제공합니다.
![NVIDIA DCGM dashboard NVIDIA DCGM dashboard](/images/infrastructure_screenshot-full_nvidia-dcgm-dashboard.webp)
NVIDIA DCGM 통합을 설정하면 DCGM 지표에 대한 대시보드가 제공됩니다.
인프라 에이전트 설치
New Relic에 데이터를 가져오려면 인프라 에이전트를 설치하세요. 당사의 인프라 에이전트는 귀하가 DCGM 성과를 추적할 수 있도록 데이터를 수집하고 수집합니다.
두 가지 방법으로 인프라 에이전트를 설치할 수 있습니다.
- 가이드 설치 는 시스템을 검사하고 시스템에 가장 적합한 애플리케이션 모니터링 에이전트와 함께 인프라 에이전트를 설치하는 CLI 도구입니다. 가이드 설치 작동 방식에 대해 자세히 알아보려면 가이드 설치 개요 를 확인하세요.
- 인프라 에이전트를 수동으로 설치하려는 경우 Linux, Windows 용 수동 설치 자습서를 따를 수 있습니다.
DCGM 내보내기 구성
터미널에서
dcgm-exporter
저장소를 복제합니다.bash$git clone https://github.com/NVIDIA/dcgm-exporter복제된 저장소에서
dcgm-exporter
디렉터리로 이동합니다.bash$cd dcgm-exporter필요한 바이너리를 설치합니다:
bash$make binarybash$sudo make installdcgm-exporter
을 시작합니다.bash$dcgm-exporter &DCGM 측정항목의 세부정보를 확인하세요.
bash$curl localhost:9400/metrics
Prometheus의 NVIDIA-DCGM 구성
Prometheus는 NVIDIA-DCGM 내보내기를 사용하여 NVIDIA GPU를 모니터링하는 데 사용할 수 있는 오픈 소스 모니터링 및 경고 도구입니다. DCGM 측정항목을 모니터링하도록 Prometheus를 구성하려면 다음 단계를 따르세요.
최신 릴리스를 찾으려면 Prometheus 다운로드 페이지를 방문하세요.
운영 체제 및 아키텍처에 적합한 버전을 선택하십시오. Linux의 경우 linux-amd64 버전을 선택할 가능성이 높습니다. tarball(
.tar.gz
파일)에 대한 다운로드 링크를 복사합니다.Prometheus가 다운로드되면 다운로드 tar 파일의 압축을 풉니다.
bash$tar -xvzf <filename.tar.gz>다운로드한 Prometheus 폴더로 이동합니다.
bash$cd /DOWNLOADED-FOLDER/prometheus.yml
파일을 열고 다음 줄을 추가합니다.---scrape_configs:- job_name: NVIDIstatic_configs:- targets:['localhost:9400']프로메테우스를 시작하세요:
bash$./prometheus --config.file=prometheus.yml
NVIDIA-DCGM용 Prometheus 원격 쓰기 에이전트 설치
Prometheus 구성을 설정한 후 NVIDIA DCGM 지표를 Prometheus로 보내야 합니다. 나중에 Prometheus 측정항목을 New Relic과 통합하기 위해 Prometheus 원격 쓰기 에이전트를 활용할 수 있습니다. UI에서 Prometheus 원격 쓰기 설정 실행 프로그램을 따르기만 하면 됩니다.
New Relic 인프라 에이전트 다시 시작
데이터 읽기를 시작하기 전에 인프라 에이전트 문서 의 지침을 사용하여 인프라 에이전트를 다시 시작하십시오.
$sudo systemctl restart newrelic-infra.service
New Relic에서 DCGM 측정항목 보기
위의 설정을 완료하면 nvidia-dcgm이라는 사전 구축된 대시보드 템플릿을 사용하여 측정항목을 볼 수 있습니다. 이 대시보드에 액세스하려면:
one.newrelic.com > + Integrations & Agents
으)로 이동합니다.
Dashboards
탭을 클릭합니다.
검색창에 "nvidia-dcgm"을 입력하세요.
이를 선택하고
Install
클릭합니다.
nvidia-dcgm
퀵스타트를 다운로드하고 지표 및 알림을 보려면 지금 설치 버튼을 클릭하여 Nvidia-DCGM 퀵스타트 페이지를 팔로우할 수도 있습니다.
다음은 몇 가지 예시 쿼리입니다.
Example: 장치 GPU 온도 수 보기
SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES
다음은 뭐지?
NRQL 쿼리 작성 및 대시보드 생성에 대해 자세히 알아보려면 다음 문서를 확인하세요.
기본 및 고급 쿼리를 생성 하기 위한 쿼리 빌더 소개
디스플레이 모드를 조정하거나 대시보드에 더 많은 콘텐츠를 추가하세요.