Nuestra integración NVIDIA DCGM te ayuda a monitorear el estado de las GPU. Esta integración aprovecha nuestro agente de infraestructura y la integración de escritura remota de Prometheus, que se integra perfectamente con la utilidad SMI de NVIDIA. Le proporciona un dashboard prediseñado que contiene métricas DCGM cruciales, incluida la utilización de GPU, recuentos de errores XID, estados de reloj y rendimiento, temperatura y uso de energía.
Después de configurar nuestra integración NVIDIA DCGM, le brindamos un dashboard para su métrica DCGM.
Instalar el agente de infraestructura
Para ingresar datos en New Relic, instale nuestro agente de infraestructura. Nuestro agente de infraestructura recopila e ingiere datos para que pueda realizar un seguimiento de su rendimiento de DCGM.
Puede instalar el agente de infraestructura de dos maneras diferentes:
- Nuestra instalación guiada es una herramienta CLI que inspecciona su sistema e instala el agente de infraestructura junto con el agente de monitoreo de aplicaciones que mejor funcione para su sistema. Para obtener más información sobre cómo funciona nuestra instalación guiada, consulte nuestra descripción general de la instalación guiada.
- Si prefiere instalar nuestro agente de infraestructura manualmente, puede seguir un tutorial de instalación manual para Linux y Windows.
Configurar el exportador DCGM
En tu terminal, clona el repositorio
dcgm-exporter
:bash$git clone https://github.com/NVIDIA/dcgm-exporterEn el repositorio clonado, navegue hasta el directorio
dcgm-exporter
:bash$cd dcgm-exporterInstale los binarios necesarios:
bash$make binarybash$sudo make installInicie el
dcgm-exporter
:bash$dcgm-exporter &Vea los detalles de su DCGM métrica:
bash$curl localhost:9400/metrics
Configuración de NVIDIA-DCGM en Prometheus
Prometheus es una herramienta de alerta y monitoreo de código abierto que se puede utilizar para monitor las GPU NVIDIA mediante el exportador NVIDIA-DCGM. Para configurar Prometheus para monitor DCGM métrica, siga estos pasos:
Visite la página de descarga de Prometheus para encontrar la última versión.
Seleccione la versión adecuada para su sistema operativo y arquitectura. Para Linux, probablemente elijas la versión linux-amd64. Copie el enlace de descarga del archivo tarball (archivo
.tar.gz
).Una vez descargado Prometheus, descomprima el archivo tar de descarga:
bash$tar -xvzf <filename.tar.gz>Navegue hasta la carpeta Prometheus descargada:
bash$cd /DOWNLOADED-FOLDER/Abra su archivo
prometheus.yml
y agregue las siguientes líneas:---scrape_configs:- job_name: NVIDIstatic_configs:- targets:['localhost:9400']Inicia Prometheus:
bash$./prometheus --config.file=prometheus.yml
Instale el agente de escritura remota Prometheus para NVIDIA-DCGM
Después de configurar la configuración de Prometheus, debes enviar NVIDIA DCGM métrica a Prometheus. Posteriormente, para integrar Prometheus métrica con New Relic, puedes aprovechar el agente de escritura remota de Prometheus. Simplemente siga el iniciador de configuración de escritura remota de Prometheus en la UI.
Reinicie el agente New Relic Infrastructure
Antes de que pueda comenzar a leer sus datos, utilice las instrucciones de nuestros documentos del agente de infraestructura para reiniciar su agente de infraestructura.
$sudo systemctl restart newrelic-infra.service
Vea su DCGM métrica en New Relic
Una vez que haya completado la configuración anterior, podrá ver su métrica utilizando nuestra plantilla dashboard prediseñadas llamada nvidia-dcgm. Para acceder a este dashboard:
Vaya a
one.newrelic.com > + Add data
.
Haga clic en la pestaña
Dashboards
.
En el cuadro de búsqueda, escriba "nvidia-dcgm".
Selecciónelo y haga clic en
Install
.
Para instrumentar el inicio rápido de nvidia-dcgm y ver métricas y alertas, también puede seguir nuestra página de inicio rápido de Nvidia-DCGM haciendo clic en el botón “Instalar ahora”.
A continuación se muestran algunos ejemplos de consultas:
Example: ver el recuento de la temperatura de la GPU del dispositivo
SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES
¿Que sigue?
Para obtener más información sobre cómo crear una consulta NRQL y generar un panel, consulte estos documentos:
Introducción al generador de consultas para crear consultas básicas y avanzadas.
Introducción al panel para personalizar tu dashboard y realizar diferentes acciones.
Administre su dashboard para ajustar su
modo de visualización o para agregar más contenido a su dashboard.