Integración NVIDIA DCGM

Nuestra integración NVIDIA DCGM te ayuda a monitorear el estado de las GPU. Esta integración aprovecha nuestro agente de infraestructura y la integración de escritura remota de Prometheus, que se integra perfectamente con la utilidad SMI de NVIDIA. Le proporciona un dashboard prediseñado que contiene métricas DCGM cruciales, incluida la utilización de GPU, recuentos de errores XID, estados de reloj y rendimiento, temperatura y uso de energía.

Después de configurar nuestra integración NVIDIA DCGM, le brindamos un dashboard para su métrica DCGM.

Instalar el agente de infraestructura

Para ingresar datos en New Relic, instale nuestro agente de infraestructura. Nuestro agente de infraestructura recopila e ingiere datos para que pueda realizar un seguimiento de su rendimiento de DCGM.

Puede instalar el agente de infraestructura de dos maneras diferentes:

Nuestra instalación guiada es una herramienta CLI que inspecciona su sistema e instala el agente de infraestructura junto con el agente de monitoreo de aplicaciones que mejor funcione para su sistema. Para obtener más información sobre cómo funciona nuestra instalación guiada, consulte nuestra descripción general de la instalación guiada.
Si prefiere instalar nuestro agente de infraestructura manualmente, puede seguir un tutorial de instalación manual para Linux y Windows.

Configurar el exportador DCGM

En tu terminal, clona el repositorio dcgm-exporter :
bash
```
$git clone https://github.com/NVIDIA/dcgm-exporter
```
En el repositorio clonado, navegue hasta el directorio dcgm-exporter :
bash
```
$cd dcgm-exporter
```
Instale los binarios necesarios:
bash
```
$make binary
```
bash
```
$sudo make install
```
Inicie el dcgm-exporter:
bash
```
$dcgm-exporter &
```
Vea los detalles de su DCGM métrica:
bash
```
$curl localhost:9400/metrics
```

Configuración de NVIDIA-DCGM en Prometheus

Prometheus es una herramienta de alerta y monitoreo de código abierto que se puede utilizar para monitor las GPU NVIDIA mediante el exportador NVIDIA-DCGM. Para configurar Prometheus para monitor DCGM métrica, siga estos pasos:

Visite la página de descarga de Prometheus para encontrar la última versión.
Seleccione la versión adecuada para su sistema operativo y arquitectura. Para Linux, probablemente elijas la versión linux-amd64. Copie el enlace de descarga del archivo tarball (archivo .tar.gz ).
Una vez descargado Prometheus, descomprima el archivo tar de descarga:
bash
```
$tar -xvzf <filename.tar.gz>
```
Navegue hasta la carpeta Prometheus descargada:
bash
```
$cd /DOWNLOADED-FOLDER/
```
Abra su archivo prometheus.yml y agregue las siguientes líneas:
```
---
scrape_configs:
  - job_name: NVIDI
    static_configs:
      - targets:['localhost:9400']
```

Inicia Prometheus:

bash

$./prometheus --config.file=prometheus.yml

Instale el agente de escritura remota Prometheus para NVIDIA-DCGM

Después de configurar la configuración de Prometheus, debes enviar NVIDIA DCGM métrica a Prometheus. Posteriormente, para integrar Prometheus métrica con New Relic, puedes aprovechar el agente de escritura remota de Prometheus. Simplemente siga el iniciador de configuración de escritura remota de Prometheus en la UI.

Reinicie el agente New Relic Infrastructure

Antes de que pueda comenzar a leer sus datos, utilice las instrucciones de nuestros documentos del agente de infraestructura para reiniciar su agente de infraestructura.

bash

$sudo systemctl restart newrelic-infra.service

Vea su DCGM métrica en New Relic

Una vez que haya completado la configuración anterior, podrá ver su métrica utilizando nuestra plantilla dashboard prediseñadas llamada nvidia-dcgm. Para acceder a este dashboard:

Vaya a
one.newrelic.com > + Add data
.
Haga clic en la pestaña
Dashboards
.
En el cuadro de búsqueda, escriba "nvidia-dcgm".
Selecciónelo y haga clic en
Install
.

Para instrumentar el inicio rápido de nvidia-dcgm y ver métricas y alertas, también puede seguir nuestra página de inicio rápido de Nvidia-DCGM haciendo clic en el botón “Instalar ahora”.

A continuación se muestran algunos ejemplos de consultas:

Example: ver el recuento de la temperatura de la GPU del dispositivo

SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES

¿Que sigue?

Para obtener más información sobre cómo crear una consulta NRQL y generar un panel, consulte estos documentos:

Introducción al generador de consultas para crear consultas básicas y avanzadas.
Introducción al panel para personalizar tu dashboard y realizar diferentes acciones.
Administre su dashboard para ajustar su
modo de visualización o para agregar más contenido a su dashboard.

Te ofrecemos esta traducción automática para facilitar la lectura.