• EnglishEspañol日本語한국어Português
  • Inicia sesiónComenzar ahora

Te ofrecemos esta traducción automática para facilitar la lectura.

En caso de que haya discrepancias entre la versión en inglés y la versión traducida, se entiende que prevalece la versión en inglés. Visita esta página para obtener más información.

Crea una propuesta

Integración NVIDIA DCGM

Nuestra integración NVIDIA DCGM te ayuda a monitorear el estado de las GPU. Esta integración aprovecha nuestro agente de infraestructura y la integración de escritura remota de Prometheus, que se integra perfectamente con la utilidad SMI de NVIDIA. Le proporciona un dashboard prediseñado que contiene métricas DCGM cruciales, incluida la utilización de GPU, recuentos de errores XID, estados de reloj y rendimiento, temperatura y uso de energía.

Después de configurar nuestra integración NVIDIA DCGM, le brindamos un dashboard para su métrica DCGM.

Instalar el agente de infraestructura

Para ingresar datos en New Relic, instale nuestro agente de infraestructura. Nuestro agente de infraestructura recopila e ingiere datos para que pueda realizar un seguimiento de su rendimiento de DCGM.

Puede instalar el agente de infraestructura de dos maneras diferentes:

Configurar el exportador DCGM

  1. En tu terminal, clona el repositorio dcgm-exporter :

    bash
    $
    git clone https://github.com/NVIDIA/dcgm-exporter
  2. En el repositorio clonado, navegue hasta el directorio dcgm-exporter :

    bash
    $
    cd dcgm-exporter
  3. Instale los binarios necesarios:

    bash
    $
    make binary
    bash
    $
    sudo make install
  4. Inicie el dcgm-exporter:

    bash
    $
    dcgm-exporter &
  5. Vea los detalles de su DCGM métrica:

    bash
    $
    curl localhost:9400/metrics

Configuración de NVIDIA-DCGM en Prometheus

Prometheus es una herramienta de alerta y monitoreo de código abierto que se puede utilizar para monitor las GPU NVIDIA mediante el exportador NVIDIA-DCGM. Para configurar Prometheus para monitor DCGM métrica, siga estos pasos:

  1. Visite la página de descarga de Prometheus para encontrar la última versión.

  2. Seleccione la versión adecuada para su sistema operativo y arquitectura. Para Linux, probablemente elijas la versión linux-amd64. Copie el enlace de descarga del archivo tarball (archivo .tar.gz ).

  3. Una vez descargado Prometheus, descomprima el archivo tar de descarga:

    bash
    $
    tar -xvzf <filename.tar.gz>
  4. Navegue hasta la carpeta Prometheus descargada:

    bash
    $
    cd /DOWNLOADED-FOLDER/
  5. Abra su archivo prometheus.yml y agregue las siguientes líneas:

    ---
    scrape_configs:
    - job_name: NVIDI
    static_configs:
    - targets:['localhost:9400']
  6. Inicia Prometheus:

    bash
    $
    ./prometheus --config.file=prometheus.yml

Instale el agente de escritura remota Prometheus para NVIDIA-DCGM

Después de configurar la configuración de Prometheus, debes enviar NVIDIA DCGM métrica a Prometheus. Posteriormente, para integrar Prometheus métrica con New Relic, puedes aprovechar el agente de escritura remota de Prometheus. Simplemente siga el iniciador de configuración de escritura remota de Prometheus en la UI.

Reinicie el agente New Relic Infrastructure

Antes de que pueda comenzar a leer sus datos, utilice las instrucciones de nuestros documentos del agente de infraestructura para reiniciar su agente de infraestructura.

bash
$
sudo systemctl restart newrelic-infra.service

Vea su DCGM métrica en New Relic

Una vez que haya completado la configuración anterior, podrá ver su métrica utilizando nuestra plantilla dashboard prediseñadas llamada nvidia-dcgm. Para acceder a este dashboard:

  1. Vaya a

    one.newrelic.com > + Add data

    .

  2. Haga clic en la pestaña

    Dashboards

    .

  3. En el cuadro de búsqueda, escriba "nvidia-dcgm".

  4. Selecciónelo y haga clic en

    Install

    .

Para instrumentar el inicio rápido de nvidia-dcgm y ver métricas y alertas, también puede seguir nuestra página de inicio rápido de Nvidia-DCGM haciendo clic en el botón “Instalar ahora”.

A continuación se muestran algunos ejemplos de consultas:

Example: ver el recuento de la temperatura de la GPU del dispositivo

SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES

¿Que sigue?

Para obtener más información sobre cómo crear una consulta NRQL y generar un panel, consulte estos documentos:

  • Introducción al generador de consultas para crear consultas básicas y avanzadas.

  • Introducción al panel para personalizar tu dashboard y realizar diferentes acciones.

  • Administre su dashboard para ajustar su

    modo de visualización o para agregar más contenido a su dashboard.

Copyright © 2024 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.