• EnglishEspañol日本語한국어Português
  • Inicia sesiónComenzar ahora

Te ofrecemos esta traducción automática para facilitar la lectura.

In the event of any inconsistency between the English version and the translated version, the English versionwill take priority. Please visit this page for more information.

Crea una propuesta

Integración de GPU NVIDIA

Nuestra integración de GPU NVIDIA le permite monitor el estado de sus GPU. Esta integración utiliza nuestro agente de infraestructura con la integración Flex, que nos permite acceder a la utilidad SMI de NVIDIA.

Después de configurar nuestra integración de GPU NVIDIA, le brindamos un dashboard para su GPU métrica.

Cuando lo instales, obtendrás un dashboard prediseñado que contiene métricas de GPU cruciales:

  • Utilización de GPU
  • Recuentos de errores de ECC
  • Procesos de cálculo activos
  • Estados de reloj y rendimiento
  • Temperatura y velocidad del ventilador.
  • Información dinámica y estática sobre cada dispositivo compatible.

Instalar el agente de infraestructura

Para capturar datos con New Relic, instale nuestro agente de infraestructura. Nuestro agente de infraestructura recopila e ingiere datos para que pueda realizar un seguimiento del rendimiento de sus GPU.

Puede instalar el agente de infraestructura de dos maneras diferentes:

Configurar la integración Flex para GPU NVIDIA

Flex viene incluido con el agente New Relic Infrastructure y se puede integrar con NVIDIA SMI, una utilidad de línea de comando para monitor dispositivos GPU NVIDIA.

Importante

nvidia-smi viene preinstalado con controladores de pantalla NVIDIA GPU en Linux y Windows Server.

Siga estos pasos para configurar Flex:

  1. Cree un archivo llamado nvidia-smi-gpu-monitoring.yml en esta ruta:

    bash
    $
    sudo touch /etc/newrelic-infra/integrations.d/nvidia-smi-gpu-monitoring.yml

    También puedes descargarlo desde el repositorio de git.

  2. Actualice el archivo nvidia-smi-gpu-monitoring.yml con la configuración de integración:

---
integrations:
- name: nri-flex
# interval: 30s
config:
name: NvidiaSMI
variable_store:
metrics:
"name,driver_version,count,serial,pci.bus_id,pci.domain,pci.bus,\
pci.device_id,pci.sub_device_id,pcie.link.gen.current,pcie.link.gen.max,\
pcie.link.width.current,pcie.link.width.max,index,display_mode,display_active,\
persistence_mode,accounting.mode,accounting.buffer_size,driver_model.current,\
driver_model.pending,vbios_version,inforom.img,inforom.oem,inforom.ecc,inforom.pwr,\
gom.current,gom.pending,fan.speed,pstate,clocks_throttle_reasons.supported,\
clocks_throttle_reasons.gpu_idle,clocks_throttle_reasons.applications_clocks_setting,\
clocks_throttle_reasons.sw_power_cap,clocks_throttle_reasons.hw_slowdown,clocks_throttle_reasons.hw_thermal_slowdown,\
clocks_throttle_reasons.hw_power_brake_slowdown,clocks_throttle_reasons.sw_thermal_slowdown,\
clocks_throttle_reasons.sync_boost,memory.total,memory.used,memory.free,compute_mode,\
utilization.gpu,utilization.memory,encoder.stats.sessionCount,encoder.stats.averageFps,\
encoder.stats.averageLatency,ecc.mode.current,ecc.mode.pending,ecc.errors.corrected.volatile.device_memory,\
ecc.errors.corrected.volatile.dram,ecc.errors.corrected.volatile.register_file,ecc.errors.corrected.volatile.l1_cache,\
ecc.errors.corrected.volatile.l2_cache,ecc.errors.corrected.volatile.texture_memory,ecc.errors.corrected.volatile.cbu,\
ecc.errors.corrected.volatile.sram,ecc.errors.corrected.volatile.total,ecc.errors.corrected.aggregate.device_memory,\
ecc.errors.corrected.aggregate.dram,ecc.errors.corrected.aggregate.register_file,ecc.errors.corrected.aggregate.l1_cache,\
ecc.errors.corrected.aggregate.l2_cache,ecc.errors.corrected.aggregate.texture_memory,ecc.errors.corrected.aggregate.cbu,\
ecc.errors.corrected.aggregate.sram,ecc.errors.corrected.aggregate.total,ecc.errors.uncorrected.volatile.device_memory,\
ecc.errors.uncorrected.volatile.dram,ecc.errors.uncorrected.volatile.register_file,ecc.errors.uncorrected.volatile.l1_cache,\
ecc.errors.uncorrected.volatile.l2_cache,ecc.errors.uncorrected.volatile.texture_memory,ecc.errors.uncorrected.volatile.cbu,\
ecc.errors.uncorrected.volatile.sram,ecc.errors.uncorrected.volatile.total,ecc.errors.uncorrected.aggregate.device_memory,\
ecc.errors.uncorrected.aggregate.dram,ecc.errors.uncorrected.aggregate.register_file,ecc.errors.uncorrected.aggregate.l1_cache,\
ecc.errors.uncorrected.aggregate.l2_cache,ecc.errors.uncorrected.aggregate.texture_memory,ecc.errors.uncorrected.aggregate.cbu,\
ecc.errors.uncorrected.aggregate.sram,ecc.errors.uncorrected.aggregate.total,retired_pages.single_bit_ecc.count,\
retired_pages.double_bit.count,retired_pages.pending,temperature.gpu,temperature.memory,power.management,power.draw,\
power.limit,enforced.power.limit,power.default_limit,power.min_limit,power.max_limit,clocks.current.graphics,clocks.current.sm,\
clocks.current.memory,clocks.current.video,clocks.applications.graphics,clocks.applications.memory,\
clocks.default_applications.graphics,clocks.default_applications.memory,clocks.max.graphics,clocks.max.sm,clocks.max.memory,\
mig.mode.current,mig.mode.pending"
apis:
- name: NvidiaGpu
commands:
- run: nvidia-smi --query-gpu=${var:metrics} --format=csv # update this if you have an alternate path
output: csv
rename_keys:
" ": ""
"\\[MiB\\]": ".MiB"
"\\[%\\]": ".percent"
"\\[W\\]": ".watts"
"\\[MHz\\]": ".MHz"
value_parser:
"clocks|power|fan|memory|temp|util|ecc|stats|gom|mig|count|pcie": '\d*\.?\d+'
'.': '\[N\/A\]|N\/A|Not Active|Disabled|Enabled|Default'

Confirme que se están ingiriendo GPU métricas

La configuración de Flex será detectada y ejecutada automáticamente por el agente de infraestructura; no es necesario reiniciar el agente. Puede confirmar que se están ingiriendo métricas ejecutando esta consulta NRQL:

SELECT * FROM NvidiaGpuSample

Monitor su aplicación

Puede utilizar nuestra plantilla dashboard prediseñadas para monitor su GPU métrica. Sigue estos pasos:

  1. Vaya a

    one.newrelic.com

    y haga clic en

    Dashboards

    .

  2. Haga clic en la pestaña

    Import dashboard

    .

  3. Copie el contenido del archivo (.json) desde el panel de la GPU NVIDIA.

  4. Seleccione la cuenta de destino donde se debe importar el dashboard .

  5. Haga clic en

    Import dashboard

    para confirmar la acción.

    Su dashboard NVIDIA GPU Monitoring se considera un panel personalizado y se puede encontrar en la UI Dashboards. Para obtener documentos sobre el uso y edición del panel, consulte nuestros documentos dashboard .

    Aquí hay una consulta NRQL para ver toda la telemetría disponible:

    SELECT * FROM NvidiaGpuSample

¿Que sigue?

Puede adaptar la configuración de Flex para incluir o excluir información disponible en la utilidad NVIDIA SMI.

Para obtener más información sobre cómo crear una consulta NRQL y generar un panel, consulte estos documentos:

  • Introducción al generador de consultas para crear consultas básicas y avanzadas.

  • Introducción al panel para personalizar tu dashboard y realizar diferentes acciones.

  • Administre su dashboard para ajustar su

    modo de visualización o para agregar más contenido a su dashboard.

Copyright © 2024 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.