• EnglishEspañol日本語한국어Português
  • EntrarComeçar agora

Esta tradução de máquina é fornecida para sua comodidade.

Caso haja alguma divergência entre a versão em inglês e a traduzida, a versão em inglês prevalece. Acesse esta página para mais informações.

Criar um problema

Integração NVIDIA DCGM

Nossa integração NVIDIA DCGM auxilia você no monitoramento do status das GPUs. Essa integração aproveita nosso agente de infraestrutura e a integração de gravação remota do Prometheus, que é perfeitamente integrada ao utilitário SMI da NVIDIA. Ele fornece um dashboard pré-construído contendo métricas DCGM cruciais, incluindo utilização de GPU, contagens de erros XID, estados de clock e desempenho, temperatura e uso de energia.

Depois de configurar nossa integração NVIDIA DCGM, fornecemos um dashboard para sua métrica DCGM.

Instalar o agente de infraestrutura

Para colocar dados no New Relic, instale nosso agente de infraestrutura. Nosso agente de infraestrutura coleta e ingere dados para que você possa acompanhar o desempenho do seu DCGM.

É possível instalar o agente de infraestrutura de duas maneiras diferentes:

Configurar o exportador DCGM

  1. No seu terminal, clone o repositório dcgm-exporter :

    bash
    $
    git clone https://github.com/NVIDIA/dcgm-exporter
  2. No repositório clonado, navegue até o diretório dcgm-exporter :

    bash
    $
    cd dcgm-exporter
  3. Instale os binários necessários:

    bash
    $
    make binary
    bash
    $
    sudo make install
  4. Inicie o dcgm-exporter:

    bash
    $
    dcgm-exporter &
  5. Veja os detalhes da sua métrica DCGM:

    bash
    $
    curl localhost:9400/metrics

Configuração NVIDIA-DCGM no Prometheus

Prometheus é uma ferramenta de monitoramento e alerta de código aberto que pode ser usada para monitor GPUs NVIDIA usando o exportador NVIDIA-DCGM. Para configurar o Prometheus para monitor a métrica DCGM, siga estas etapas:

  1. Visite a página de download do Prometheus para encontrar a versão mais recente.

  2. Selecione a versão apropriada para seu sistema operacional e arquitetura. Para Linux, você provavelmente escolherá a versão linux-amd64. Copie o link de download do tarball (arquivo .tar.gz ).

  3. Depois que o Prometheus for baixado, descompacte o arquivo tar de download:

    bash
    $
    tar -xvzf <filename.tar.gz>
  4. Navegue até a pasta baixada do Prometheus:

    bash
    $
    cd /DOWNLOADED-FOLDER/
  5. Abra seu arquivo prometheus.yml e adicione as seguintes linhas:

    ---
    scrape_configs:
    - job_name: NVIDI
    static_configs:
    - targets:['localhost:9400']
  6. Inicie o Prometeu:

    bash
    $
    ./prometheus --config.file=prometheus.yml

Instale o agente de gravação remota Prometheus para NVIDIA-DCGM

Após configurar a configuração do Prometheus, você deve enviar a métrica NVIDIA DCGM para o Prometheus. Posteriormente, para integrar a métrica do Prometheus ao New Relic, você pode aproveitar o agente de gravação remota do Prometheus. Basta seguir o iniciador de configuração de gravação remota do Prometheus na interface.

Reinicie o agente do New Relic Infrastructure

Antes de começar a ler seus dados, use as instruções em nossos documentos do agente de infraestrutura para reiniciar seu agente de infraestrutura.

bash
$
sudo systemctl restart newrelic-infra.service

Veja sua métrica DCGM no New Relic

Depois de concluir a configuração acima, você poderá visualizar sua métrica usando nosso modelo dashboard pré-construído chamado nvidia-dcgm. Para acessar este dashboard:

  1. Vá para

    one.newrelic.com > + Integrations & Agents

    .

  2. Clique na guia

    Dashboards

    .

  3. Na caixa de pesquisa, digite “nvidia-dcgm”.

  4. Selecione-o e clique em

    Install

    .

Para instrumentar o nvidia-dcgm início rápido e ver métricas e alertas, você também pode seguir nossa página de início rápido Nvidia-DCGM clicando no botão Install now .

Aqui estão alguns exemplos de consulta:

Example: visualizar a contagem da temperatura da GPU do dispositivo

SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES

Qual é o próximo?

Para saber mais sobre como construir uma consulta NRQL e gerar um painel, confira estes documentos:

  • Introdução ao criador de consulta para criação de consultas básicas e avançadas.

  • Introdução aos dashboards para personalizar seu dashboard e realizar diversas ações.

  • Gerencie seu dashboard para ajustar o

    modo de exibição ou para adicionar mais conteúdo ao dashboard.

Copyright © 2024 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.