Nossa integração Ray monitora o desempenho do seu Ray, ajudando você a diagnosticar e otimizar o cluster Ray, tarefas de ML como pré-processamento de dados, treinamento distribuído, ajuste de hiperparâmetros, aprendizado por reforço e disponibilização de modelo e escalonamento de aplicativo Python. Nossa integração Ray faz uso de nosso agente de infraestrutura e o NRI-Prometheus oferece um dashboard pré-construído com suas métricas Ray mais importantes.
Depois de configurar a integração com o New Relic, veja seus dados em painéis como estes, prontos para uso.
Instalar o agente de infraestrutura
Para usar a integração Ray, primeiro é necessário instalar o agente de infraestrutura no mesmo host. O agente de infraestrutura monitora o próprio host, enquanto a integração Ray amplia seu monitoramento com dados específicos do cluster Ray.
Instale a integração do Prometheus
Baixe a versão mais recente do Prometheus na página de download do Prometheus. Selecione a versão apropriada para seu sistema operacional e arquitetura. Para Linux, você provavelmente escolherá a versão linux-amd64. Copie o link de download do tarball (arquivo
.tar.gz
).Após o download do Prometheus, extraia o arquivo tar de download:
bash$tar -xvzf <filename.tar.gz>Navegue até a pasta extraída do Prometheus e execute o comando abaixo para iniciar o serviço Prometheus:
bash$cd /DOWNLOADED-FOLDER/bash$./prometheus --config.file=/tmp/ray/session_latest/metrics/prometheus/prometheus.ymlQuando o Prometheus é iniciado, ele opera na porta 9090. Navegue até a interface web do Prometheus, selecione
Status
e clique no destino desejado para visualizar os URLs endpoint métrico do Ray, conforme mostrado abaixo:http://YOUR_DOMAIN:64415/metrics, http://YOUR_DOMAIN:44217/metrics, http://YOUR_DOMAIN:44227/metrics
Configurar nri-prometheus
Crie um arquivo chamado
nri-prometheus-config.yml
no seguinte caminho:bash$/etc/newrelic-infra/integrations.dAdicione o trecho a seguir ao arquivo
nri-prometheus-config.yml
que permite ao agente capturar dados do Ray:integrations:- name: nri-prometheusconfig:standalone: false# Defaults to true. When standalone is set to `false`, `nri-prometheus` requires an infrastructure agent to send data.emitters: infra-sdk# When running with infrastructure agent emitters will have to include infra-sdkcluster_name: Ray_Metrics# Match the name of your cluster with the name seen in New Relic.targets:- description: Ray_Metricsurls: ["http://<YOUR_HOST_IP>:64747/metrics", "http://<YOUR_HOST_IP>:44217/metrics", "http://<YOUR_HOST_IP>:44227/metrics"]# tls_config:# ca_file_path: "/etc/etcd/etcd-client-ca.crt"# cert_file_path: "/etc/etcd/etcd-client.crt"# key_file_path: "/etc/etcd/etcd-client.key"verbose: false# Defaults to false. This determines whether or not the integration should run in verbose mode.audit: false# Defaults to false and does not include verbose mode. Audit mode logs the uncompressed data sent to New Relic and can lead to a high log volume.# scrape_timeout: "YOUR_TIMEOUT_DURATION"# `scrape_timeout` is not a mandatory configuration and defaults to 30s. The HTTP client timeout when fetching data from endpoints.scrape_duration: "5s"# worker_threads: 4# `worker_threads` is not a mandatory configuration and defaults to `4` for clusters with more than 400 endpoints. Slowly increase the worker thread until scrape time falls between the desired `scrape_duration`. Note: Increasing this value too much results in huge memory consumption if too many metrics are scraped at once.insecure_skip_verify: false# Defaults to false. Determins if the integration should skip TLS verification or not.timeout: 10s
Encaminhar log do Ray para New Relic
Você pode usar nosso recurso de encaminhamento de logs para encaminhar o log do Ray para New Relic.
Edite o arquivo de log denominado
logging.yml
localizado no seguinte caminho:bash$cd /etc/newrelic-infra/logging.d/Adicione o seguinte script ao arquivo
logging.yml
:- name: dashboard.logfile: /tmp/ray/session_latest/logs/dashboard.logattributes:logtype: ray_dashboard_logs- name: monitor.logfile: /tmp/ray/session_latest/logs/monitor.logattributes:logtype: ray_monitor_logs- name: log_monitor.logfile: /tmp/ray/session_latest/logs/log_monitor.logattributes:logtype: ray_log_monitor_logs
Reinicie o agente de infraestrutura
Use as instruções em nossos documentos do agente de infraestrutura para reiniciar seu agente de infraestrutura. Este é um comando básico que deve funcionar para a maioria das pessoas:
$sudo systemctl restart newrelic-infra.service
Veja sua métrica Ray no New Relic
Depois de concluir a configuração acima, você poderá visualizar sua métrica usando nosso modelo dashboard pré-construído. Para acessar este dashboard:
Acesse one.newrelic.com > + Integrations & Agents.
Clique na guia do Dashboards .
Na caixa de pesquisa, digite
Ray
.Selecione-o e clique em Install.
Para instrumentar o Apache Druid início rápido e ver métricas e alertas, você também pode acompanhar nossa página do Ray início rápido clicando no botão Install now.
Aqui está um exemplo de consulta para verificar nós ativos em seu cluster Ray:
SELECT latest(ray_cluster_active_nodes) FROM Metric
Qual é o próximo?
Para saber mais sobre como construir uma consulta NRQL e gerar um painel, confira estes documentos:
- Introdução ao criador de consulta para criação de consultas básicas e avançadas.
- Introdução aos dashboards para personalizar seu dashboard e realizar diversas ações.
- Gerencie seu dashboard para ajustar o modo de exibição dos painéis ou para adicionar mais conteúdo ao seu dashboard.