Dica
O modo guiado de condição NRQL oferece uma experiência com curadoria para criar condições NRQL de infraestrutura "host não relatando" (HNR). Esta é a alternativa preferida para criar condições de infraestrutura de "host sem relatórios".
Use a condição Host not reporting do monitoramento de infraestrutura para notificá-lo quando pararmos de receber dados de um agente de infraestrutura. Este recurso permite alertar dinamicamente sobre grupos de hosts, configurar a janela de tempo de cinco a 60 minutos e aproveitar ao máximo a notificação .
Recurso
Você pode definir condições com base nos conjuntos de hosts mais importantes para você e configurar o limite apropriado para cada conjunto de hosts filtrado. O evento Host not reporting é acionado quando os dados do agente de infraestrutura não chegam ao nosso coletor dentro do período especificado.
Cuidado
Se você tiver filtrado sua condição Host Not Reporting usando tags ou rótulos e, em seguida, remover uma tag ou rótulo crítico de um host alvo, o sistema abrirá um evento de alerta Host Not Reporting, pois caracterizará esse host como tendo perdido sua conexão.
A flexibilidade deste recurso permite personalizar facilmente o que monitor e quando notificar indivíduos ou equipes selecionadas. Além disso, a notificação por e-mail inclui links para ajudá-lo a solucionar rapidamente a situação.
Host not reporting condition | Features |
|---|---|
O que monitor | Você pode utilizar a barra de filtro entidade para selecionar quais hosts deseja monitorar com a condição do alerta. A condição também se aplicará automaticamente a quaisquer hosts que você adicionar no futuro e que correspondam a esses filtros. |
Como notificar | As condições estão contidas nas políticas. Você pode selecionar uma política existente ou criar uma nova política com notificação por e-mail da interface de monitoramento de infraestrutura. Caso queira criar uma nova política com outros tipos de canal de notificação, utilize a interface. |
Quando notificar | Os endereços de e-mail (identificados na política) serão notificados automaticamente sobre eventos de alerta de limite para qualquer host que corresponda aos filtros aplicados, dependendo das preferências de evento de alerta da política. |
Onde solucionar problemas | O link na parte superior da notificação por e-mail levará você à página de infraestrutura Events centrada no momento em que o host foi desconectado. Links adicionais no e-mail levarão você a detalhes adicionais. |
Crie uma condição "host não relatando"
Para definir os critérios de condição Host not reporting :
- Crie uma condição de infraestrutura.
- Para Alert type, selecione Host not reporting.
- Defina o limite Critical para acionar uma notificação: entre 5 e 60 minutos de falta de resposta do host.
- (Opcional) Habilite a opção Don't trigger alerts for hosts that perform a clean shutdown para evitar alertas falsos quando os hosts são desligados intencionalmente via linha de comando. Esta opção é atualmente suportada em sistemas Windows e Linux baseados em systemd.
Dica
Para evitar eventos de alerta de "Host not reporting" falsos para hosts desligados intencionalmente, considere estas estratégias:
- marcar o host: adicione a tag
hostStatus: shutdownoutermination: expectedà entidade host. Saiba mais sobre a tag. - Etiquete o host e habilite a configuração Don't trigger alerts: Adicione a tag
hostStatus: shutdownao seu host, além de marcar a opção mencionada acima. Isso impedirá a abertura de todos os eventos de alerta Host not reporting para esse host, desde que essa tag esteja nele, independentemente da versão do Agent ou do SO. Se você remover a tag, o New Relic começará a abrir eventos de alerta Host not reporting.
Dependendo das preferências de evento de alerta da política, ela definirá quais canais de notificação usar quando o limite de Critical definido para a condição for ultrapassado. Para evitar "falsos positivos", o host deve parar de reportar durante todo o período de tempo antes que um evento de alerta seja aberto.
Example: Você cria uma condição para abrir um evento de alerta quando qualquer um do conjunto filtrado de hosts parar de reportar dados por seven minutos.
- Se qualquer host parar de reportar por cinco minutos e, em seguida, voltar a reportar, a condição does not abrir um evento de alerta.
- Se qualquer host parar de reportar por sete minutos, mesmo que os outros estejam bem, a condição does abrir um evento de alerta.
Investigue o problema
Para investigar melhor por que um host não está reportando dados:
- Revise os detalhes na notificação por e-mail.
- Utilize o link do e-mail de notificação para monitor as mudanças em andamento no seu ambiente na páginaEvents da nossa interface de infraestrutura. Por exemplo, use a página Events para ajudar a determinar se um host foi desconectado logo após um usuário root ter feito uma alteração na configuração do host.
- Opcional: use o linkAcknowledge da notificação por e-mail para verificar se você está ciente e assumindo a responsabilidade pelo evento de alerta.
- Use os links de e-mail para examinar detalhes adicionais na páginaAlert event details .
Interrupções intencionais
Podemos distinguir entre situações inesperadas e situações planejadas com a opção Don't trigger alerts for hosts that perform a clean shutdown. Use esta opção para situações como:
- O host foi colocado off-line intencionalmente.
- Host planejou período de inatividade para manutenção.
- O host foi desligado ou desativado.
- Escalonamento automático de hosts ou encerramento de instância em um console de nuvem.
Contamos com sinais de desligamento do Linux e do Windows para sinalizar um desligamento limpo.
Confirmamos que estes cenários são detectados pelo agente:
- Evento AWS Auto-scaling com instâncias de EC2 que usam systemd (Amazon Linux, CentOs/RedHat 7 e mais recente, Ubuntu 16 e mais recente, Suse 12 e mais recente, Debian 9 e mais recente)
- Desligamento iniciado pelo usuário de sistemas Windows
- Desligamento iniciado pelo usuário de sistemas Linux que usam systemd (Amazon Linux, CentOs/RedHat 7 e mais recente, Ubuntu 16 e mais recente, Suse 12 e mais recente, Debian 9 e mais recente)
Sabemos que estes cenários não são detectados pelo agente:
- Desligamento iniciado pelo usuário de sistemas Linux que não usam systemd (CentOs/RedHat 6 e anteriores, Ubuntu 14, Debian 8). Isso inclui outros sistemas Linux modernos que ainda usam sistemas init Upstart ou SysV.
- Evento AWS Auto-scaling com instâncias de EC2 que não usam systemd (CentOs/RedHat 6 e anteriores, Ubuntu 14, Debian 8). Isso inclui outros sistemas Linux mais modernos que ainda usam sistemas init Upstart ou SysV.