Dica
O modo guiado de condição NRQL oferece uma experiência com curadoria para criar condições NRQL de infraestrutura "host não relatando" (HNR). Esta é a alternativa preferida para criar condições de infraestrutura de "host sem relatórios".
Use a condição Host not reporting do monitoramento de infraestrutura para notificá-lo quando pararmos de receber dados de um agente de infraestrutura. Este recurso permite alertar dinamicamente sobre grupos de hosts, configurar a janela de tempo de cinco a 60 minutos e aproveitar ao máximo a notificação .
Recurso
Você pode definir condições com base nos conjuntos de hosts mais importantes para você e configurar o limite apropriado para cada conjunto de hosts filtrado. O evento Host not reporting é acionado quando os dados do agente de infraestrutura não chegam ao nosso coletor dentro do período especificado.
Cuidado
Se você filtrou sua condição Host Not Reporting
usando tags ou rótulos e depois removeu uma tag ou rótulo crítico de um host de destino, o sistema abrirá um incidente de Host Not Reporting, pois caracterizará esse host como tendo perdido sua conexão.
A flexibilidade deste recurso permite personalizar facilmente o que monitor e quando notificar indivíduos ou equipes selecionadas. Além disso, a notificação por e-mail inclui links para ajudá-lo a solucionar rapidamente a situação.
Host not reporting condition | Features |
---|---|
O que monitor | Você pode utilizar a barra de filtro entidade para selecionar quais hosts deseja monitorar com a condição do alerta. A condição também se aplicará automaticamente a quaisquer hosts que você adicionar no futuro e que correspondam a esses filtros. |
Como notificar | As condições estão contidas nas políticas. Você pode selecionar uma política existente ou criar uma nova política com notificação por e-mail da interface de monitoramento de infraestrutura. Caso queira criar uma nova política com outros tipos de canal de notificação, utilize a interface. |
Quando notificar | Os endereços de e-mail (identificados na política) serão notificados automaticamente sobre o limite de incidentes para qualquer host que corresponda aos filtros que você aplicou, dependendo das preferências de incidentes da política. |
Onde solucionar problemas | O link na parte superior da notificação por e-mail levará você à página de infraestrutura Events centrada no momento em que o host foi desconectado. Links adicionais no e-mail levarão você a detalhes adicionais. |
Crie a condição "host não reportando"
Para definir os critérios de condição Host not reporting :
Siga os procedimentos padrão para criar uma condição de infraestrutura.
Selecione Host not reporting como Alert type.
Host not reporting
Habilite a opção Don't trigger alerts for hosts that perform a clean shutdown se quiser evitar alertas falsos quando os hosts estiverem configurados para desligar via linha de comando. Atualmente, esse recurso é suportado em todos os sistemas Windows e Linux que usam systemd.
Alert type
Dica
Como alternativa à tag
hostStatus: shutdown
, você pode adicionar a tagtermination: expected
à sua entidade host. Isso informa New Relic que o host deveria ser desligado e impedirá que qualquer Host not reporting incidente seja aberto, desde que a opção Don't trigger alerts for hosts that perform a clean shutdown esteja selecionada na condição.Defina o limite
Critical
para acionar a notificação: mínimo 5 minutos, máximo 60 minutos.
Ative a opção
Don't trigger alerts for hosts that perform a clean shutdown
se quiser evitar alertas falsos quando os hosts estiverem configurados para serem desligados via linha de comando. Atualmente, esse recurso é compatível com todos os sistemas Windows e Linux que usam systemd.
Dica
Além disso, você pode adicionar a tag
hostStatus: shutdown
ao seu host marcando a opção mencionada acima. Isso impedirá que todos os incidentes Host not reporting sejam abertos para esse host, desde que a tag esteja nele, independentemente da versão do agente ou do sistema operacional. A remoção da tag permitirá que o sistema abra novamente o incidente Host not reporting para esse host.
Dependendo das preferências de incidente da política, ela definirá qual canal de notificação utilizar quando o limite Critical definido para a condição passar. Para evitar "falso positivo", o host deve parar de reportar durante todo o período antes que um incidente seja aberto.
Example: Você cria uma condição para abrir um incidente quando qualquer conjunto filtrado de hosts parar de reportar dados por seven minutos.
Se algum host parar de relatar por cinco minutos e depois retomar o relatório, a condição
does not
abrirá um incidente.
Se algum host parar de reportar por sete minutos, mesmo que os outros estejam bem, a condição
does
abre um incidente.
Investigue o problema
Para investigar melhor por que um host não está reportando dados:
Revise os detalhes na notificação por e-mail.
Utilize o link do e-mail de notificação para monitor as mudanças em andamento no seu ambiente na página
da nossa interface de infraestrutura. Por exemplo, use a página
Events
para ajudar a determinar se um host foi desconectado logo após um usuário root ter feito uma alteração na configuração do host.
Opcional: use o link
da notificação por e-mail para verificar se você está ciente e se responsabiliza pelo incidente de alerta.
Use os links de e-mail para examinar detalhes adicionais na página
Interrupções intencionais
Podemos distinguir entre situações inesperadas e situações planejadas com a opção Don't trigger alerts for hosts that perform a clean shutdown. Use esta opção para situações como:
- O host foi colocado off-line intencionalmente.
- Host planejou período de inatividade para manutenção.
- O host foi desligado ou desativado.
- Escalonamento automático de hosts ou encerramento de instância em um console de nuvem.
Contamos com sinais de desligamento do Linux e do Windows para sinalizar um desligamento limpo.
Confirmamos que estes cenários são detectados pelo agente:
- Evento AWS Auto-scaling com instâncias de EC2 que usam systemd (Amazon Linux, CentOs/RedHat 7 e mais recente, Ubuntu 16 e mais recente, Suse 12 e mais recente, Debian 9 e mais recente)
- Desligamento iniciado pelo usuário de sistemas Windows
- Desligamento iniciado pelo usuário de sistemas Linux que usam systemd (Amazon Linux, CentOs/RedHat 7 e mais recente, Ubuntu 16 e mais recente, Suse 12 e mais recente, Debian 9 e mais recente)
Sabemos que estes cenários não são detectados pelo agente:
- Desligamento iniciado pelo usuário de sistemas Linux que não usam systemd (CentOs/RedHat 6 e anteriores, Ubuntu 14, Debian 8). Isso inclui outros sistemas Linux modernos que ainda usam sistemas init Upstart ou SysV.
- Evento AWS Auto-scaling com instâncias de EC2 que não usam systemd (CentOs/RedHat 6 e anteriores, Ubuntu 14, Debian 8). Isso inclui outros sistemas Linux mais modernos que ainda usam sistemas init Upstart ou SysV.