Dica
O modo guiado de condição NRQL oferece uma experiência com curadoria para criar condições NRQL de infraestrutura "host não relatando" (HNR). Esta é a alternativa preferida para criar condições de infraestrutura de "host sem relatórios".
Use a condição Host not reporting do monitoramento de infraestrutura para notificá-lo quando pararmos de receber dados de um agente de infraestrutura. Este recurso permite alertar dinamicamente sobre grupos de hosts, configurar a janela de tempo de cinco a 60 minutos e aproveitar ao máximo a notificação .
Recurso
Você pode definir condições com base nos conjuntos de hosts mais importantes para você e configurar o limite apropriado para cada conjunto de hosts filtrado. O evento Host not reporting é acionado quando os dados do agente de infraestrutura não chegam ao nosso coletor dentro do período especificado.
Cuidado
Se você filtrou sua condição Host Not Reporting
usando tags ou rótulos e depois removeu uma tag ou rótulo crítico de um host de destino, o sistema abrirá um incidente de Host Not Reporting, pois caracterizará esse host como tendo perdido sua conexão.
A flexibilidade deste recurso permite personalizar facilmente o que monitor e quando notificar indivíduos ou equipes selecionadas. Além disso, a notificação por e-mail inclui links para ajudá-lo a solucionar rapidamente a situação.
Host not reporting condition | Features |
---|---|
O que monitor | Você pode utilizar a barra de filtro entidade para selecionar quais hosts deseja monitorar com a condição do alerta. A condição também se aplicará automaticamente a quaisquer hosts que você adicionar no futuro e que correspondam a esses filtros. |
Como notificar | As condições estão contidas nas políticas. Você pode selecionar uma política existente ou criar uma nova política com notificação por e-mail da interface de monitoramento de infraestrutura. Caso queira criar uma nova política com outros tipos de canal de notificação, utilize a interface. |
Quando notificar | Os endereços de e-mail (identificados na política) serão notificados automaticamente sobre o limite de incidentes para qualquer host que corresponda aos filtros que você aplicou, dependendo das preferências de incidentes da política. |
Onde solucionar problemas | O link na parte superior da notificação por e-mail levará você à página de infraestrutura Events centrada no momento em que o host foi desconectado. Links adicionais no e-mail levarão você a detalhes adicionais. |
Crie a condição "host não reportando"
Para definir os critérios de condição Host not reporting :
Siga os procedimentos padrão para criar uma condição de infraestrutura.
Selecione Host not reporting como Alert type.
Defina o limite Critical para acionar a notificação: mínimo 5 minutos, máximo 60 minutos.
Habilite a opção Don't trigger alerts for hosts that perform a clean shutdown se quiser evitar alertas falsos quando os hosts estiverem configurados para desligar via linha de comando. Atualmente, esse recurso é suportado em todos os sistemas Windows e Linux que usam systemd.
Dica
Além disso, você pode adicionar a taghostStatus: shutdown
ao seu host junto com a marcação da opção mencionada acima. Isso impedirá que todos os incidentes Host not reporting sejam abertos para esse host, desde que essa tag esteja nele, independentemente da versão do agente ou do SO. Remover a tag permitirá que o sistema abra Host not reporting incidente para esse host novamente.Dica
Como alternativa à tag
hostStatus: shutdown
, você pode adicionar a tagtermination: expected
à sua entidade host. Isso informa New Relic que o host deveria ser desligado e impedirá que qualquer Host not reporting incidente seja aberto, desde que a opção Don't trigger alerts for hosts that perform a clean shutdown esteja selecionada na condição.
Dependendo das preferências de incidente da política, ela definirá qual canal de notificação utilizar quando o limite Critical definido para a condição passar. Para evitar "falso positivo", o host deve parar de reportar durante todo o período antes que um incidente seja aberto.
Example: Você cria uma condição para abrir um incidente quando qualquer conjunto filtrado de hosts parar de reportar dados por seven minutos.
- Se algum host parar de relatar por cinco minutos e depois retomar o relatório, a condição does not abrirá um incidente.
- Se algum host parar de reportar por sete minutos, mesmo que os outros estejam bem, a condição does abre um incidente.
Investigue o problema
Para investigar melhor por que um host não está reportando dados:
- Revise os detalhes na notificação por e-mail.
- Utilize o link do e-mail de notificação para monitor as mudanças em andamento no seu ambiente na páginaEvents da nossa interface de infraestrutura. Por exemplo, use a página Events para ajudar a determinar se um host foi desconectado logo após um usuário root ter feito uma alteração na configuração do host.
- Opcional: use o linkAcknowledge da notificação por e-mail para verificar se você está ciente e se responsabiliza pelo incidente de alerta.
- Use os links de e-mail para examinar detalhes adicionais na páginaIncident details .
Interrupções intencionais
Podemos distinguir entre situações inesperadas e situações planejadas com a opção Don't trigger alerts for hosts that perform a clean shutdown. Use esta opção para situações como:
- O host foi colocado off-line intencionalmente.
- Host planejou período de inatividade para manutenção.
- O host foi desligado ou desativado.
- Escalonamento automático de hosts ou encerramento de instância em um console de nuvem.
Contamos com sinais de desligamento do Linux e do Windows para sinalizar um desligamento limpo.
Confirmamos que estes cenários são detectados pelo agente:
- Evento AWS Auto-scaling com instâncias de EC2 que usam systemd (Amazon Linux, CentOs/RedHat 7 e mais recente, Ubuntu 16 e mais recente, Suse 12 e mais recente, Debian 9 e mais recente)
- Desligamento iniciado pelo usuário de sistemas Windows
- Desligamento iniciado pelo usuário de sistemas Linux que usam systemd (Amazon Linux, CentOs/RedHat 7 e mais recente, Ubuntu 16 e mais recente, Suse 12 e mais recente, Debian 9 e mais recente)
Sabemos que estes cenários não são detectados pelo agente:
- Desligamento iniciado pelo usuário de sistemas Linux que não usam systemd (CentOs/RedHat 6 e anteriores, Ubuntu 14, Debian 8). Isso inclui outros sistemas Linux modernos que ainda usam sistemas init Upstart ou SysV.
- Evento AWS Auto-scaling com instâncias de EC2 que não usam systemd (CentOs/RedHat 6 e anteriores, Ubuntu 14, Debian 8). Isso inclui outros sistemas Linux mais modernos que ainda usam sistemas init Upstart ou SysV.