A cobertura de alerta de entrega de serviços garante que seus aplicativos e serviços voltados para o cliente tenham alertas de monitoramento implementados para detectar problemas que possam impactar a experiência do usuário e as operações de negócios.
Sobre esta regra do scorecard
Esta regra de cobertura de alerta de prestação de serviços faz parte do Nível 1 (Reativo) no modelo de maturidade de tempo de operação do negócio. Ele verifica se seu aplicativo e serviços têm alertas básicos configurados para notificá-lo quando ocorrem problemas voltados aos clientes.
Por que isso é importante: Problemas na prestação de serviços afetam diretamente a experiência do cliente e a receita do negócio. Sem alertas de aplicativos adequados, você só poderá descobrir problemas quando os clientes os relatarem, o que levará a interrupções mais longas e relacionamentos prejudicados com os clientes.
Como funciona esta regra
Esta regra examina sua entidade de prestação de serviços e verifica se ela tem a condição do alerta definida. Especificamente, ele procura alertas sobre:
- Entidades APM-APPLICATION: aplicativo backend e serviços monitorados pelo agente APM
- Entidades BROWSER-APPLICATION: Aplicativo web frontend monitorado por monitoramento de Browser
- Entidades MOBILE-APPLICATION: Aplicativos móveis monitorados por monitoramento de Mobile
- Entidades SYNTH-MONITOR: Monitores sintéticos que simulam a interação do usuário
A regra falhará se qualquer entidade de prestação de serviço monitorada não tiver pelo menos uma condição de alerta.
Compreendendo sua pontuação
- Aprovado (Verde): Todas as entidades de prestação de serviços têm pelo menos uma condição de alerta definida
- Falha (Vermelho): Uma ou mais entidades de prestação de serviços não possuem cobertura de alerta
- destino: 100% de cobertura de alerta em todos os aplicativos e serviços voltados para o cliente
O que isto significa:
- Pontuação de aprovação: sua base de monitoramento de aplicativo está pronta para detectar problemas que impactam os clientes
- Pontuação de falha: alguns aplicativos ou serviços podem falhar sem alertar sua equipe, impactando potencialmente os clientes
Como melhorar a cobertura de alertas de prestação de serviços
Se sua pontuação mostrar alertas de prestação de serviços ausentes, siga estas etapas para estabelecer uma cobertura abrangente:
1. Identificar serviços não cobertos
- Revise a entidade falida: identifique qual aplicativo ou serviço específico não possui cobertura de alerta
- Priorize o impacto do cliente: concentre-se primeiro em aplicativos voltados para o cliente e em serviços críticos para a receita
- Avalie a criticidade do serviço: determine quais serviços exigem alerta imediato ou atrasado
2. Configure alertas de prestação de serviços essenciais
Configure alertas para estas métricas críticas com base no seu tipo de entidade:
Alertas de aplicativo APM :
- taxa de erros: alerta quando a porcentagem de erro ultrapassa 5% por 5 minutos
- tempo de resposta: alerta quando o tempo médio de resposta excede o limite aceitável (por exemplo, >2 segundos)
- taxas de transferência: alerta quando o volume de solicitações cai significativamente, indicando possíveis interrupções
- Pontuação Apdex: alerta quando as pontuações de satisfação do usuário caem abaixo dos níveis aceitáveis (por exemplo, menos de 0,8)
Alertas de aplicativos Browser :
- Erros de JavaScript: alerta quando a taxa de erros de frontend aumenta
- Tempo de carregamento da página: alerta quando o tempo de carregamento da página excede o limite da experiência do usuário
- Core Web Vitals: alerta quando métricas como Largest Contentful Paint ou Cumulative Layout Shift degradam
- Sessões de usuário: alerta quando sessões de usuários ativos caem inesperadamente
Alertas de aplicativos móveis:
- Taxa de travamento: alerta quando a taxa de travamento do aplicativo excede 1-2%
- Erros de rede: alerta quando ocorrem picos de falhas em solicitações de rede
- Tempo de inicialização do aplicativo: alerta quando os tempos de inicialização do aplicativo se tornam inaceitáveis
- Interação do usuário: alerta quando as principais ações do usuário (login, compra) falham com frequência
Sintético monitora alertas:
- Monitore falhas: alerta imediatamente quando as verificações sintéticas falham
- Degradação de desempenho: alerta quando o tempo de transação Sintético aumentar significativamente
- Disponibilidade: alerta quando o tempo de operação fica abaixo dos requisitos SLA (por exemplo, menos de 99,9%)
- Falhas em vários locais: alerta quando o mesmo problema ocorre em vários locais
3. Configure alertas de forma eficaz
Defina um limite apropriado:
- Limite de base em dados históricos de desempenho e requisitos de negócios
- Use limites diferentes para ambientes diferentes (a produção deve ser mais sensível)
- Considere o impacto da experiência do usuário ao definir o tempo de resposta e a taxa de limite de erros
Escolha janelas de avaliação adequadas:
- Use janelas mais curtas (2 a 5 minutos) para problemas críticos enfrentados pelo usuário
- Use janelas mais longas (10-15 minutos) para tendências de desempenho que precisam de tempo para serem estabelecidas
- Evite janelas tão curtas que desencadeiem flutuações temporárias
4. Estabelecer procedimentos de resposta a incidentes
- Definir canal de notificação: Configurar integração com Slack, PagerDuty ou email
- Atribuir equipes responsáveis: garantir que os alertas cheguem às equipes que podem diagnosticar e corrigir problemas
- Crie caminhos de escalonamento: defina o que acontece se os alertas não forem reconhecidos dentro dos prazos do SLA
- Procedimentos de resposta de teste: verifique se as equipes podem realmente responder e resolver problemas de alertas
Medindo a melhoria
Acompanhe essas métricas para verificar as melhorias na cobertura de alertas de entrega de serviço:
- Porcentagem de cobertura: Monitoramento de IA para cobertura de alerta de 100% em aplicativos e serviços de produção
- Tempo médio de detecção (MTTD): mede a rapidez com que os alertas identificam problemas que impactam os clientes
- Precisão do alerta: monitore a porcentagem de alertas que representam problemas genuínos que exigem ação
- Redução do impacto para os clientes: monitore se uma detecção mais rápida leva a interrupções mais curtas para os clientes
Cenários e soluções comuns
legado ou aplicativo não utilizado:
- Problema: Aplicativos antigos ainda aparecem no monitoramento mas não atendem mais os clientes
- Solução: Remova os aplicativos não utilizados do monitoramento ou tag os como obsoletos para excluí-los dos requisitos de cobertura
Ambientes de desenvolvimento e testes:
- Problema: métrica de cobertura de alerta de desordem de aplicativo de não produção
- Solução: Use convenções de tags ou nomenclatura para separar ambientes e concentrar as regras de cobertura em serviços de produção
microsserviços arquitetura:
- Problema: Muitos serviços pequenos tornam a cobertura de 100% um desafio para alcançar e manter
- Solução: Priorizar serviços voltados para o cliente e dependências críticas, usar mapas de serviços para identificar componentes-chave
Dependência de terceiros:
- Problema: Serviços externos não estão sob seu controle, mas impactam seu aplicativo
- Solução: Criar monitores Sintético para testar integração e APIs críticas de terceiros
Considerações avançadas
Personalizando regras de cobertura
Pode ser necessário ajustar a regra do scorecard se:
- Diferentes tipos de serviços: Sua arquitetura inclui outros tipos de entidades (função do Lambda, banco de dados, fila de mensagens)
- Níveis de criticidade empresarial: alguns serviços são mais críticos do que outros e exigem diferentes estratégias de alerta
- Padrões de implantação: implantação canária ou implantação azul-verde podem afetar temporariamente a cobertura
alerta coordenação e dependência
Para serviços complexos de arquitetura:
- Dependência de serviço: configurar alertas para contabilizar falhas de serviço upstream
- Correlação de alerta: alertas relacionados ao grupo para evitar tempestades de notificações durante incidentes
- Alerta inteligente: use recursos de aprendizado de máquina para reduzir falsos positivos e melhorar a qualidade do sinal
Considerações importantes
- Foco no impacto do cliente: Priorizar alertas para problemas que afetam diretamente a experiência do cliente
- Equilibre a cobertura com a qualidade: garanta que a cobertura abrangente não crie excesso de alertas
- Manutenção regular: revise e atualize a condição do alerta conforme seu aplicativo evolui
- Coordenação entre equipes: garantir que as equipes de desenvolvimento e operações colaborem na estratégia de alerta
Próximos passos
- Ação imediata: configure alertas básicos para quaisquer serviços que atualmente não tenham cobertura
- Monitoramento contínuo: revise esta regra do scorecard semanalmente para manter a cobertura conforme os serviços mudam
- Melhoria da qualidade: Foco na eficácia do alerta e redução de falsos positivos
- Avance para o Nível 2: Uma vez estabelecido o alerta de prestação de serviços, concentre-se em práticas de monitoramento proativo
Para obter orientação detalhada sobre a configuração do aplicativo de monitoramento, consulte nossa documentação para APM, monitoramento de Browser, monitoramento de Mobile e monitoramento sintético.