Nível 1 - Regra do scorecard de cobertura de alerta de prestação de serviço

A cobertura de alerta de entrega de serviços garante que seus aplicativos e serviços voltados para o cliente tenham alertas de monitoramento implementados para detectar problemas que possam impactar a experiência do usuário e as operações de negócios.

Sobre esta regra do scorecard

Esta regra de cobertura de alerta de prestação de serviços faz parte do Nível 1 (Reativo) no modelo de maturidade de tempo de operação do negócio. Ele verifica se seu aplicativo e serviços têm alertas básicos configurados para notificá-lo quando ocorrem problemas voltados aos clientes.

Por que isso é importante: Problemas na prestação de serviços afetam diretamente a experiência do cliente e a receita do negócio. Sem alertas de aplicativos adequados, você só poderá descobrir problemas quando os clientes os relatarem, o que levará a interrupções mais longas e relacionamentos prejudicados com os clientes.

Como funciona esta regra

Esta regra examina sua entidade de prestação de serviços e verifica se ela tem a condição do alerta definida. Especificamente, ele procura alertas sobre:

Entidades APM-APPLICATION: aplicativo backend e serviços monitorados pelo agente APM
Entidades BROWSER-APPLICATION: Aplicativo web frontend monitorado por monitoramento de Browser
Entidades MOBILE-APPLICATION: Aplicativos móveis monitorados por monitoramento de Mobile
Entidades SYNTH-MONITOR: Monitores sintéticos que simulam a interação do usuário

A regra falhará se qualquer entidade de prestação de serviço monitorada não tiver pelo menos uma condição de alerta.

Compreendendo sua pontuação

Aprovado (Verde): Todas as entidades de prestação de serviços têm pelo menos uma condição de alerta definida
Falha (Vermelho): Uma ou mais entidades de prestação de serviços não possuem cobertura de alerta
destino: 100% de cobertura de alerta em todos os aplicativos e serviços voltados para o cliente

O que isto significa:

Pontuação de aprovação: sua base de monitoramento de aplicativo está pronta para detectar problemas que impactam os clientes
Pontuação de falha: alguns aplicativos ou serviços podem falhar sem alertar sua equipe, impactando potencialmente os clientes

Como melhorar a cobertura de alertas de prestação de serviços

Se sua pontuação mostrar alertas de prestação de serviços ausentes, siga estas etapas para estabelecer uma cobertura abrangente:

1. Identificar serviços não cobertos

Revise a entidade falida: identifique qual aplicativo ou serviço específico não possui cobertura de alerta
Priorize o impacto do cliente: concentre-se primeiro em aplicativos voltados para o cliente e em serviços críticos para a receita
Avalie a criticidade do serviço: determine quais serviços exigem alerta imediato ou atrasado

2. Configure alertas de prestação de serviços essenciais

Configure alertas para estas métricas críticas com base no seu tipo de entidade:

Alertas de aplicativo APM :

taxa de erros: alerta quando a porcentagem de erro ultrapassa 5% por 5 minutos
tempo de resposta: alerta quando o tempo médio de resposta excede o limite aceitável (por exemplo, >2 segundos)
taxas de transferência: alerta quando o volume de solicitações cai significativamente, indicando possíveis interrupções
Pontuação Apdex: alerta quando as pontuações de satisfação do usuário caem abaixo dos níveis aceitáveis (por exemplo, menos de 0,8)

Alertas de aplicativos Browser :

Erros de JavaScript: alerta quando a taxa de erros de frontend aumenta
Tempo de carregamento da página: alerta quando o tempo de carregamento da página excede o limite da experiência do usuário
Core Web Vitals: alerta quando métricas como Largest Contentful Paint ou Cumulative Layout Shift degradam
Sessões de usuário: alerta quando sessões de usuários ativos caem inesperadamente

Alertas de aplicativos móveis:

Taxa de travamento: alerta quando a taxa de travamento do aplicativo excede 1-2%
Erros de rede: alerta quando ocorrem picos de falhas em solicitações de rede
Tempo de inicialização do aplicativo: alerta quando os tempos de inicialização do aplicativo se tornam inaceitáveis
Interação do usuário: alerta quando as principais ações do usuário (login, compra) falham com frequência

Sintético monitora alertas:

Monitore falhas: alerta imediatamente quando as verificações sintéticas falham
Degradação de desempenho: alerta quando o tempo de transação Sintético aumentar significativamente
Disponibilidade: alerta quando o tempo de operação fica abaixo dos requisitos SLA (por exemplo, menos de 99,9%)
Falhas em vários locais: alerta quando o mesmo problema ocorre em vários locais

3. Configure alertas de forma eficaz

Defina um limite apropriado:

Limite de base em dados históricos de desempenho e requisitos de negócios
Use limites diferentes para ambientes diferentes (a produção deve ser mais sensível)
Considere o impacto da experiência do usuário ao definir o tempo de resposta e a taxa de limite de erros

Escolha janelas de avaliação adequadas:

Use janelas mais curtas (2 a 5 minutos) para problemas críticos enfrentados pelo usuário
Use janelas mais longas (10-15 minutos) para tendências de desempenho que precisam de tempo para serem estabelecidas
Evite janelas tão curtas que desencadeiem flutuações temporárias

4. Estabelecer procedimentos de resposta a incidentes

Definir canal de notificação: Configurar integração com Slack, PagerDuty ou email
Atribuir equipes responsáveis: garantir que os alertas cheguem às equipes que podem diagnosticar e corrigir problemas
Crie caminhos de escalonamento: defina o que acontece se os alertas não forem reconhecidos dentro dos prazos do SLA
Procedimentos de resposta de teste: verifique se as equipes podem realmente responder e resolver problemas de alertas

Medindo a melhoria

Acompanhe essas métricas para verificar as melhorias na cobertura de alertas de entrega de serviço:

Porcentagem de cobertura: Monitoramento de IA para cobertura de alerta de 100% em aplicativos e serviços de produção
Tempo médio de detecção (MTTD): mede a rapidez com que os alertas identificam problemas que impactam os clientes
Precisão do alerta: monitore a porcentagem de alertas que representam problemas genuínos que exigem ação
Redução do impacto para os clientes: monitore se uma detecção mais rápida leva a interrupções mais curtas para os clientes

Cenários e soluções comuns

legado ou aplicativo não utilizado:

Problema: Aplicativos antigos ainda aparecem no monitoramento mas não atendem mais os clientes
Solução: Remova os aplicativos não utilizados do monitoramento ou tag os como obsoletos para excluí-los dos requisitos de cobertura

Ambientes de desenvolvimento e testes:

Problema: métrica de cobertura de alerta de desordem de aplicativo de não produção
Solução: Use convenções de tags ou nomenclatura para separar ambientes e concentrar as regras de cobertura em serviços de produção

microsserviços arquitetura:

Problema: Muitos serviços pequenos tornam a cobertura de 100% um desafio para alcançar e manter
Solução: Priorizar serviços voltados para o cliente e dependências críticas, usar mapas de serviços para identificar componentes-chave

Dependência de terceiros:

Problema: Serviços externos não estão sob seu controle, mas impactam seu aplicativo
Solução: Criar monitores Sintético para testar integração e APIs críticas de terceiros

Considerações avançadas

Personalizando regras de cobertura

Pode ser necessário ajustar a regra do scorecard se:

Diferentes tipos de serviços: Sua arquitetura inclui outros tipos de entidades (função do Lambda, banco de dados, fila de mensagens)
Níveis de criticidade empresarial: alguns serviços são mais críticos do que outros e exigem diferentes estratégias de alerta
Padrões de implantação: implantação canária ou implantação azul-verde podem afetar temporariamente a cobertura

alerta coordenação e dependência

Para serviços complexos de arquitetura:

Dependência de serviço: configurar alertas para contabilizar falhas de serviço upstream
Correlação de alerta: alertas relacionados ao grupo para evitar tempestades de notificações durante incidentes
Alerta inteligente: use recursos de aprendizado de máquina para reduzir falsos positivos e melhorar a qualidade do sinal

Considerações importantes

Foco no impacto do cliente: Priorizar alertas para problemas que afetam diretamente a experiência do cliente
Equilibre a cobertura com a qualidade: garanta que a cobertura abrangente não crie excesso de alertas
Manutenção regular: revise e atualize a condição do alerta conforme seu aplicativo evolui
Coordenação entre equipes: garantir que as equipes de desenvolvimento e operações colaborem na estratégia de alerta

Próximos passos

Ação imediata: configure alertas básicos para quaisquer serviços que atualmente não tenham cobertura
Monitoramento contínuo: revise esta regra do scorecard semanalmente para manter a cobertura conforme os serviços mudam
Melhoria da qualidade: Foco na eficácia do alerta e redução de falsos positivos
Avance para o Nível 2: Uma vez estabelecido o alerta de prestação de serviços, concentre-se em práticas de monitoramento proativo

Para obter orientação detalhada sobre a configuração do aplicativo de monitoramento, consulte nossa documentação para APM, monitoramento de Browser, monitoramento de Mobile e monitoramento sintético.

Esta tradução de máquina é fornecida para sua comodidade.