Nível 1 - Regra do scorecard de taxas de erros de serviço

A taxa de erros do serviço mede a porcentagem de seus serviços APM que apresentam erros no lado do servidor (respostas HTTP 5xx), o que pode impedir o usuário de concluir tarefas críticas, como compras, inscrições ou acesso a dados. Esta regra do scorecard ajuda você a identificar e priorizar a correção de problemas backend que afetam diretamente a experiência do cliente.

Sobre esta regra do scorecard

Esta regra de taxa de erros de serviço faz parte do Nível 1 (Reativo) no modelo de maturidade da experiência digital. Ele avalia se seus serviços de backend têm erros de servidor não resolvidos que podem estar afetando a experiência do usuário e as operações comerciais.

Por que isso é importante: Erros de servidor (respostas 5xx) indicam que seu backend não consegue atender requests do usuário, resultando em transações com falha, fluxos de usuário interrompidos e oportunidades de negócios perdidas. Usuários que encontram erros no servidor geralmente abandonam suas tarefas e podem não retornar.

Como funciona esta regra

Esta regra avalia a porcentagem de serviços APM que relatam erros de código de status HTTP 5xx em suas respostas. Ele identifica serviços backend onde falhas no lado do servidor podem estar impedindo o usuário de concluir com sucesso as ações pretendidas.

Compreendendo sua pontuação

Aprovado (Verde): Baixa porcentagem de serviços APM apresentam erros do lado do servidor
Falha (Vermelho): Alta porcentagem de serviços APM apresentam erros 5xx não resolvidos
Alvo: Minimizar erros de servidor em todos os serviços, especialmente aqueles que oferecem suporte a jornadas críticas do usuário

O que isto significa:

Pontuação de aprovação: seus serviços backend atendem de forma confiável requests dos usuários e dão suporte à conclusão bem-sucedida das tarefas
Pontuação de falha: o usuário pode estar enfrentando requests com falha, fluxo de trabalho interrompido ou incapacidade de concluir ações importantes

Compreendendo os erros do servidor 5xx

Erros de servidor indicam problemas com sua infraestrutura de backend ou código do aplicativo:

Tipos comuns de erros 5xx

Erro interno do servidor 500: falha geral do servidor, geralmente devido a bugs de aplicativo ou exceções não tratadas
502 Bad Gateway: o servidor upstream retornou uma resposta inválida, comum com balanceadores de carga ou proxies
503 Serviço indisponível: servidor temporariamente sobrecarregado ou em manutenção
504 Gateway Timeout: tempo limite de solicitação ao se comunicar com servidores upstream

Impacto na experiência do usuário

Transações com falha: o usuário não consegue concluir compras, inscrições ou envios de dados
Fluxo de trabalho interrompido: processos de várias etapas falham no meio, frustrando o usuário
Dados perdidos: envios de formulários ou entradas do usuário podem ser perdidos durante erros
Degradação da confiança: erros repetidos reduzem a confiança do usuário em seu aplicativo

Como reduzir taxas de erros de serviço

Se sua pontuação mostrar altas taxas de erros de serviço, siga estas etapas para identificar e resolver problemas backend :

1. Identificar e priorizar os serviços afetados

Revise a visão geral do serviço APM: examine quais serviços estão relatando erros 5xx
Avalie o impacto nos negócios: priorize serviços que ofereçam suporte às jornadas críticas do usuário (pagamentos, autenticação, recursos essenciais)
Analisar padrões de erro: procurar tendências no tempo de erro, frequência ou ponto final afetado
Verifique o impacto do usuário: determine quantos usuários são afetados pelos erros de cada serviço

2. Investigue as causas raiz

Problemas no nível do aplicativo:

Exceções não tratadas: erros de código que não são detectados e tratados adequadamente
Falhas de conexão do banco de dados: esgotamento do pool de conexões ou indisponibilidade do banco de dados
Esgotamento de recursos: vazamentos de memória, sobrecarga de CPU ou problemas de espaço em disco
Erros de configuração: configurações incorretas causando falhas no aplicativo

Problemas a nível de infraestrutura:

Problemas de capacidade do servidor: Recursos insuficientes durante picos de tráfego
Problemas de conectividade de rede: falhas de comunicação entre serviços
Configuração do balanceador de carga: roteamento inadequado ou falhas na verificação de integridade
Falhas de dependência: interrupções de serviços de terceiros afetando seu aplicativo

3. Implementar correções de destino

Resolução imediata:

Corrigir bugs críticos: resolver problemas de código do aplicativo que causam erros 500
Dimensionar recursos: adicionar capacidade para serviços sobrecarregados com erros 503
Configurar novas tentativas: implementar lógica de nova tentativa para falhas transitórias
Atualizar verificações de integridade: garantir que os balanceadores de carga roteiam o tráfego corretamente

Melhorias sistemáticas:

Tratamento de erros: adicione blocos try-catch abrangentes e respostas de erro elegantes
Disjuntor: implementar padrões para lidar com falhas de dependência com elegância
Melhorias no monitoramento: adicione logging detalhado e métrica para diagnóstico mais rápido
Planejamento de capacidade: dimensione a infraestrutura corretamente para lidar com a carga esperada

4. Estabelecer monitoramento de erros e resolução

Usar caixa de entrada de erros New Relic :

Monitoramento centralizado de erros: visualize todos os erros 5xx em todos os serviços em um só lugar
Agrupamento de erros: agrupe automaticamente erros semelhantes para identificar padrões
Atribuição de erros: conecte erros a implantações ou alterações específicas
Acompanhamento de resolução: marque erros como resolvidos e acompanhe o progresso da correção

Implementar rastreamento de defeitos:

Criar ticket: Registre erros no seu sistema de rastreamento de problemas (JIRA, GitHub Issues)
Atribuir responsabilidade: garantir que cada erro tenha uma equipe ou indivíduo responsável
Resolução de rastreamento: monitore o progresso nas correções de erros até a implantação
Medir a eficácia: verificar se as correções realmente reduzem as taxas de erros

Medindo a melhoria

Acompanhe essas métricas para verificar seus esforços de redução de erros de serviço:

Redução da taxa de erros: redução da porcentagem de serviços que apresentam erros 5xx
métrica de impacto do usuário: Melhoria nas taxas de conclusão de transações, redução de reclamações de usuários
Tempo de resolução de erros: identificação e correção mais rápidas de problemas do lado do servidor
Confiabilidade do serviço: Aumento do tempo de operação e taxas de solicitações bem-sucedidas

Cenários comuns de erros de serviço

Problemas de conexão com o banco de dados:

Problema: Esgotamento do pool de conexões ou tempo limite do banco de dados causando erros 500
Solução: otimizar o pool de conexões, implementar lógica de repetição de conexão e monitorar o desempenho do banco de dados

Falhas de dependência de terceiros:

Problema: APIs ou serviços externos falhando, fazendo com que seu aplicativo retorne erros 502/503
Solução: Implementar disjuntor, mecanismos de fallback e tratamento de tempo limite adequado

Erros relacionados à implantação:

Problema: Novos lançamentos introduzindo bugs que causam erros 5xx
Solução: Melhorar os procedimentos de teste, implementar implantação canária, adicionar recursos de rollback

Problemas de capacidade e escala:

Problema: Picos Traffic sobrecarregam servidores, levando a erros 503
Solução: implementar dimensionamento automático, testes de carga e planejamento de capacidade

Estratégias avançadas de gerenciamento de erros

Práticas de prevenção de erros

Testes abrangentes: testes unitários, testes de integração e testes de carga para detectar problemas antes da produção
revisão de código: Foco em padrões de tratamento de erros e cobertura de casos extremos
Ambientes de preparação: teste exaustivamente em ambientes semelhantes aos de produção
Implementações graduais: Use sinalizadores de recurso e implantação canário para minimizar o impacto de erros

Resposta de erro automatizada

Dimensionamento automático: adicione capacidade automaticamente quando taxas de erro indicarem sobrecarga
disjuntor: isola automaticamente a dependência com falha para evitar falhas em cascata
Verificações de integridade: remoção automática de instâncias não íntegras da rotação do balanceador de carga
alerta integração: Envio imediato quando taxas de erros ultrapassam o limite

Monitoramento de Alterações Integradas

correlação de implantação: conecta picos de erros a alterações específicas de implantação ou configuração
Procedimentos de reversão: Capacidades de reversão rápida quando as alterações introduzem erros
Análise de impacto de mudanças: Meça como as mudanças no código afetam as taxas de erros ao longo do tempo
Métrica de qualidade de lançamento: rastreie taxas de erros como um indicador-chave de qualidade para lançamentos

Validando condições de erro

Garanta que seu monitoramento de erros se concentre em problemas genuínos que impactam o usuário:

Filtrar falsos positivos

Ponto de extremidade de verificação de integridade: Excluir requests do sistema de monitoramento dos cálculos de erros
Chamadas de serviço interno: foco nos erros enfrentados pelo usuário em vez das comunicações internas do sistema
erro esperado: Algumas respostas 5xx podem ser intencionais (modo de manutenção, limitação de taxa)
Tráfego de bots: filtre erros de sistemas automatizados que não representam o impacto real do usuário

Foco nos erros que afetam o usuário

serviços de atendimento ao cliente: Priorizar erros em serviços que atendem diretamente ao usuário final
Fluxos comerciais críticos: foco nos erros que impactam as atividades de geração de receita
Ponto de extremidade de alto tráfego: resolva erros em pontos de extremidade de API ou páginas muito usados
Funções de conversão: Priorizar erros que afetam o registro do usuário, compras ou ações-chave

Considerações importantes

Priorização do impacto nos negócios: concentre-se primeiro nos erros que afetam os serviços essenciais à receita
Contexto da jornada do usuário: considere onde os erros ocorrem no fluxo do usuário e seu impacto na conclusão da tarefa
Frequência de erros vs. gravidade: Equilibre a correção de erros menores frequentes com falhas raras, mas críticas
Alocação de recursos: garantir que os esforços de resolução de erros estejam alinhados com a capacidade de desenvolvimento disponível

Próximos passos

Ação imediata: Identificar e resolver os erros 5xx de maior impacto que afetam o usuário
Melhoria de processos: Estabeleça fluxo de trabalho de triagem de erros e procedimentos de rastreamento de defeitos
Foco na prevenção: implementar melhores práticas de teste e implantação para reduzir novos erros
melhoria de monitoramento: Use o Monitoramento de Alterações para correlacionar erros com implantação
Progresso para o Nível 2: Uma vez que os erros de serviço estejam sob controle, concentre-se na otimização do Core Web Vitals

Para obter orientações detalhadas sobre monitoramento e resolução de erros de serviço, consulte nossa documentação de monitoramento de errosAPM e o guia da Caixa de entrada de erros.

Esta tradução de máquina é fornecida para sua comodidade.