• /
  • EnglishEspañolFrançais日本語한국어Português
  • EntrarComeçar agora

Esta tradução de máquina é fornecida para sua comodidade.

Caso haja alguma divergência entre a versão em inglês e a traduzida, a versão em inglês prevalece. Acesse esta página para mais informações.

Criar um problema

Nível 1 - Regra do scorecard de taxas de erros de serviço

A taxa de erros do serviço mede a porcentagem de seus serviços APM que apresentam erros no lado do servidor (respostas HTTP 5xx), o que pode impedir o usuário de concluir tarefas críticas, como compras, inscrições ou acesso a dados. Esta regra do scorecard ajuda você a identificar e priorizar a correção de problemas backend que afetam diretamente a experiência do cliente.

Sobre esta regra do scorecard

Esta regra de taxa de erros de serviço faz parte do Nível 1 (Reativo) no modelo de maturidade da experiência digital. Ele avalia se seus serviços de backend têm erros de servidor não resolvidos que podem estar afetando a experiência do usuário e as operações comerciais.

Por que isso é importante: Erros de servidor (respostas 5xx) indicam que seu backend não consegue atender requests do usuário, resultando em transações com falha, fluxos de usuário interrompidos e oportunidades de negócios perdidas. Usuários que encontram erros no servidor geralmente abandonam suas tarefas e podem não retornar.

Como funciona esta regra

Esta regra avalia a porcentagem de serviços APM que relatam erros de código de status HTTP 5xx em suas respostas. Ele identifica serviços backend onde falhas no lado do servidor podem estar impedindo o usuário de concluir com sucesso as ações pretendidas.

Compreendendo sua pontuação

  • Aprovado (Verde): Baixa porcentagem de serviços APM apresentam erros do lado do servidor
  • Falha (Vermelho): Alta porcentagem de serviços APM apresentam erros 5xx não resolvidos
  • Alvo: Minimizar erros de servidor em todos os serviços, especialmente aqueles que oferecem suporte a jornadas críticas do usuário

O que isto significa:

  • Pontuação de aprovação: seus serviços backend atendem de forma confiável requests dos usuários e dão suporte à conclusão bem-sucedida das tarefas
  • Pontuação de falha: o usuário pode estar enfrentando requests com falha, fluxo de trabalho interrompido ou incapacidade de concluir ações importantes

Compreendendo os erros do servidor 5xx

Erros de servidor indicam problemas com sua infraestrutura de backend ou código do aplicativo:

Tipos comuns de erros 5xx

  • Erro interno do servidor 500: falha geral do servidor, geralmente devido a bugs de aplicativo ou exceções não tratadas
  • 502 Bad Gateway: o servidor upstream retornou uma resposta inválida, comum com balanceadores de carga ou proxies
  • 503 Serviço indisponível: servidor temporariamente sobrecarregado ou em manutenção
  • 504 Gateway Timeout: tempo limite de solicitação ao se comunicar com servidores upstream

Impacto na experiência do usuário

  • Transações com falha: o usuário não consegue concluir compras, inscrições ou envios de dados
  • Fluxo de trabalho interrompido: processos de várias etapas falham no meio, frustrando o usuário
  • Dados perdidos: envios de formulários ou entradas do usuário podem ser perdidos durante erros
  • Degradação da confiança: erros repetidos reduzem a confiança do usuário em seu aplicativo

Como reduzir taxas de erros de serviço

Se sua pontuação mostrar altas taxas de erros de serviço, siga estas etapas para identificar e resolver problemas backend :

1. Identificar e priorizar os serviços afetados

  1. Revise a visão geral do serviço APM: examine quais serviços estão relatando erros 5xx
  2. Avalie o impacto nos negócios: priorize serviços que ofereçam suporte às jornadas críticas do usuário (pagamentos, autenticação, recursos essenciais)
  3. Analisar padrões de erro: procurar tendências no tempo de erro, frequência ou ponto final afetado
  4. Verifique o impacto do usuário: determine quantos usuários são afetados pelos erros de cada serviço

2. Investigue as causas raiz

Problemas no nível do aplicativo:

  • Exceções não tratadas: erros de código que não são detectados e tratados adequadamente
  • Falhas de conexão do banco de dados: esgotamento do pool de conexões ou indisponibilidade do banco de dados
  • Esgotamento de recursos: vazamentos de memória, sobrecarga de CPU ou problemas de espaço em disco
  • Erros de configuração: configurações incorretas causando falhas no aplicativo

Problemas a nível de infraestrutura:

  • Problemas de capacidade do servidor: Recursos insuficientes durante picos de tráfego
  • Problemas de conectividade de rede: falhas de comunicação entre serviços
  • Configuração do balanceador de carga: roteamento inadequado ou falhas na verificação de integridade
  • Falhas de dependência: interrupções de serviços de terceiros afetando seu aplicativo

3. Implementar correções de destino

Resolução imediata:

  • Corrigir bugs críticos: resolver problemas de código do aplicativo que causam erros 500
  • Dimensionar recursos: adicionar capacidade para serviços sobrecarregados com erros 503
  • Configurar novas tentativas: implementar lógica de nova tentativa para falhas transitórias
  • Atualizar verificações de integridade: garantir que os balanceadores de carga roteiam o tráfego corretamente

Melhorias sistemáticas:

  • Tratamento de erros: adicione blocos try-catch abrangentes e respostas de erro elegantes
  • Disjuntor: implementar padrões para lidar com falhas de dependência com elegância
  • Melhorias no monitoramento: adicione logging detalhado e métrica para diagnóstico mais rápido
  • Planejamento de capacidade: dimensione a infraestrutura corretamente para lidar com a carga esperada

4. Estabelecer monitoramento de erros e resolução

Usar caixa de entrada de erros New Relic :

  • Monitoramento centralizado de erros: visualize todos os erros 5xx em todos os serviços em um só lugar
  • Agrupamento de erros: agrupe automaticamente erros semelhantes para identificar padrões
  • Atribuição de erros: conecte erros a implantações ou alterações específicas
  • Acompanhamento de resolução: marque erros como resolvidos e acompanhe o progresso da correção

Implementar rastreamento de defeitos:

  • Criar ticket: Registre erros no seu sistema de rastreamento de problemas (JIRA, GitHub Issues)
  • Atribuir responsabilidade: garantir que cada erro tenha uma equipe ou indivíduo responsável
  • Resolução de rastreamento: monitore o progresso nas correções de erros até a implantação
  • Medir a eficácia: verificar se as correções realmente reduzem as taxas de erros

Medindo a melhoria

Acompanhe essas métricas para verificar seus esforços de redução de erros de serviço:

  • Redução da taxa de erros: redução da porcentagem de serviços que apresentam erros 5xx
  • métrica de impacto do usuário: Melhoria nas taxas de conclusão de transações, redução de reclamações de usuários
  • Tempo de resolução de erros: identificação e correção mais rápidas de problemas do lado do servidor
  • Confiabilidade do serviço: Aumento do tempo de operação e taxas de solicitações bem-sucedidas

Cenários comuns de erros de serviço

Problemas de conexão com o banco de dados:

  • Problema: Esgotamento do pool de conexões ou tempo limite do banco de dados causando erros 500
  • Solução: otimizar o pool de conexões, implementar lógica de repetição de conexão e monitorar o desempenho do banco de dados

Falhas de dependência de terceiros:

  • Problema: APIs ou serviços externos falhando, fazendo com que seu aplicativo retorne erros 502/503
  • Solução: Implementar disjuntor, mecanismos de fallback e tratamento de tempo limite adequado

Erros relacionados à implantação:

  • Problema: Novos lançamentos introduzindo bugs que causam erros 5xx
  • Solução: Melhorar os procedimentos de teste, implementar implantação canária, adicionar recursos de rollback

Problemas de capacidade e escala:

  • Problema: Picos Traffic sobrecarregam servidores, levando a erros 503
  • Solução: implementar dimensionamento automático, testes de carga e planejamento de capacidade

Estratégias avançadas de gerenciamento de erros

Práticas de prevenção de erros

  • Testes abrangentes: testes unitários, testes de integração e testes de carga para detectar problemas antes da produção
  • revisão de código: Foco em padrões de tratamento de erros e cobertura de casos extremos
  • Ambientes de preparação: teste exaustivamente em ambientes semelhantes aos de produção
  • Implementações graduais: Use sinalizadores de recurso e implantação canário para minimizar o impacto de erros

Resposta de erro automatizada

  • Dimensionamento automático: adicione capacidade automaticamente quando taxas de erro indicarem sobrecarga
  • disjuntor: isola automaticamente a dependência com falha para evitar falhas em cascata
  • Verificações de integridade: remoção automática de instâncias não íntegras da rotação do balanceador de carga
  • alerta integração: Envio imediato quando taxas de erros ultrapassam o limite

Monitoramento de Alterações Integradas

  • correlação de implantação: conecta picos de erros a alterações específicas de implantação ou configuração
  • Procedimentos de reversão: Capacidades de reversão rápida quando as alterações introduzem erros
  • Análise de impacto de mudanças: Meça como as mudanças no código afetam as taxas de erros ao longo do tempo
  • Métrica de qualidade de lançamento: rastreie taxas de erros como um indicador-chave de qualidade para lançamentos

Validando condições de erro

Garanta que seu monitoramento de erros se concentre em problemas genuínos que impactam o usuário:

Filtrar falsos positivos

  • Ponto de extremidade de verificação de integridade: Excluir requests do sistema de monitoramento dos cálculos de erros
  • Chamadas de serviço interno: foco nos erros enfrentados pelo usuário em vez das comunicações internas do sistema
  • erro esperado: Algumas respostas 5xx podem ser intencionais (modo de manutenção, limitação de taxa)
  • Tráfego de bots: filtre erros de sistemas automatizados que não representam o impacto real do usuário

Foco nos erros que afetam o usuário

  • serviços de atendimento ao cliente: Priorizar erros em serviços que atendem diretamente ao usuário final
  • Fluxos comerciais críticos: foco nos erros que impactam as atividades de geração de receita
  • Ponto de extremidade de alto tráfego: resolva erros em pontos de extremidade de API ou páginas muito usados
  • Funções de conversão: Priorizar erros que afetam o registro do usuário, compras ou ações-chave

Considerações importantes

  • Priorização do impacto nos negócios: concentre-se primeiro nos erros que afetam os serviços essenciais à receita
  • Contexto da jornada do usuário: considere onde os erros ocorrem no fluxo do usuário e seu impacto na conclusão da tarefa
  • Frequência de erros vs. gravidade: Equilibre a correção de erros menores frequentes com falhas raras, mas críticas
  • Alocação de recursos: garantir que os esforços de resolução de erros estejam alinhados com a capacidade de desenvolvimento disponível

Próximos passos

  1. Ação imediata: Identificar e resolver os erros 5xx de maior impacto que afetam o usuário
  2. Melhoria de processos: Estabeleça fluxo de trabalho de triagem de erros e procedimentos de rastreamento de defeitos
  3. Foco na prevenção: implementar melhores práticas de teste e implantação para reduzir novos erros
  4. melhoria de monitoramento: Use o Monitoramento de Alterações para correlacionar erros com implantação
  5. Progresso para o Nível 2: Uma vez que os erros de serviço estejam sob controle, concentre-se na otimização do Core Web Vitals

Para obter orientações detalhadas sobre monitoramento e resolução de erros de serviço, consulte nossa documentação de monitoramento de errosAPM e o guia da Caixa de entrada de erros.

Copyright © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.