• /
  • EnglishEspañolFrançais日本語한국어Português
  • EntrarComeçar agora

Esta tradução de máquina é fornecida para sua comodidade.

Caso haja alguma divergência entre a versão em inglês e a traduzida, a versão em inglês prevalece. Acesse esta página para mais informações.

Criar um problema

Nível 2 - alertas, regra do tempo médio para fechar o placar

Os alertas significam que o tempo de fechamento mede a eficiência com que sua equipe resolve incidentes desde o momento em que são abertos até o momento em que são fechados. Essa métrica indica a eficácia da resposta a incidentes da sua equipe e ajuda a identificar áreas de melhoria em seus processos de resolução.

Sobre esta regra do scorecard

Esses alertas significam que a regra de tempo de fechamento faz parte do Nível 2 (Proativo) no modelo de maturidade do tempo de operação do negócio. Ele avalia a rapidez com que sua equipe consegue diagnosticar e resolver incidentes, refletindo a maturidade dos seus processos de gerenciamento de incidentes.

Por que isso é importante: uma resolução mais rápida de incidentes reduz o impacto nos clientes, minimiza a interrupção dos negócios e indica procedimentos eficazes de monitoramento e resposta. Equipes que resolvem incidentes de forma consistente e rápida demonstram excelência operacional.

Como funciona esta regra

Esta regra analisa o tempo entre o momento em que um incidente é aberto e o momento em que é fechado, calculando o tempo médio de fechamento de todos os incidentes na sua conta. Ele mede a eficiência dos seus processos de resposta a incidentes e resolução.

Compreendendo sua pontuação

  • Aprovado (Verde): O tempo médio de resolução de incidentes é de 30 minutos ou menos
  • Falha (Vermelho): O tempo médio de resolução de incidentes excede 30 minutos
  • Destino: Resolução consistente de incidentes em 30 minutos para a maioria dos alertas

O que isto significa:

  • Pontuação de aprovação: sua equipe tem processos eficientes de resposta a incidentes e pode diagnosticar e resolver problemas rapidamente
  • Pontuação de falha: os incidentes demoram muito para serem resolvidos, o que pode indicar ineficiências de processo, diagnósticos complexos ou ferramentas inadequadas.

Como melhorar os tempos de resolução de incidentes

Se sua pontuação mostrar resolução lenta de incidentes, siga estas etapas para otimizar seu processo de gerenciamento de incidentes:

1. Analisar padrões de incidentes atuais

  1. Identifique incidentes de resolução lenta: revise quais tipos de incidentes levam consistentemente mais de 30 minutos
  2. Examine as causas comuns: procure padrões em tipos de incidentes, sistemas afetados ou hora da ocorrência
  3. Revise as etapas de resolução: documente quais ações as equipes normalmente realizam para resolver diferentes tipos de incidentes

2. Otimize a qualidade e o contexto do alerta

Melhore as informações de alerta:

  • Adicione contexto aos alertas: inclua metadados relevantes, dashboard e links runbook na notificação de alerta
  • Use nomes de alertas descritivos: faça com que os títulos dos alertas indiquem claramente o problema e o sistema afetado
  • Incluir comparações baseline : mostrar valores normais em comparação com os atuais para ajudar na avaliação rápida

Melhore o roteamento de alerta:

  • Envie alertas para as equipes certas: garanta que os alertas cheguem às pessoas que realmente podem resolver o problema
  • Use roteamento inteligente: encaminhe diferentes tipos de alerta para especialistas apropriados (banco de dados, frontend, infraestrutura)
  • Forneça caminhos de escalonamento: procedimentos claros para quando os primeiros respondentes não conseguem resolver os problemas

3. Simplifique os processos de diagnóstico

Crie runbooks eficazes:

  • Documentar problemas comuns: Procedimentos de resolução passo a passo para problemas frequentes
  • Incluir etapas de resolução de problemas: Fluxos lógicos de diagnóstico que reduzem o tempo de investigação
  • Link para ferramentas relevantes: acesso direto ao painel, logs e utilitários de diagnóstico

Melhore o acesso às ferramentas:

  • Centralize os dados de monitoramento: garanta que os socorristas possam acessar rapidamente todas as informações relevantes
  • Use o painel unificado: crie visualizações específicas de incidentes que mostrem todas as métricas relevantes
  • Automatize verificações comuns: reduza as etapas manuais de diagnóstico com verificações de integridade automatizadas

4. Melhore as capacidades de resposta da equipe

Melhore a prontidão da equipe:

  • Treine os membros da equipe de forma cruzada: garanta que várias pessoas possam lidar com diferentes tipos de incidentes
  • Procedimentos de escalonamento de documentos: caminhos claros para quando os problemas exigem experiência adicional
  • Realizar treinamento de resposta a incidentes: sessões práticas regulares para cenários comuns

Otimize o fluxo de trabalho de resposta:

  • Padronize a comunicação: use canais e formatos consistentes para atualizações de incidentes
  • Automatize respostas de rotina: use a automação para etapas de resolução comuns
  • Acompanhe o progresso da resolução: Visibilidade clara sobre quem está trabalhando em quê e o status atual

Medindo a melhoria

Acompanhe essas métricas para verificar suas melhorias na resolução de incidentes:

  • Tempo médio de fechamento (MTTC): tempos de resolução consistentes em menos de 30 minutos
  • Distribuição do tempo de resolução: monitore a distribuição dos tempos de resolução para identificar valores discrepantes
  • Taxa de resolução na primeira tentativa: porcentagem de incidentes resolvidos sem reabertura
  • Frequência de escalonamento: com que frequência os incidentes exigem conhecimentos ou recursos adicionais

Cenários e soluções comuns

Incidentes complexos que exigem investigação profunda:

  • Problema: Alguns problemas exigem inerentemente um tempo de diagnóstico mais longo
  • Solução: Separe incidentes complexos em sua própria categoria e defina diferentes expectativas de SLA ou implemente confirmações de resolução parcial

Incidentes fora do horário comercial:

  • Problema: Os tempos de resolução são mais lentos quando há menos especialistas disponíveis
  • Solução: Melhorar os procedimentos de plantão, criar melhores caminhos de escalonamento ou aprimorar ferramentas de diagnóstico automatizadas

Incidentes semelhantes repetidos:

  • Problema: As equipes gastam tempo resolvendo novamente os mesmos tipos de problemas
  • Solução: Invista em correções permanentes para problemas recorrentes, crie um script de resolução automatizado ou melhore o monitoramento para identificar as causas raiz

Contexto de alerta ruim:

  • Problema: As equipes gastam muito tempo tentando entender o que está realmente errado
  • Solução: Aprimore as descrições de alertas, inclua o painel relevante e forneça links diretos para os sistemas afetados

Compreendendo o destino de 30 minutos

O destino de 30 minutos representa um equilíbrio entre investigação completa e resposta rápida:

Por que 30 minutos:

  • Impacto nos clientes: A maioria dos clientes percebe degradação do serviço dentro deste período
  • Impacto nos negócios: incidentes mais longos geralmente têm custos comerciais exponencialmente mais altos
  • Eficiência da equipe: indica processos bem ajustados e preparação adequada

Quando ajustar o destino:

  • Destino inferior (15-20 minutos): Serviços de alta disponibilidade com SLA rigoroso
  • Destino superior (45-60 minutos): Sistemas complexos que exigem investigação profunda
  • Destinos diferentes por gravidade: Incidentes críticos precisam de resolução mais rápida do que avisos

Estratégias avançadas de otimização

Categorização de incidentes

Categorizar por complexidade de resolução:

  • Correções rápidas: reinicialização simples ou alterações de configuração (destino: menos de 10 minutos)
  • Diagnóstico padrão: Procedimentos típicos de resolução de problemas (destino: 15-30 minutos)
  • Investigações complexas: Análise técnica profunda necessária (destino: 45-60 minutos)

Oportunidades de automação

Automatize respostas de rotina:

  • Sistemas de autocorreção: reinicialização automática ou failover para problemas comuns
  • Automação de diagnóstico: coleta automática de logs e métricas relevantes
  • Automação da comunicação: atualizações automáticas de status para as partes interessadas

Otimização de processos

Implementar comandantes de incidentes:

  • Coordenadores dedicados: designe pessoas específicas para gerenciar o fluxo de trabalho de incidentes
  • Comunicação clara: ponto único de contato para atualizações e decisões
  • Alocação de recursos: garantir que as pessoas certas estejam trabalhando nos problemas certos

Considerações importantes

  • Equilibre velocidade com precisão: não sacrifique uma investigação adequada por tempos de fechamento mais rápidos
  • Considere a gravidade do incidente: diferentes tipos de incidentes podem exigir diferentes tempos de resolução destino
  • Considere o contexto empresarial: incidentes de fim de semana podem ter uma urgência diferente dos problemas dos dias úteis
  • Medir o encerramento significativo: garantir que os incidentes sejam realmente resolvidos, não apenas encerrados

Próximos passos

  1. Ação imediata: analise os tipos de incidentes de resolução mais lenta atualmente e implemente soluções rápidas
  2. Melhoria de processos: desenvolver procedimentos e manuais padronizados de resposta a incidentes
  3. Aprimoramento da ferramenta: Melhore o contexto de alerta e o acesso à ferramenta de diagnóstico
  4. Desenvolvimento de equipe: investir em treinamento e capacidades multifuncionais de resposta a incidentes
  5. Avance para o Nível 3: Uma vez que a resposta a incidentes esteja otimizada, concentre-se em atingir o nível de serviço

Para obter orientação abrangente sobre otimização do gerenciamento de incidentes, consulte nosso guia de implementação do Alerta Quality Management.

Copyright © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.