A cobertura do nível de serviço mede se seus serviços críticos possuem indicadores de nível de serviço (SLIs) definidos que monitoram o desempenho da perspectiva do seu usuário. Os SLIs ajudam você a entender a integridade do serviço, definir a confiabilidade e tomar decisões sobre melhorias.
Sobre esta regra do scorecard
Esta regra de cobertura de nível de serviço faz parte do Nível 2 (Proativo) do modelo de maturidade do tempo de operação do negócio. Ele avalia se seus serviços têm SLIs definidos, indicando uma abordagem proativa para o gerenciamento de confiabilidade.
Por que isso é importante: os SLIs fornecem medições objetivas da qualidade do serviço da perspectiva do usuário. Sem SLIs, as equipes dependem de avaliações subjetivas da integridade do serviço e podem ignorar problemas de desempenho que afetam a experiência do usuário.
Como funciona esta regra
Esta regra examina a última colheita da entidade para determinar qual entidade possui Indicadores de Nível de Serviço (SLIs) definidos. Avalia todas as entidades monitoradas que poderiam se beneficiar da medição do nível de serviço.
Compreendendo sua pontuação
- Aprovado (Verde): Os serviços críticos têm SLIs definidos para medir o desempenho do usuário
- Falha (Vermelho): Serviços importantes não possuem SLIs, o que dificulta a medição objetiva da qualidade do serviço
- Destino: Cobertura SLI completa para serviços críticos de negócios e voltados para o usuário
O que isto significa:
- Pontuação de aprovação: sua equipe pode medir a confiabilidade do serviço da perspectiva do usuário e tomar decisões de melhoria
- Pontuação insuficiente: você está perdendo medidas objetivas de qualidade do serviço, o que pode levar a pontos cegos no desempenho do serviço
Compreendendo os Indicadores de Nível de Serviço (SLIs)
SLIs são métricas específicas que medem o desempenho do serviço sob a perspectiva do usuário. Bons SLIs devem ser:
Focado no usuário
- Meça a experiência do usuário: tempo de resposta, taxa de erros, disponibilidade
- Refletem o valor do negócio: métricas que impactam diretamente a satisfação dos clientes e os resultados de negócios
- Observável e mensurável: Baseado em dados reais de telemetria, não em estimativas Sintéticas
Tipos comuns de SLI
SLIs de disponibilidade:
- Definição: Porcentagem de requests que resultam em respostas bem-sucedidas
- Exemplo: 99,9% das requests HTTP retornam códigos de status sem erro
- Bom para: serviços críticos voltados ao usuário, APIs, sites
SLIs de latência:
- Definição: Porcentagem de requests concluídas dentro do limite de tempo aceitável
- Exemplo: 95% das requests são concluídas em 200 ms
- Bom para: Aplicativo interativo, serviços de tempo real, aplicativos móveis
SLIs de qualidade:
- Definição: Porcentagem de saídas que atendem aos padrões de qualidade
- Exemplo: 99% dos resultados de pesquisa retornam conteúdo relevante
- Bom para: processamento de dados, entrega de conteúdo, sistemas de recomendação
SLIs de frescor:
- Definição: Porcentagem de dados que atendem aos requisitos de atualidade
- Exemplo: 95% dos dados dashboard têm menos de 5 minutos
- Bom para: Plataforma de análise, sistemas de relatórios, painel de monitoramento
Como implementar a cobertura de nível de serviço
Siga estas etapas para estabelecer uma cobertura SLI abrangente:
1. Identificar serviços que exigem SLIs
Priorizar por impacto comercial:
- Serviços voltados ao cliente: aplicativo que atende diretamente ao usuário final
- Sistemas críticos de receita: serviços que impactam a receita empresarial se falharem
- Serviços de dependência: serviços internos que suportam vários aplicativos voltados para clientes
- Sistemas críticos de conformidade: serviços necessários para conformidade regulatória ou de segurança
Considere as características do serviço:
- Complexidade: Serviços com múltiplos componentes ou dependência
- Expectativas do usuário: Serviços cujo desempenho afeta diretamente a experiência do usuário
- Criticidade empresarial: serviços que dão suporte às principais funções empresariais
- Frequência de alteração: Serviços que são atualizados ou modificados com frequência
2. Defina SLIs significativos
Escolha a métrica correta:
- Comece com as jornadas do usuário: mapeie os caminhos críticos do usuário e identifique os pontos de medição
- Foco nos resultados: Meça o que é importante para o usuário, não apenas métricas técnicas
- Use dados existentes: aproveite a telemetria que você já está coletando
- Mantenha a simplicidade: comece com SLIs básicos de disponibilidade e latência
Defina janelas de medição apropriadas:
- Janelas curtas (1-5 minutos): para serviços em tempo real que exigem resposta imediata
- Janelas médias (1-24 horas): para a maioria dos aplicativos e APIs da web
- Janelas longas (semanais/mensais): Para processamento em lote ou serviços analíticos
3. Implementar SLIs sistematicamente
Use o recurso SLI do New Relic:
- Navegue até nível de serviço: Acesse a seção nível de serviço no New Relic
- Selecione seu serviço: Escolha a entidade para a qual deseja criar um SLI
- Definir critérios SLI: Configurar a métrica específica e o limite
- Configurar alertas: Configure a notificação quando os SLIs não forem atendidos
práticas recomendadas para implementação:
- Comece pequeno: comece com um ou dois serviços essenciais
- Iterar e melhorar: refinar as definições de SLI com base em dados do mundo real
- Documentar decisões: manter registros dos motivos pelos quais SLIs específicos foram escolhidos
- Treine sua equipe: certifique-se de que todos entendam como interpretar e agir com base nos dados do SLI
Medindo a melhoria
Acompanhe estas métricas para verificar as melhorias no seu nível de cobertura de serviço:
- Porcentagem de cobertura SLI: Monitoramento de IA para cobertura de 100% de serviços críticos para os negócios
- Relevância do SLI: Garanta que os SLIs estejam correlacionados com a experiência real do usuário e o impacto nos negócios
- Acionabilidade: Meça com que frequência os dados SLI levam a melhorias significativas
- Adoção da equipe: acompanhe a frequência com que as equipes consultam dados SLI na tomada de decisões
Cenários e soluções comuns
Muitos serviços para cobrir:
- Problema: Grandes portfólios de serviços tornam a cobertura completa opressora
- Solução: Comece com serviços de nível 1 e expanda a cobertura gradualmente com base na prioridade do negócio
Dificuldade em definir métricas focadas no usuário:
- Problema: os serviços internos não possuem métricas óbvias voltadas para o usuário
- Solução: Definir SLIs com base na dependência do serviço downstream e na satisfação do cliente interno
serviços legados sem instrumentação moderna:
- Problema: Aplicativos mais antigos podem não ter telemetria detalhada para SLIs significativos
- Solução: Comece com SLIs de disponibilidade básica usando métricas de monitoramento sintético ou baseada em logs
Serviços com requisitos de desempenho variáveis:
- Problema: Alguns serviços têm expectativas de desempenho diferentes em momentos diferentes
- Solução: use SLIs baseados em tempo ou crie SLIs separados para diferentes padrões de uso
Estratégias avançadas de SLI
SLIs multidimensionais
- Segmentação geográfica: diferentes SLIs para diferentes regiões
- Segmentação de usuário: SLIs separados para diferentes tipos de usuário (gratuito x pago, celular x web)
- Baseado em recurso: SLIs para recurso específico ou jornadas de usuário
SLIs compostos
- Medição de ponta a ponta: SLIs que abrangem vários serviços para jornadas completas do usuário
- Médias ponderadas: combine várias métricas com base na importância do negócio
- Consciente da dependência: SLIs que levam em conta a integridade do serviço upstream
SLIs adaptativos
- Limite dinâmico: SLIs que se ajustam com base em padrões de tráfego ou variações sazonais
- Sistemas de aprendizagem: SLIs que evoluem com base na análise do comportamento do usuário
- Contexto consciente: diferentes destinos SLI para diferentes contextos operacionais
Construindo um programa de gerenciamento a nível de serviço
Estabelecer governança
- Padrões SLI: Crie padrões para toda a organização para definição e medição de SLI
- Processos de revisão: Avaliação regular da relevância e precisão do SLI
- Modelo de propriedade: Responsabilidade clara pela manutenção e atuação em SLIs
Permitir a adoção da equipe
- Programas de treinamento: educar equipes sobre conceitos e implementação de SLI
- Ferramentas e automação: forneça ferramentas fáceis de usar para criação e gerenciamento de SLI
- Histórias de sucesso: compartilhe exemplos de como os SLIs impulsionaram melhorias
Melhoria contínua
- Ciclos de revisão regulares: avaliação e refinamento trimestral ou semestral do SLI
- Loop de feedback: Mecanismos para capturar quando SLIs não refletem a experiência real do usuário
- Estratégia de evolução: planeje como os SLIs amadurecerão à medida que os serviços e as necessidades comerciais mudarem
Considerações importantes
- Qualidade em vez de quantidade: concentre-se em SLIs significativos em vez de maximizar os números de cobertura
- Perspectiva do usuário: Sempre priorize a experiência do usuário em detrimento da métrica técnica interna
- Alinhamento de negócios: garantir que os SLIs apoiem os objetivos de negócios e as metas de satisfação dos clientes
- Insights acionáveis: os SLIs devem levar a ações concretas quando os limites não forem atingidos
Próximos passos
- Ação imediata: identifique seus serviços mais críticos e crie SLIs de disponibilidade básica
- Expanda a cobertura: adicione gradualmente SLIs para serviços adicionais com base na prioridade do negócio
- Refinar definições: melhorar a precisão do SLI com base no uso e feedback do mundo real
- Definir objetivos: Progresso na definição de objetivos de nível de serviço (SLOs) com base em seus SLIs
- Avance para o nível 3: uma vez estabelecida a cobertura do SLI, concentre-se na obtenção do nível de serviço
Para obter orientação abrangente sobre gerenciamento a nível de serviço, consulte nosso guia de implementação de gerenciamento a nível de serviço.