• 로그인지금 시작하세요

사용자의 편의를 위해 제공되는 기계 번역입니다.

영문본과 번역본이 일치하지 않는 경우 영문본이 우선합니다. 보다 자세한 내용은 이 페이지를 방문하시기 바랍니다.

문제 신고

경보 품질 관리: 경보를 최적화하고 경보 피로도를 줄입니다.

이 가이드는 알림 품질을 개선하고 최적화하는 과정을 안내합니다. 이것은 관찰 가능성 성숙도에 대한 시리즈 의 일부입니다.

개요

팀은 높은 경보 볼륨과 비즈니스 영향에 맞지 않는 경보를 경험할 때 경보 피로로 어려움을 겪습니다. 그들은 많은 경고가 거짓이고 도움이 되지 않는다는 것을 인식하기 시작하면서 다른 경고보다 해결하기 쉬운 경고를 우선시할 수 있습니다. 또한 SLA 목표 내에 머물 수 있도록 해결되지 않은 사건을 종료할 수 있습니다.

그 결과 실제 비즈니스에 영향을 미치는 문제가 발생할 경우 사고 응답이 느려지고 문제 범위가 확대되며 심각도가 높아집니다.

경고 품질 관리 (AQM) 구현 가이드는 실제 비즈니스에 영향을 미치는 경고에만 집중할 수 있도록 성가신 사건의 수를 줄이는 데 중점을 둡니다. 이렇게 하면 경보 피로가 줄어들고 귀하와 귀하의 팀이 적시에 적절한 장소에 주의를 집중할 수 있습니다.

다음과 같은 경우 AQM에 적합한 후보자입니다.

  • 알림이 너무 많습니다.
  • 오랫동안 열려 있는 알림이 있습니다.
  • 귀하의 알림은 관련이 없습니다.
  • 고객은 모니터링 도구보다 먼저 문제를 발견합니다.
  • 관찰 가능성 도구의 가치를 볼 수 없습니다.

요망되는 결과

비즈니스 영향 측정을 기반으로 하는 경고 전략은 더 빠른 응답 시간과 중요한 이벤트에 대한 사전 예방적 인식을 가져옵니다. 개선된 경보 신호 대 잡음비는 혼란을 줄이고 신속한 식별 및 문제 격리를 개선합니다.

경보 품질 관리 관행의 전반적인 목표는 더 적은 수의 더 중요한 사고가 생성되도록 하여 다음과 같은 결과를 초래하도록 하는 것입니다.

  • 가동 시간 및 가용성 향상
  • 감소된 MTTR
  • 경고 볼륨 감소
  • 중요하지 않은 경고를 쉽게 식별하여 가치 있게 만들거나 제거할 수 있습니다.

이 가이드에 설명된 프로세스는 이러한 목표를 향한 진행 상황을 측정하는 데 사용할 핵심 성과 지표 및 메트릭을 생성합니다. 메트릭은 실시간으로 측정되고 대시보드에 게시되며 성가신 경고를 식별 및 줄이고 사고 조사에 대한 사용자 참여를 높이는 지속적인 개선 프로세스를 추진하는 데 사용됩니다.

당사의 경보 품질 관리 관행에는 알 수 없거나 예기치 않은 장애 모드를 감지하도록 설계된 이상 감지 또는 AIOps가 포함되지 않습니다. 두 가지 방식(AQM 및 ML/AI)은 함께 작동합니다. 상호 배타적이지 않습니다.

핵심 성과 지표

AQM 프로세스를 사용하여 다음 KPI를 수집하고 측정합니다.

인시던트 볼륨 : 다음이 포함됩니다.

  • 사건 수
  • 누적 사고 시간
  • 평균 마감 시간(MTTC)
  • 5분 미만 비율

다음을 포함하는 사용자 참여 :

  • 평균 조사 시간(MTTI)
  • 조사된 사건의 %

이러한 KPI는 가장 시끄럽고 가장 가치가 낮은 경고를 찾는 데 도움이 되므로 경고의 가치를 높이거나 제거할 수 있습니다. 그런 다음 장기적인 메트릭 추세를 사용하여 경영진과 이해 관계자에게 실제 비즈니스 영향을 보여줍니다. 이러한 측정항목에 대한 자세한 정보는 다음과 같습니다.

사고 규모

인시던트(경고 유무에 관계없이)를 작업 대기열처럼 처리해야 합니다. 대기열과 마찬가지로 경고 수는 거의 0에 가까운 시간을 소비해야 합니다. 각 인시던트는 조건을 해결하기 위한 조치의 트리거가 되어야 합니다. 경고가 조치로 이어지지 않으면 경고 조건의 값에 대해 질문해야 합니다.

"항상 켜진" 인시던트 또는 특정 인시던트가 일정한 비율로 표시되는 경우 그 이유에 대해 질문해야 합니다. 비즈니스에 지속적으로 영향을 미치고 있습니까, 아니면 단순히 많은 양의 소음이 있습니까? 경고 볼륨 KPI는 이러한 질문에 답하고 고품질 경고의 정상적인 상태를 향한 진행 상황을 측정하는 데 도움이 됩니다.

사용자 참여

인시던트가 받는 관심의 양으로 인시던트의 가치를 측정해야 합니다. 이러한 맥락에서 참여는 사건이 확인되었는지 여부로 측정됩니다.

개별 경보가 수신하는 참여의 양은 경보의 가치를 직접적으로 측정한 것입니다. 더 많은 참여는 귀중한 경고를 의미합니다. 참여가 적거나 0이라는 것은 수정하거나 비활성화해야 하는 성가신 경고를 의미합니다.

사고 인식의 순간을 측정하는 것과 해결 활동이 시작되는 순간을 인식하는 것 사이에는 상당한 차이가 있습니다. New Relic 경고와의 통합을 사용하는 경우 사건이 외부 사건 관리 도구로 전송될 때가 아니라 해결 활동이 시작될 때 New Relic으로 전송되는 "승인" 이벤트가 트리거되는지 확인하십시오. 표준 사고 관리 프로세스에 대한 자세한 내용은 " 사고 관리 프로세스: 효과적인 해결을 위한 5단계, OnPage Corporation에서 2020년 8월 31일 게시. -- ITIL4 참조"를 참조하십시오.

전제 조건

시작하기 전에 이에 상응하는 경험이 없는 경우 NRU(New Relic University) 개요 과정 을 완료하십시오.

또한 다음 사항에 대한 기본적인 이해가 있어야 합니다.

  • New Relic 경고 정책 및 조건 구성
  • New Relic 사건 알림 채널 웹훅 구성
  • NRQL(쿼리 언어)
  • 알림 권장사항
  • New Relic APM 및 인프라 모니터링
  • 비정상 동작과 정상 동작을 구분하기 위해 데이터의 기준을 설정하는 방법

현재 상태 설정

지속적인 개선 프로세스와 마찬가지로 AQM의 첫 번째 단계는 KPI의 현재 상태를 설정하는 것입니다. 이렇게 하려면 다음 작업을 수행하십시오.

인시던트 이벤트 웹훅 설치 및 구성

웹훅은 수명 주기(열기, 승인, 닫기)를 진행하면서 각 인시던트에 대해 New Relic 이벤트를 생성합니다. AQM 프로세스가 정확하고 가치 있는 결과를 생성하도록 하려면 이 웹훅을 모든 경고 정책에 알림 채널로 추가해야 합니다.

AQM 프로세스에는 위반 데이터가 아닌 사건이 필요합니다. 이것이 위반 데이터만 제공하는 기본 NrAiIncident 이벤트를 사용하지 않는 이유입니다. 대신 이 웹훅을 사용하여 필요한 사건 데이터를 New Relic에 보냅니다.

웹훅을 사용하려면 다음을 수행하십시오.

  1. 기본 프로덕션 계정과 AQM 프로세스로 분석할 각 계정을 식별합니다.
  2. AQM 프로세스에 참여할 각 계정에 사건 이벤트 웹훅을 설치하고 기본 프로덕션 계정에 nrAQMIncident 이벤트를 보고하도록 웹훅을 구성합니다.
  3. 웹훅을 각 계정의 모든 경고 정책에 알림 채널로 할당합니다.

이 예는 여러 하위 계정이 있는 New Relic 계정에 대한 각 경고 정책에 할당된 웹훅 알림 채널을 보여줍니다.

웹훅, AQM 대시보드 및 자세한 설치 지침은 GitHub의 New Relic OMA 리소스 센터에서 찾을 수 있습니다.

AQM 대시보드 설치

AQM 대시보드는 AQM 프로세스를 주도하는 기본 자산입니다. 다음을 수행하여 이전에 수행한 인시던트 이벤트 웹훅 설치 및 구성 단계에서 식별한 기본 프로덕션 계정에 AQM 대시보드를 설치해야 합니다.

  1. GitHub의 관찰 가능성 성숙도 리소스 센터에서 대시보드 정의 JSON 파일을 다운로드하십시오.
  2. 정의를 기본 프로덕션 계정으로 가져옵니다.

대시보드 가져오기에 대한 자세한 내용은 대시보드 소개 를 참조하십시오.

초기 AQM 오리엔테이션 및 활성화 수행

이 단계에서 사고 관리 팀과 기타 이해 관계자는 AQM 프로세스의 목표와 참여 범위를 알게 됩니다.

이 작업의 가장 중요한 부분은 사고 경고를 확인하는 중요성에 대해 팀을 교육하는 것입니다. 일반적으로 다음 지침을 따르도록 지시하십시오.

  • 경보를 보고 추가 조사 조치를 취하기로 결정한 경우 경보를 확인하십시오.
  • 일반적으로 다른 작업을 수행하지 않고 경고를 닫는 경우 경고를 확인하지 마십시오.
  • 사고 경보가 항상 켜져 있으면 닫거나 확인하지 마십시오. 자세한 내용은 두 번째 활성화 세션 을 참조하십시오.

첫 번째 세션 템플릿 프레젠테이션 을 사용하여 이 자료를 이해 관계자에게 전달할 수 있습니다.

AQM 데이터 축적

전체 프로세스를 진행하려면 최소 2주의 데이터가 필요합니다. 이 기간 동안 주기적으로 다음 항목을 확인해야 합니다.

  • 사고 경보 이벤트 데이터가 누적되고 있는지 확인합니다.
  • 웹훅이 모든 경고 정책에 연결되어 있는지 확인합니다.
  • 사고 대응자가 경보 승인 지침을 따르고 있는지 확인합니다.

두 번째 활성화 세션 수행

이 단계에서 사고 관리 팀과 기타 이해 관계자에게 초기 AQM 데이터와 계속해서 진행 중인 개선 프로세스를 소개합니다.

이 프로세스는 네 가지 활동으로 구성됩니다.

  1. AQM 대시보드 및 KPI 추세 검토: 여기에서 귀하와 이해 관계자는 AQM KPI를 보고 주별 추세를 식별합니다. 팀은 KPI가 개선되지 않는 영역을 식별하고 개선을 주도하는 전략을 개발해야 합니다.
  2. 성과, 도전 과제 및 기회 식별: 여기에서 귀하와 이해 관계자는 경보 품질의 현재 상태를 비즈니스 영향에 매핑하여 개선으로 인해 비즈니스 결과가 개선된 영역과 문제가 비즈니스 결과에 영향을 미치는 영역을 식별합니다.
  3. 사고 정책 검토: AQM 대시보드를 사용하여 귀하와 이해 관계자는 가장 시끄러운 사고 정책을 식별합니다. 식별된 정책은 아래 4단계에 자세히 설명된 대로 평가되어야 합니다.
  4. 경고 정책 권장 사항: 이 단계에서 귀하와 이해 관계자는 다음 기준을 사용하여 가장 시끄러운 정책을 검토합니다.
  • 경고가 비즈니스에 영향을 미칩니까?

  • 정책이 제대로 구성되어 있습니까?

    • 수정해야 할 리소스에 대해 알려주고 있습니까?
    • 정책이 필요한가? 비즈니스 영향이 있습니까?
    • 임계값이 올바르게 설정되어 있습니까?
  1. 기술 권장 사항: 여기에서 귀하와 이해 관계자는 다음을 포함한 모든 기술적 권장 사항을 검토합니다.

    • 엔지니어링이 검토할 애플리케이션/시스템 문제가 있습니까?
    • 고쳐야 할 잘못 구성된 정책이 있습니까?
    • 계측 공백이 있습니까?

두 번째 세션 템플릿 프레젠테이션 을 사용하여 AQM 프로세스의 이 부분을 구성할 수 있습니다.

개선 프로세스

이것은 누적된 AQM 데이터를 주기적으로 검토하고 정책을 경고하기 위해 필요에 따라 조정하는 지속적인 개선 프로세스의 진행 단계입니다. 경고 볼륨이 수용 가능한 수준이 될 때까지 일주일에 한 번 이 단계를 수행해야 합니다. 그러면 덜 자주 수행할 수 있습니다.

이 단계에서 다음을 수행해야 합니다.

  • 매주 KPI를 고위 경영진에게 보고하여 이해 관계자 팀이 작업의 우선 순위를 적절하게 지정하고 약속된 비즈니스 결과를 향한 진행 상황에 도달하고 있음을 보여줍니다.
  • 몇 개월에서 몇 년 동안 주간 KPI를 기록하고 유지하여 기준선을 설정하고 개선 속도를 보여줍니다.

이것은 지속적인 개선 과정이라는 점을 명심해야 합니다. AQM 목표를 달성하고 있는지 확인하기 위해 장기간에 걸쳐 KPI를 계속 수집하고 평가할 것입니다.

가치 실현

AQM 프로세스가 설정되면 안정성과 안정성이 동일하게 유지되거나 개선되는 동안 경고 볼륨이 크게 감소하는 것을 볼 수 있습니다. 또한 경고가 명확하고 모호하지 않은 비즈니스 영향을 미치는지 확인해야 합니다. AQM KPI는 이러한 개선 사항에 대한 정량화 가능한 증거를 제공합니다.

AQM의 목표를 달성하기 위한 경로에 확실히 도달했다면 서비스 수준 관리 또는 안정성 엔지니어링과 같은 가동 시간, 성능 및 안정성 가치 흐름 내에서 다른 사용 사례로 이동하는 것을 고려하십시오. 고객 경험 과 같은 다른 관찰 가능성 성숙도 가치 흐름으로 이동할 수도 있습니다.

KPI 참조

다음은 각 KPI에 대한 설명과 New Relic 플랫폼에서 추출할 샘플 NRQL 쿼리입니다. 이러한 KPI는 GitHub의 관찰 가능성 성숙도 리소스 센터에서 다운로드할 수 있는 AQM 대시보드에도 포함되어 있습니다.

사고 규모

사고 참여

추가 리소스

계정에서 이것을 구현하기 전에 손을 더럽히고 싶습니까? 경보 품질 관리 랩 확인

Copyright © 2022 New Relic Inc.