알림 품질 관리

팀에 알림이 너무 많이 수신되거나 허위 경보가 너무 많이 수신되면 공지 감시가 발생하기 시작합니다. 두 요인 중 하나라도 증가하면 그 피로는 심각한 부정적인 결과를 초래하기 시작합니다. 과부하에 시달리는 공지 이벤트 담당자들은 허위 알림에 익숙해져서, 심각한 문제보다는 신속하게 해결하기 쉬운 알림을 우선시하게 됩니다. 더 나쁜 것은, 응답 시간에 머물기 위해 해결되지 않은 공지 이벤트를 단순히 종료하기 시작하는 경우가 많습니다. 이는 공지 이벤트 응답 시간과 심각한 정전 발생이 증가하면서 소음 속에서 실제 알림이 손실된다는 것을 의미합니다.

알림 오류를 해결하고 향후 재발을 방지하려면 알림 품질을 개선해야 합니다. AQM(사전품질관리) 정책을 채택하면 불필요한 이벤트 수를 줄이는 데 중점을 두어 진정한 비즈니스 영향이 있는 에만 집중할 수 있습니다. 이는 공지사항을 줄이고 귀하와 귀하의 팀이 적절한 시기에 적절한 곳에 집중할 수 있도록 보장합니다.

다음과 같은 경우 AQM에 적합한 후보자입니다.

알림이 너무 많습니다.
오랫동안 열려 있는 알림이 있습니다.
관련 없는 알림이 많이 있습니다.
고객은 모니터링 도구보다 먼저 문제를 발견합니다.

팁

이를 귀하의 계정에 구현하기 전에 실습 학습 방식을 시도해 보고 싶으신가요? 공지 품질관리 과정을 확인해보세요.

경고 품질 관리를 사용하는 이유는 무엇입니까?

공지 품질 관리를 기반으로 한 관행을 채택하면 응답 시간이 줄어들고 중요한 이벤트에 대한 인식이 높아집니다. 신호 대 잡음비를 개선하면 혼란이 줄어들고 문제의 근본 원인을 신속하게 파악하고 해결할 수 있습니다. 목표는 가치가 낮은 알림을 줄이는 동시에 가치가 높은 공지 이벤트가 발생했을 때 이를 더 쉽게 파악할 수 있는 방법을 만드는 것입니다. 그 결과는 다음과 같습니다.

가동 시간 및 가용성 증가.
평균 해결 시간(MTTR) 감소.
경고 볼륨이 감소했습니다.
중요하지 않은 경고를 쉽게 식별하여 가치 있게 만들거나 제거할 수 있습니다.

핵심 성과 지표 사용

올바른 핵심성과지표(KPI)를 사용하면 가장 잡음이 심하고 가치가 낮은 알림을 찾아 그 가치를 개선하거나 제거할 수 있습니다. AQM 프로세스를 사용하여 공지 이벤트 볼륨 및 참여 KPI를 수집 및 측정하고, 이를 통해 추세를 파악하여 심각한 문제를 야기하는 이슈를 해결합니다. 아래에는 모든 KPI에 대한 정보와 각 KPI에 대한 NRQL 쿼리가 제공되어 뉴럴릭 UI 어디에서든 해당 KPI를 쉽게 확인할 수 있습니다.

공지 이벤트 볼륨

공지 이벤트(알림 유무와 상관없이)를 작업 대기열처럼 처리해야 합니다. 대기열과 마찬가지로 알림 수는 항상 0에 최대한 가까워야 합니다. 각 공지 이벤트는 해당 상황을 해결하기 위한 조사 또는 시정 조치를 유발해야 합니다. 공지 후에도 아무런 조치가 취해지지 않는다면, 공지 조건 자체의 타당성에 의문을 제기해야 합니다.

특히, 특정 공지 이벤트가 자주 발생하는 경우, 지속적으로 의미 있는 영향을 미치고 있는 것인지 아니면 단순히 노이즈가 많은 것인지 의문을 가져야 합니다. 공지 이벤트 볼륨 KPI는 이러한 질문에 대한 답을 찾고 고품질 알림 시스템을 향한 진행 상황을 측정하는 데 도움이 됩니다.

이는 일정 기간 동안 발생한 공지 이벤트의 수입니다. 일반적으로는 현재 주와 이전 주를 비교해야 합니다.

Goal: 낮은 가치와 귀찮은 공지이벤트 횟수를 줄여보세요.

Best practices:

조건 설정이 실제 비즈니스 영향을 감지하도록 의도되었는지 확인합니다.
조건 설정이 비정상적인 동작을 감지하는지 확인합니다.
알림의 가치를 측정하는 데 도움이 되는 공지 이벤트 세부정보 Acknowledge 기능을 사용하세요. 공지 이벤트 확인 KPI 비율을 참조하세요.
모든 이해 관계자에게 AQM KPI를 보고합니다.
```
FROM NrAiIncident SELECT count(*) AS 'Incident Count' WHERE event = 'open' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO
```

이는 모든 공지 이벤트가 일정 기간 동안 누적한 총 시간(분)입니다. 일반적으로는 현재 주와 이전 주를 비교해야 합니다.

Goal: 공지이벤트의 총 누적 시간을 줄입니다.

Best practices:

공지 이벤트를 수동으로 닫지 마십시오. 그렇게 하면 이 KPI의 정확도가 왜곡될 수 있습니다.
수신자로부터 수정 작업을 수행하지 않는 알림을 제거합니다.
감지 및 응답 시간 개선에 대한 중요성을 전달하여 percent investigated 및 mean-time-to-investigate KPI를 개선합니다.

모든 이해 관계자에게 AQM KPI를 보고합니다.

FROM NrAiIncident SELECT sum(durationSeconds)/60 AS 'Incident Minutes' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

이는 측정 기간 내 공지 이벤트의 평균 지속 시간입니다. 이 수치는 가능한 한 낮아야 합니다.

Goal: MTTC 감소

Best practices:

공지 이벤트를 수동으로 닫지 마십시오. 그렇게 하면 이 KPI의 정확도가 왜곡될 수 있습니다.
신뢰성 엔지니어링 기술을 향상시킵니다.

모든 이해 관계자에게 AQM KPI를 보고합니다.

FROM NrAiIncident SELECT average(durationSeconds/60) AS 'Incident MTTC (minutes)' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

이는 총 소요 시간이 5분 미만인 공지 이벤트의 비율입니다. 이는 공지 이벤트의 상태가 너무 자주 변경되어 공지 이벤트의 원인과 심각도가 모호해진다는 것을 의미할 수 있습니다. 이 상태는 alert event flapping 으로 알려져 있습니다.

Goal: 짧은 기간으로 공지 이벤트의 비율을 최소화합니다.

Best practices:

조건이 시스템에 의미 있는 영향을 미치는 적법한 이상을 감지하는지 확인하십시오.

서비스 수준 관리를 이해합니다.

FROM NrAiIncident SELECT percentage(count(*), WHERE durationSeconds <= 5*60) AS '% Under 5min' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

사용자 참여

공지 이벤트의 가치는 그 이벤트가 받는 관심의 양으로 측정해야 합니다. 개인이 받는 관심과 참여의 정도는 그 가치를 직접적으로 측정하는 척도입니다. 참여도가 높을수록 해당 공지가 가치 있는 것임을 의미하고, 참여도가 낮거나 전혀 없을 경우 해당 공지는 단순히 불필요한 정보일 수 있으므로 수정하거나 비활성화해야 함을 의미합니다.

공지 사건 인지 시점과 해결 활동 시작 시점을 측정하는 것에는 상당한 차이가 있습니다. 뉴렐릭 알림과 통합을 사용하는 경우 공지 이벤트가 외부 공지 이벤트 관리 도구로 전송될 때가 아니라 해결 활동이 시작될 때 뉴렐릭으로 전송된 Acknowledge 이벤트가 트리거되는지 확인하세요.

이는 true 승인 플래그가 있는 공지 이벤트의 비율을 나타냅니다. 이번 주와 지난 주를 비교해야 합니다.

Goal: 공지 이벤트 참여율을 높입니다.

Best practices:

DevOps 팀이 공지 이벤트 공지를 언제 확인하는 것이 적절한지 알고 있는지 확인하십시오.
사용을 유도하기 위해 경고 확인을 게임화합니다.

대규모 승인 연습을 권장하지 않습니다.

FROM NrAiIssue SELECT filter(count(*), WHERE event='acknowledge')/filter(count(*), WHERE event='create')*100 AS '% Investigated' WHERE priority='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

이는 공지 이벤트에 응답하는 데 걸리는 평균 시간을 나타냅니다. 일반적으로는 현재 주와 이전 주를 비교해야 합니다.

Goal: 조사에 소요되는 평균 시간을 줄입니다.

Best practices:

공지 이벤트 응답자의 알림에 대한 신뢰를 구축하는 작업을 수행합니다.
중요한 경고가 확인되었는지 확인합니다.

경보에 신속하게 대응하도록 대응 팀을 장려합니다.

FROM NrAiIssue SELECT average(acknowledgeTime - activateTime) / 60000 AS 'Incident MTTI (minutes)' WHERE event = 'acknowledge' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

다음은 뭐지?

이전 문서 에서 AQM 프로세스를 구현하면 안정성과 안정성을 유지하면서 알림 볼륨이 크게 감소하는 것을 확인할 수 있습니다. AQM KPI는 위에 나열된 모범 사례를 따를 때 이러한 개선 사항에 대한 정확한 정보를 제공할 수 있습니다.

AQM 구현을 완료하면 다음과 같은 플랫폼의 다른 측면을 개선하고 관리할 수도 있습니다.

이전 단계

알림으로 스택을 개선하는 방법 알아보기

사용자의 편의를 위해 제공되는 기계 번역입니다.

팁

경고 품질 관리를 사용하는 이유는 무엇입니까?

핵심 성과 지표 사용

공지 이벤트 볼륨

공지 이벤트 횟수 KPI

누적 공지 이벤트 기간 KPI

평균 마감 시간(MTTC) KPI

5분 미만의 KPI 비율

사용자 참여

KPI 인정 비율

평균 조사 시간(MTTI) KPI

다음은 뭐지?

이전 단계

사용자의 편의를 위해 제공되는 기계 번역입니다.

알림 품질 관리

팁

경고 품질 관리를 사용하는 이유는 무엇입니까? .css-21sua1{background:none;border:none;width:0;padding:0;}

핵심 성과 지표 사용

공지 이벤트 볼륨

누적 공지 이벤트 기간 KPI

평균 마감 시간(MTTC) KPI

5분 미만의 KPI 비율

사용자 참여

KPI 인정 비율

평균 조사 시간(MTTI) KPI

다음은 뭐지?

이전 단계

경고 품질 관리를 사용하는 이유는 무엇입니까?