중복 경보는 중요한 사건을 잡음 아래 묻습니다. 기존 알림을 평가하는 것은 우선 순위 지정 전략의 핵심 부분입니다. 알림의 품질은 팀이 사고에 얼마나 잘 대응하는지로 해석되기 때문입니다. 소음이 너무 많으면 비즈니스에 거의 또는 전혀 영향을 미치지 않는 우선 순위가 낮은 사건으로 팀을 지치게 할 위험이 있습니다. 그러나 경고하지 못한 인시던트는 고객 경험에 영향을 미치는 중단으로 이어집니다.
목표
이 자습서에서는 이미 활성 경고가 있다고 가정합니다. 알림 품질 관리에 대한 몇 가지 권장 사항을 제공하고 새 알림을 만들기 위한 몇 가지 NRQL 쿼리를 제공합니다. 당신은:
- 알림 품질 관리(AQM) 대시보드 설치
- 좋은 알림과 나쁜 알림 구분
- 알림 생성을 위해 권장되는 NRQL 문자열을 검토하십시오.
AQM 대시보드 설치
AQM은 귀하의 팀이 다음 사항에 집중할 수 있도록 성가신 사건의 수를 줄이는 데 중점을 둡니다. 진정한 비즈니스 영향을 미칩니다. 다음과 같은 경우 AQM에 적합한 후보자입니다.
- 알림이 너무 많습니다.
- 오랫동안 열려 있는 알림이 있습니다.
- 고객은 모니터링 도구보다 먼저 문제를 발견합니다.
시작하려면 빠른 시작을 통해 AQM 대시보드를 설치합니다.
- 경고 품질 관리 즉시 관찰 가능성 페이지로 이동합니다.
- 지금 설치 버튼을 클릭합니다.
- 프롬프트에 따라 대시보드를 설치할 계정을 선택합니다.
- 대시보드를 봅니다.
AQM 대시보드에서 최소 2주를 보내는 것이 좋습니다. 그 시간 동안 AQM 대시보드는 팀이 모든 경고와 상호 작용하는 방식에 대한 데이터를 수집합니다.
일반적으로 다음 유형의 알림을 제거하는 것이 좋습니다.
- 누적 기간이 수천 분 이상인 "상시 작동" 사건을 생성합니다.
- 사건의 30% 이상이 5분 미만 동안 열려 있는 경우.
- 평균 마감 시간이 30분 이상인 경우.
- 매주 350개 이상의 인시던트를 만듭니다.
최대 수요에 대한 새 알림 만들기
기존 정책을 검토 중인 상태에서 최대 수요에 맞게 조정되는 새 알림을 생성할 수 있습니다. 좋은 알림을 생성하는 것은 설정의 특수성에 따라 다릅니다. 두 개의 알림이 동일한 알림 조건 쿼리를 공유할 수 있습니다. 예를 들면 다음과 같습니다.
SELECT average(`apm.service.memory.heap.used`) FROM Metric WHERE appName = 'Inventory Service'
쿼리 자체는 강력한 알림 정책이지만 이 알림을 구성하는 방법에 따라 중복성이나 노이즈가 발생할 수 있습니다. 잘못된 경고는 기간이 너무 짧거나 임계값이 낮거나 지연 또는 기준선이 없을 수 있습니다. 또한 비교적 오래된 데이터 원본에 경고 조건을 연결하면 비정상적인 동작을 감지할 수 있는 기록이 충분하지 않기 때문에 문제가 발생할 수 있습니다.
새 알림을 생성할 준비가 되었으면 게임데이에 사용할 수 있는 몇 가지 권장 쿼리는 다음과 같습니다.