서비스 수준 구현의 약속된 결과 중 하나는 경고 정책을 조정하고 실제로 클라이언트 경험을 손상시키고 비즈니스에 위험을 초래하는 문제에 대한 알림을 줄일 수 있다는 것입니다.
서비스 수준 목표(SLO)를 설정하면 규정 준수 기간이 끝나기 전에 오류 예산이 소진될 경우 알려주는 를 구성할 수 있습니다. 이 알림은 비즈니스에 큰 영향을 미치는 상황이 발생하는 시기를 알려줍니다. 문제가 발생하면 우선순위를 부여하고 관련 팀을 참여시켜 문제의 근원을 진단해야 합니다.
오류 예산 소진률 알림
소모율 경고의 기본 개념은 오류 예산이 SLO 기간 동안 감당할 수 있는 불량 이벤트 수를 나타낸다는 것입니다. 정의에 따르면 모든 오류 예산을 일정한 비율로 지출하는 경우 연소율 = 1입니다. 그런 다음 SLO 기간이 끝나기 전에 오류 예산을 완전히 소진했기 때문에 허용 가능한 소진률을 초과하는 소진률은 지속 가능하지 않습니다. 따라서 이러한 경우가 일정 시간 동안 지속되는 경우 알림을 받을 수 있습니다.
오류 예산 소진률에 대한 알림 생성
서비스 수준 요약 및 알림 조건 페이지에서 알림을 생성하는 옵션을 찾을 수 있습니다.

one.newrelic.com > All capabilities > Service Levels > Choose a service level 로 이동한 다음 Settings 옵션 아래의 Alert conditions 클릭합니다.
이를 클릭하면 측면 패널이 열리고 목록 상단에는 빠른 굽기 속도에 대해 경고하고 그 아래에는 느린 굽기 속도에 대해 경고하는 옵션이 표시됩니다.

one.newrelic.com > All capabilities > Service Levels > Choose a service level 로 이동한 다음 Settings 옵션 아래의 Alert conditions 클릭합니다. Alert 버튼을 클릭하여 측면 패널을 엽니다.
빠른 소진 알림은 특히 빠른 소진 알림의 경우 SLO 예산 소비 비율에 대한 Google의 권장 사항을 따릅니다. 이러한 경고는 수정되지 않은 경우 오류 예산이 곧 소진되는 소비량의 갑작스럽고 중대한 변화에 대해 경고합니다. 1시간 이내에 2% SLO 예산 소비를 설정합니다. 즉, 달성하지 못한 경우 서비스가 50시간 내에 오류 예산을 완전히 소비하게 됩니다.

one.newrelic.com > All capabilities > Service Levels > Choose a service level 로 이동한 다음 Settings 옵션 아래의 Alert conditions 클릭합니다. Alert 버튼을 클릭하여 측면 패널을 엽니다.
느린 소진 알림은 특히 느린 소진 알림에 대한 SLO 예산 소비 비율에 대한 Google의 권장 사항을 따릅니다. 이러한 경고는 변경하지 않으면 규정 준수 기간이 끝나기 전에 오류 예산이 소진되는 소비 변화에 대해 경고합니다. 6시간 이내에 SLO 예산 소비를 5%로 설정합니다. 즉, 도달하지 못한 경우 서비스는 5일 안에 오류 예산을 완전히 소비하게 됩니다.
계속하려면 기존 경고 정책을 선택하거나 새 정책을 만들어야 합니다.
또는 '사용자 지정'을 클릭하고 자신의 임계값을 설정할 수 있습니다.
오류 예산 소비에 대한 경고
해당 기간 동안 오류 예산의 80%를 소진하면 이 경고가 표시됩니다.
설정하려면 서비스 요약 또는 공지 조건 페이지에서 Alert 클릭하고 Error budget consumption 옵션을 선택하세요.

one.newrelic.com > All capabilities > Service Levels > Choose a service level 로 이동한 다음 Settings 옵션 아래의 Alert conditions 클릭합니다. Alert 버튼을 클릭하여 측면 패널을 엽니다.
계속하려면 기존 경고 정책을 선택하거나 새 정책을 만들어야 합니다.
다른 레버 값을 설정하려면 Customize 클릭하고 공지 설정 카드의 단계를 따르세요.
SLO 규정 준수에 대한 알림
SLO가 장기간 목표치 이하로 떨어질 경우 알림을 설정하려면 SLO compliance 옵션을 선택하면 됩니다.
SLI가 휘발성인 경우 이 유형의 알림은 정확도가 낮을 수 있습니다. 따라서 이를 완화하기 위해 연소율 경고를 대신 사용해야 합니다.
자체 오류 예산 소진율 임계값 설정
빠른 연소 알림에 대한 Google의 권장 사항을 따르지 않으려면 자체 임계값을 설정할 수 있습니다.
조건 임계값 설정
오류 예산 소진률은 전체 SLO 기간을 고려하여 서비스가 오류 예산을 소비하는 속도를 나타냅니다. 이를 계산하는 공식은 다음과 같습니다.
critical burn rate = (tolerated budget consumption * SLO period [h]) / (evaluation period [h])- 허용된 예산 소비: 평가 기간 동안 소비할 수 있는 예산의 양입니다.
- SLO 기간: SLO의 기간(일반적으로 시간 단위).
- 평가 기간: 고려 중인 집계 기간(간단성을 위해 경보 조건 집계 창에서 1시간을 사용할 수 있음).
그러나 발생할 수 있는 최대 오류율이 100%라는 점을 고려하면 최대 연소율도 있으므로 임계 연소율은 다음 범위에 있어야 합니다.
0 < critical burn rate < maximum burn rate여기서 최대 연소율 값은 다음과 같이 계산됩니다.
maximum burn rate = 1 / (1 - SLO target)마지막으로 경고 임계값을 정의하기 위해 시간당 위험 연소율에 오류 예산을 곱합니다.
threshold = error budget * critical burn rate예시
99.9% 타 목표가 있는 28 day SLO의 예를 통해 이것이 어떻게 작동하는지 살펴보겠습니다.
28일 SLO의 경우 Google에서는 2% SLO 예산 소비 in the last hour 에 대한 알림을 권장합니다. 즉, 동일한 비율로 예산을 계속 소모하면 50시간 안에 SLO를 위반하게 됩니다( 100% / 2% 로 인해).
그러면 다음 변수가 있습니다.
- SLO 타겟:
99.9% - SLO 기간:
28 days (28 * 24 hours) - 허용된 예산 소비:
2% (0.02) - 평가 기간:
1 hour
그러므로:
critical burn rate per hour = (0.02 * 28 * 24) / 1 = 13.44여기서 SLO의 가능한 최대 연소율 값은 다음과 같습니다.
maximum burn rate = 1 / (1 - 0.999) = 1000그리고 마지막으로:
threshold = 0.1 * 13.44 = 1.344이는 경고 조건 임계값으로 사용할 값입니다. 쿼리가 평가 기간(이 예에서는 60분)에 한 번 이상 임계값(이 예에서는 1.344)을 초과하는 값을 반환하면 인시던트를 엽니다. .

중요
서비스 수준 측에서 SLO 대상을 편집하는 경우 경고 조건에서도 대상을 편집해야 합니다.
설정
이 경고 조건의 추가 매개변수를 조정하는 것이 중요합니다.
평가 기간으로 창 기간을 설정합니다. 이전 예에 따라 60 minutes 설정하면 공지 시스템이 60분 분량의 데이터를 집계하게 됩니다.
중요
평가 기간에는 최대 6시간 분량의 데이터를 집계할 수 있습니다.
60 seconds 슬라이드를 간격으로 사용하면 매분 이전 60분 동안의 데이터를 평가할 수 있습니다.

그런 다음 알림을 관리하는 방법을 결정하는 정책에 조건을 연결합니다.
마지막으로 열려 있는 인시던트를 자동으로 닫을 시기를 선택할 수 있습니다.
서비스 수준 기본 알림 정책 이해
서비스 수준 기본 경고 정책이 계정 수준에서 도입되어 서비스 수준 상태가 남은 오류 예산을 기반으로 합니다. 이를 통해 New Relic Navigator 및 워크로드와 같은 다른 New Relic 제품을 사용할 때 경험이 향상됩니다.

이 경고 정책은 알림을 트리거하지 않으며 오류 예산 소비를 기반으로 엔터티 상태를 유지하지 않으려는 경우 이 정책을 쉽게 삭제할 수 있습니다. 그러나 정책 삭제는 영구적이며 해당 계정의 기존 및 새 서비스 수준에 영향을 미칩니다.
