• 로그인지금 시작하세요

사용자의 편의를 위해 제공되는 기계 번역입니다.

영문본과 번역본이 일치하지 않는 경우 영문본이 우선합니다. 보다 자세한 내용은 이 페이지를 방문하시기 바랍니다.

문제 신고

서비스 수준 경고

서비스 수준 구현의 약속된 결과 중 하나는 경고 정책을 조정하고 실제로 클라이언트 경험을 손상시키고 비즈니스에 위험을 초래하는 문제에 대한 알림을 줄일 수 있다는 것입니다.

서비스 수준 목표를 설정할 때 서비스가 오류 예산을 너무 빨리 소모할 때 이를 알려주는 경고를 구성할 수 있습니다. 이러한 경고는 비즈니스에 큰 영향을 미치는 사고가 발생하면 알려줍니다. 트리거되면 우선 순위가 높아야 하며 적절한 팀을 참여시켜 문제의 원인을 진단하는 프로세스를 시작해야 합니다.

오류 예산 소진률 알림

소진율 경고의 기본 개념은 다음과 같습니다. 오류 예산은 SLO 기간 동안 감당할 수 있는 불량 이벤트 수를 나타냅니다. 정의에 따라 모든 오류 예산을 일정한 속도로 지출하면 소진률 = 1입니다. 그런 다음 SLO 기간이 끝나기 전에 오류 예산을 완전히 소진했기 때문에 허용 가능한 소진률을 초과하는 소진률은 지속 가능하지 않습니다. 따라서 계속되는 경우 경고를 받고 싶을 수 있습니다.

오류 예산 소진률에 대한 알림 생성

서비스 수준 세부 정보 페이지에서 경고를 생성하는 옵션을 찾을 수 있습니다.

경고 를 클릭하면 경고 구성 카드가 표시됩니다. 이 카드는 SLO 예산 소비 비율에 대한 Google 권장 사항, 특히 빠른 소진 알림에 따라 미리 채워집니다. 이러한 경고는 수정하지 않으면 오류 예산이 곧 소진되는 갑작스럽고 큰 소비 변화에 대해 경고합니다. 우리는 1시간 이내에 2% SLO 예산 소비를 설정할 것입니다. 이는 서비스가 달성하지 못한 상태로 두면 50시간 내에 오류 예산을 완전히 소비한다는 것을 의미합니다.

자체 임계값 설정

빠른 연소 경고에 대한 Google 권장 사항을 따르고 싶지 않은 경우 자체 임계값을 설정할 수 있습니다.

조건 임계값 설정

오류 예산 소진률은 전체 SLO 기간을 고려하여 서비스가 오류 예산을 소비하는 속도를 나타냅니다. 이를 계산하는 공식은 다음과 같습니다.

critical burn rate = (tolerated budget consumption * SLO period [h]) / (evaluation period [h])
  • 허용된 예산 소비: 평가 기간 동안 소비할 수 있는 예산의 양입니다.
  • SLO 기간: SLO의 기간(일반적으로 시간 단위).
  • 평가 기간: 고려 중인 집계 기간(간단성을 위해 경보 조건 집계 창에서 1시간을 사용할 수 있음).

경고 임계값을 정의하기 위해 시간당 임계 소각률을 오류 예산으로 곱합니다.

threshold = error budget * critical burn rate

예시

목표가 99.9%28일 SLO의 예에서 이것이 어떻게 작동하는지 살펴보겠습니다.

28일 SLO의 경우 Google 은 지난 1시간 동안 2% SLO 예산 소비에 대해 경고할 것을 권장합니다. 즉, 동일한 속도로 계속 예산을 소진하면 50시간 내에 SLO를 위반하게 됩니다(결과는 100% / 2% ).

그러면 다음 변수가 있습니다.

  • SLO 타겟: 99.9%
  • SLO 기간: 28 days (28 * 24 hours)
  • 허용된 예산 소비: 2% (0.02)
  • 평가 기간: 1 hour

그러므로:

critical burn rate per hour = (0.02 * 28 * 24) / 1 = 13.44

그리고 마지막으로:

threshold = 0.1 * 13.44 = 1.344

이것은 경고 조건 임계값으로 사용할 값입니다. 쿼리가 임계값(이 예에서는 1.344)을 초과하는 값을 반환하면 평가 기간(이 예에서는 60분)에 한 번 이상 위반을 엽니다. .

중요

서비스 수준 측에서 SLO 대상을 편집하는 경우 경고 조건에서도 대상을 편집해야 합니다.

설정

이 경고 조건의 추가 매개변수를 조정하는 것이 중요합니다.

창 기간을 평가 기간으로 설정합니다. 이전 예에 따라 60분 을 설정하면 경보 시스템이 60분의 데이터를 집계합니다.

중요

평가 기간은 최대 2시간의 데이터 집계를 지원합니다.

60초 간격으로 슬라이드를 사용하여 매분 New Relic이 이전 60분의 데이터를 평가하도록 할 수 있습니다.

그런 다음 알림을 관리하는 방법을 결정하는 정책에 조건을 연결합니다.

마지막으로 열려 있는 위반을 자동으로 닫을 시기를 선택할 수 있습니다.

제한 사항

New Relic Alerts는 최대 2시간의 데이터를 집계할 수 있습니다. 따라서 New Relic은 아직 다음을 제공하지 않습니다.

  • 전체 SLO 기간 동안 SLO 준수에 대해 경고하는 기능.
  • 남은 오류 예산에 대해 경고하는 기능.
Copyright © 2022 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.