서비스 수준 소비

SLI 및 SLO 세트를 생성한 후 New Relic은 SLI 데이터 생성을 시작합니다. 첫 번째 결과가 UI 에 표시되는 데 몇 분 정도 걸립니다.

서비스 수준 찾기 및 보기

서비스 수준을 찾는 방법에는 여러 가지가 있습니다.

상단 탐색 모음에서 More 메뉴의 Service Levels 아래에 있습니다(사용자 정의가 가능합니다). 여기에서 SLI를 태그별로 필터링할 수 있습니다.
SLI가 정의된 엔터티 의 미리보기에서. UI 주변에서 찾을 수 있습니다. 예를 들어 Explorer의 Navigator 보기 에서 엔터티를 클릭합니다.
APM 서비스에서 보고서 섹션.
SLI 또는 SLI 관련 부분(예: 서비스 또는 브라우저 버그)을 포함하는 모든 workload 에서. 특정 관계에 따라 SLI를 그룹화하려면 APM 서비스나 브라우저 앱을 기존 관계에 추가하거나 새 관계를 만들어야 합니다.

서비스 수준 목록에는 서비스 수준 이름, 관련 엔터티, SLO 대상 및 기간과 함께 행당 하나의 서비스 수준이 표시됩니다.

서비스 수준 필터링

서비스 수준에 태그를 추가하는 경우 필터 막대를 사용하여 받는 서비스 수준의 범위를 좁히고 그룹화하십시오.

필터링을 사용하여 팀이 아직 약속하지 않은 테스트 또는 기대하는 서비스 수준을 숨깁니다.
그룹화를 사용하여 특정 소유자, 조직 단위 또는 사용자 흐름에 연결된 서비스 수준에 집중하세요.

SLO 규정 준수 보기 모드

달성하려는 항목에 따라 다음 보기 모드 중 하나를 사용하여 SLO 준수를 확인합니다.

Operational: 서비스 운영을 담당하는 경우 이 보기를 사용하여 지난 2시간, 1일, 7일, 28일 이동 기간 동안의 SLO 준수 및 오류 예산 추세를 확인하세요.
Period over period: 사업 검토, 회고 및 우선순위 회의에서 이 보기를 사용하여 달력 주별 또는 월별로 준수 사항을 비교하세요.

요청 기반 SLO는 총 요청 수에 대한 양호한 응답 수의 비율로 정의된 SLI에서 결정됩니다. 이는 해당 비율이 SLO 준수 기간의 목표를 충족하거나 초과할 때 요청 기반 SLO가 충족됨을 의미합니다.

또한 롤링 기간에 대한 SLO 규정 준수 결과는 전체 주를 포함할 때 더 일관성이 있습니다. 따라서 SLO 기간에는 전체 주만 포함됩니다. 이렇게 하면 계산에 항상 같은 양의 주말이 포함되며 주간 계절성은 SLO를 확인하는 요일에 따라 결과에 영향을 미치지 않습니다.

작업에 대한 SLO 보기

운영 보기는 서비스 수준이 서로 다른 시간대에 어떻게 향상되거나 저하되는지 보여줍니다.

one.newrelic.com > All capabilities > Service levels

SLO 준수 셀에 녹색 배경이 있으면 해당 기간 동안 잘 수행하고 있는 것입니다. 요청을 100% 성공적으로 처리하지 못했을 수도 있지만 아직 사용할 수 있는 오류 예산이 남아 있습니다.
SLO 규정 준수 셀의 배경이 노란색이면 오류 예산이 완전히 소모된 것에 가깝고 나머지 기간 동안 더 주의해야 합니다.
SLO 준수 셀의 배경이 빨간색이면 이 기간 동안 목표 SLO에 도달하지 않았으며 오류 예산을 모두 소모한 것입니다. 배포해야 하는 경우 주의하고 SLI를 개선하기 위한 몇 가지 작업을 계획하십시오. SLO를 클릭하면 골든 메트릭, 최신 배포, 이상 현상 및 진행 중인 문제와 같은 엔터티에 대한 추가 데이터를 볼 수 있습니다. 이 데이터는 SLO 목표를 놓친 시기와 이유를 이해하는 데 도움이 될 수 있습니다.

2시간 창은 고객에게 빠르고 중대한 영향을 미치는 인시던트를 표면화할 수 있습니다. 이 SLO가 충족되지 않으면 조사를 시작하고 서비스가 계속 저하되지 않는지 확인하십시오. 반면에 더 긴 시간 창은 경고 조건을 위반할 만큼 심각하지 않은 문제를 표면화할 수 있으며 그렇지 않으면 감지되지 않을 수 있습니다.

또한 지난 1일, 7일 및 28일 동안의 남은 오류 예산을 확인하여 오류 예산을 얼마나 빨리 복구하거나 소모하고 있는지 확인할 수 있습니다.

비즈니스 리뷰를 위해 기간별 SLO 보기

특정 일정 빈도로 발생하는 검토 회의에서 보고하려면 기간별 보기를 사용합니다. 이 보기의 부가 가치는 지정된 달력 기간의 기간 동안 SLO 준수에 대한 더 긴 기록을 표시하는 것입니다.

one.newrelic.com > All capabilities > Service levels

기간을 주와 월 사이에서 전환할 수 있습니다.
셀 색상은 작업 보기 에 설명된 대로 정확히 작동합니다.

서비스 수준 세부 정보 이해

SLI 세부 정보를 열려면 SLI를 클릭하십시오.

one.newrelic.com > All capabilities > Service levels, SLI를 선택하세요.

두 가지 주요 목적으로 SLI 세부 정보를 사용합니다.

SLO 분석의 경우: SLO 목표가 누락된 시간 범위를 확인합니다.
SLI/SLO 구성 및 미세 조정의 경우: New Relic이 SLO 값을 계산한 방법을 알아보세요.

SLI 카드에는 다음 차트가 포함되어 있습니다.

좋은 반응과 나쁜 반응

다음은 서비스 수준을 분석하는 주요 개념 입니다.

유효한 요청은 SLI에 의미 있는 것으로 간주하려는 모든 요청입니다.
좋은 응답은 좋은 경험을 제공한다고 생각하는 모든 응답입니다(예: 서비스가 2초 이내에 응답하여 최종 사용자에게 좋은 탐색 경험을 제공함).
나쁜 응답은 나쁜 경험을 제공한다고 생각하는 모든 응답입니다(예: 서비스가 서버 오류로 응답하여 사용자 흐름을 방해함).

이 차트는 서비스가 수신한 유효한 요청의 총 수를 양호 또는 불량으로 분류하여 보여줍니다.

이 차트는 서비스의 실제 처리량을 보여주며 처리량 증가와 잘못된 응답 간에 상관 관계가 있는지 확인하는 데 사용할 수 있습니다.

시간 경과에 따른 SLI 달성률(%)

시간이 지남에 따라 좋은 응답이라고 생각하는 비율입니다. 라인은 100%에 가깝게 유지되어야 합니다. 이는 대부분의 요청이 성공적으로 처리되었음을 의미합니다.

기간 동안 준수

SLO 준수 기간 동안 측정된 총 이벤트(요청)에 대한 양호한 이벤트(응답)의 비율입니다. 100%에 가까울수록 서비스가 해당 기간 동안 SLO 목표를 달성하는 데 더 가깝습니다. 이 비율이 SLO 목표 아래로 내려가면 차트가 빨간색으로 바뀝니다. 안정성에 더 많은 노력을 기울여야 합니다.

남은 오류 예산(요청)

나머지 오류 예산은 목표를 손상시키지 않고 SLO 기간 동안 여전히 나쁜 응답을 가질 수 있는 요청의 비율을 나타냅니다. 따라서 허용되는 불량 응답의 총량은 요청 처리량에 따라 달라집니다.

오류 예산은 SLO를 읽는 다른 방법입니다. 목표를 손상시키지 않고 SLO 기간 동안 여전히 나쁜 응답을 가질 수 있는 요청의 비율을 나타냅니다.

허용된 불량 응답의 총량은 요청 처리량에 따라 달라지므로 New Relic은 남은 오류 예산의 백분율을 표시합니다.

나머지 오류 예산이 25%를 초과하는 한 녹색으로 표시되고 SLO가 양호합니다.
오류 예산이 25% 미만으로 떨어지면 노란색으로 바뀝니다. 즉, 해당 기간 동안 전체 예산을 소진할 뻔했습니다. 새로운 배포 및 변경에 더 주의를 기울이고 일부 안정성 작업을 계획할 수 있습니다.
오류 예산이 완전히 소모되면 빨간색으로 표시됩니다.

시간 경과에 따른 SLI 달성 및 SLO 목표(%)

마지막 차트는 두 가지 시계열을 보여줍니다. 시간 경과에 따른 SLI 달성 과 SLO 달성 목표입니다. SLI 값이 SLO 목표보다 낮으면 서비스에 SLO가 없는 것입니다. 이 차트를 사용하여 서비스가 SLO 목표에 도달하지 못한 시간 범위를 알아보세요.

대시보드에서 SLI 달성 차트 작성

다음 쿼리를 사용하여 사용자 지정 대시보드에서 SLI 달성 시계열을 차트로 작성할 수 있습니다.

FROM Metric SELECT clamp_max(
  (count(newrelic.sli.valid) - count(newrelic.sli.bad)) / 
  count(newrelic.sli.valid) * 100, 100) AS 'SLI attainment' 
WHERE sli.id = 'SLI_ID' 
UNTIL 2 MINUTES AGO TIMESERIES AUTO

여기서 sli.id 은 SLI 식별자입니다. 대시보드에 이와 같은 차트를 추가하는 가장 쉬운 방법은 Details 보기에서 사용 가능한 Add to dashboard 옵션을 사용하는 것입니다.

또는 다음 쿼리를 사용하여 Nerdgraph API를 통해 SLI ID 및 SLI 달성 쿼리를 찾을 수 있습니다.

{
  actor {
    entity(guid: "{entityGuid}") {
      serviceLevel {
        indicators {
          name
          id
          resultQueries {
            indicator {
              nrql
            }
          }
        }
      }
    }
  }
}

SLI와 연결된 항목의 entityGuid 을 사용합니다. 쿼리 결과의 serviceLevel.indicators.id 필드에 SLI ID가 표시됩니다.

SLO 위반 진단

SLO 위반을 진단하는 데 도움이 되도록 다음을 수행할 수 있습니다.

나쁜 이벤트 그룹화

one.newrelic.com > All capabilities > Service levels, SLI를 선택하세요.

특정 속성(예: 계정, 클라이언트 ID, 요청 소스 등)을 선택하고 특히 SLO를 손상시키는지 감지할 수 있습니다. 우리는 이러한 피해 가치를 "비방자"라고 부릅니다.

예를 들어 트랜잭션 데이터의 경우 서비스에 대한 트랜잭션이 나머지보다 실패한 결과를 더 많이 반환하는지 확인하기 위해 name 로 시도하고 패싯합니다. 실패한 결과가 가장 많은 클라이언트를 알아보려면 request.uri 을(를) 시도하고 패싯하십시오.

다른 예로deviceType , userAgentName , userAgentOS , countryCode 등으로 브라우저 PageViewTiming 이벤트 패싯을 시도할 수 있습니다.

하나 또는 매우 소수의 비방자가 실제로 SLO 준수를 저하시키고 있음을 감지하면 다음과 같은 몇 가지 조치를 취할 수 있습니다.

먼저 문제를 해결하고 비추천자가 SLO를 충족하도록 작업을 계획합니다.
또한 일시적으로 SLO 목표를 보다 현실적인 값으로 조정하고 안정성을 개선하기 위한 작업을 계획할 수 있습니다.

그러나 비방자가 서비스 성능 및 안정성에 대한 일반적인 기대와 쉽게 일치하지 않는 예외인 경우 해당 사례에 대한 전용 SLO를 갖는 것을 고려하십시오. 다음 단계를 수행하는 것이 좋습니다.

먼저 원래 SLI 쿼리에서 WHERE 절을 사용하여 비추천자를 필터링합니다(예: WHERE countryCode != 'US' ).
그런 다음 비추천 사례(예: WHERE countryCode = 'US' )만 고려하는 쿼리에 대한 WHERE 절이 있는 새 SLI를 만들고 이에 대한 보다 현실적인 SLO 목표를 설정합니다.

팁

좋은 이벤트를 기반으로 SLI를 구성한 경우에도 나쁜 이벤트 쿼리를 사용하여 존재할 수 있는 비추천자를 찾을 수 있습니다.

제한 사항

잘못된 이벤트 쿼리를 계산할 수 없는 몇 가지 예외가 있습니다.

이벤트 유형이 다른 양호한 이벤트에 구성된 SLI의 경우.
양호한 이벤트에 필터가 없는 양호한 이벤트에 구성된 SLI의 경우.
SUM과 COUNT를 모두 사용하는 양호한 이벤트에 구성된 SLI의 경우.
다른 속성과 함께 SUM을 사용하는 양호한 이벤트에 구성된 SLI의 경우.

관계 지도

관계 맵을 사용하면 영향을 받는 서비스 수준과 관련된 관계를 확인하여 문제가 시작된 시기와 위치를 정확히 찾아낼 수 있습니다.

one.newrelic.com > All capabilities > Service levels > (select an SLI) > Map.

사용자의 편의를 위해 제공되는 기계 번역입니다.

서비스 수준 찾기 및 보기 .css-21sua1{background:none;border:none;width:0;padding:0;}