서비스 수준 범위는 중요한 서비스에 사용자 관점에서 성능을 추적하는 SLI(수준별 서비스 지표)가 정의되어 있는지 여부를 측정합니다. SLI는 서비스 상태를 이해하고, 안정성을 높이고, 목표를 설정하고, 개선에 대한 데이터 중심 결정을 내리는 데 도움이 됩니다.
이 점수카드 규칙에 관하여
이 서비스 광범위한 적용 범위 규칙은 비즈니스 활타임 성숙도 모델 의 레벨 2(Proactive)의 일부입니다. 서비스에 SLI가 정의되어 있는지 평가하여 안정성 관리에 대한 사전 예방적 접근 방식을 나타냅니다.
이것이 중요한 이유: SLI는 사용자 관점에서 서비스 품질을 객관적으로 측정합니다. SLI가 없으면 팀은 서비스 상태를 주관적으로 평가하게 되고 사용자 경험에 영향을 미치는 성능 문제를 놓칠 수 있습니다.
이 규칙의 작동 방식
이 규칙은 최근 분할 수확을 검사하여 어떤 분할 서비스 수준 지표(SLI)가 정의되어 있는지 확인합니다. 서비스 수준 측정의 혜택을 받을 수 있는 모든 모니터 부분을 평가합니다.
점수 이해하기
- 통과(녹색): 중요 서비스에는 사용자 중심 성능을 측정하기 위한 SLI가 정의되어 있습니다.
- 실패(빨간색): 중요 서비스에 SLI가 부족하여 서비스 품질을 객관적으로 측정하기 어려움
- 목표: 비즈니스에 중요한 서비스와 사용자 중심 서비스에 대한 완벽한 SLI 적용
이는 무엇을 의미합니까?
- 합격 점수: 귀하의 팀은 사용자 관점에서 서비스 안정성을 측정하고 데이터 센터 개선 결정을 내릴 수 있습니다.
- 불합격 점수: 서비스 품질에 대한 객관적인 측정이 부족하여 잠재적으로 서비스 사각지대가 발생할 수 있습니다.
서비스 수준 지표(SLI) 이해
SLI는 사용자 관점에서 서비스 성능을 측정하는 구체적인 지표입니다. 좋은 SLI는 다음과 같아야 합니다.
사용자 중심
- 사용자 경험 측정: 응답 시간, 오류율, 가용성
- 비즈니스 가치 반영: 고객 만족도와 비즈니스 성과에 직접적인 영향을 미치는 지표
- 관찰 및 측정 가능: 합성 추정치가 아닌 실제 텔레메트리 데이터를 기반으로 합니다.
일반적인 SLI 유형
가용성 SLI:
- 정의: 성공적인 응답을 가져오는 requests 의 백분율
- 예: HTTP requests 의 99.9%가 오류가 아닌 상태 코드를 반환합니다.
- 적합 대상: 중요한 사용자 중심 서비스, API, 웹사이트
지연시간 SLI:
- 정의: 허용 시간 내에 완료된 requests 의 백분율 보안, 경계
- 예: requests 의 95%가 200ms 이내에 완료됩니다.
- 적합 대상: 대화형 애플리케이션, 실시간 서비스, 모바일 앱
품질 SLI:
- 정의: 품질 기준을 충족하는 출력의 백분율
- 예: 검색 결과의 99%가 관련 콘텐츠를 반환합니다.
- 적합 분야: 데이터 처리, 콘텐츠 전달, 추천 시스템
신선도 SLI:
- 정의: 최근성 요구 사항을 충족하는 데이터의 백분율
- 예: 대시보드 데이터의 95%가 5분 이내입니다.
- 적합한 대상: 분석 플랫폼, 보고 시스템, 모니터링 대시보드
서비스 수준 적용을 구현하는 방법
포괄적인 SLI 보장을 구축하려면 다음 단계를 따르세요.
1. SLI가 필요한 서비스 식별
비즈니스 영향에 따라 우선순위를 정하세요.
- 고객 중심 서비스: 최종 사용자에게 직접 서비스를 제공하는 애플리케이션
- 수익에 중요한 시스템: 실패할 경우 비즈니스 수익에 영향을 미치는 서비스
- 의존성/종속성 서비스: 다양한 고객 지향 서비스를 지원하는 내부 서비스
- 규정 준수가 중요한 시스템: 규정 또는 보안 준수에 필요한 서비스
서비스 특성을 고려하세요.
- 복잡성: 여러 구성 요소가 있는 서비스 또는 의존성/종속성
- 사용자 기대: 성능이 사용자 경험에 직접적인 영향을 미치는 서비스
- 비즈니스 중요도: 핵심 비즈니스 기능을 지원하는 서비스
- 변경 빈도: 자주 업데이트되거나 수정되는 서비스
2. 의미 있는 SLI 정의
올바른 지표를 선택하세요.
- 사용자 여정부터 시작하세요: 중요한 사용자 경로를 매핑하고 측정 지점을 식별하세요
- 결과에 초점: 기술적 지표뿐만 아니라 사용자에게 중요한 것이 무엇인지 측정
- 기존 데이터 활용: 이미 수집하고 있는 텔레메트리 활용
- 간단하게 시작하세요: 기본 가용성 및 지연시간 SLI로 시작하세요
적절한 측정 창을 설정하세요.
- 짧은 창(1~5분): 즉각적인 대응이 필요한 실시간 서비스용
- 중간 창(1~24시간): 대부분의 웹 애플리케이션 및 API용
- 장기 창(주간/월간): 일괄 처리 또는 분석 서비스용
3. SLI를 체계적으로 구현하세요
뉴렐릭의 SLI 기능을 사용하세요:
- 서비스 수준으로 이동: 뉴렐릭의 서비스 수준 섹션에 액세스하세요.
- 서비스 선택: SLI를 만들려는 서비스를 선택하세요.
- SLI 기준 정의: 특정 지표 및 철도값을 설정합니다.
- 알림 구성: SLI가 충족되지 않을 때 알림 설정
구현을 위한 모범 사례:
- 작게 시작하세요: 하나 또는 두 개의 중요한 서비스로 시작하세요
- 반복 및 개선: 실제 데이터를 기반으로 SLI 정의를 구체화합니다.
- 문서 결정: 특정 SLI가 선택된 이유를 기록해 둡니다.
- 팀 교육: 모든 사람이 SLI 데이터를 해석하고 활용하는 방법을 이해하도록 하세요.
개선 측정
다음 지표를 추적하여 서비스 범위 개선 사항을 확인하세요.
- SLI 적용 비율: 비즈니스 크리티컬 서비스의 100% 적용을 위한 AI 예측
- SLI 관련성: SLI가 실제 사용자 경험 및 비즈니스 영향과 연관되어 있는지 확인하세요.
- 실행 가능성: SLI 데이터가 얼마나 자주 의미 있는 개선으로 이어지는지 측정합니다.
- 팀 채택: 팀이 의사 결정에서 SLI 데이터를 얼마나 자주 참조하는지 추적합니다.
일반적인 시나리오 및 솔루션
다루어야 할 서비스가 너무 많습니다.
- 문제: 대규모 서비스 포트폴리오로 인해 전체 적용이 어렵습니다.
- 해결 방법: 티어-1 서비스로 시작하여 사업 우선순위에 따라 점진적으로 서비스 범위를 확대합니다.
사용자 중심 지표 정의의 어려움:
- 문제: 내부 서비스에는 사용자에게 표시되는 명확한 지표가 없습니다.
- 솔루션: 다운스트림 서비스 의존성/종속성과 내부 고객 만족도를 기반으로 SLI를 정의합니다.
최신 측정이 없는 구형 서비스, 로그:
- 문제: 이전 버전에는 의미 있는 SLI에 대한 상세한 텔메트리가 부족할 수 있습니다.
- 해결 방법: 신세틱 모델링 또는 로그 기반 지표를 사용하여 기본 가용성 SLI로 시작하세요.
다양한 성능 요구 사항이 있는 서비스:
- 문제: 일부 서비스는 시간에 따라 성능 기대치가 다릅니다.
- 솔루션: 시간 기반 SLI를 사용하거나 다양한 사용 패턴에 대해 별도의 SLI를 만듭니다.
고급 SLI 전략
다차원 SLI
- 지리적 세분화: 지역별로 다른 SLI
- 사용자 세분화: 다양한 사용자 유형에 대한 별도의 SLI(무료 vs. 유료, 모바일 vs. 웹)
- 기반: 특정 기능 또는 사용자 여정에 대한 SLI
복합 SLI
- 종단 간 측정: 완전한 사용자 여정을 위해 여러 서비스에 걸쳐 있는 SLI
- 가중 평균: 비즈니스 중요도에 따라 여러 지표를 결합합니다.
- 의존성/종속성-aware: 업스트림 서비스 상태를 설명하는 SLI
적응형 SLI
- 동적 보안, 경계: 트래픽 패턴이나 계절적 변화에 따라 조정되는 SLI
- 학습 시스템: 사용자 행동 분석을 기반으로 진화하는 SLI
- 컨텍스트 인식: 다양한 SLI, 다양한 운영 컨텍스트에 대한 목표
서비스 수준 관리 프로그램 구축
거버넌스 수립
- SLI 표준: SLI 정의 및 측정을 위한 조직 전체 표준을 만듭니다.
- 검토 프로세스: SLI 관련성 및 정확성에 대한 정기적 평가
- 소유권 모델: SLI 유지 및 조치에 대한 명확한 책임
팀 채택 활성화
- 교육 프로그램: SLI 개념 및 구현에 대한 팀 교육
- 도구 및 자동화: SLI 생성 및 관리를 위한 사용하기 쉬운 도구 제공
- 성공 사례: SLI가 어떻게 개선을 이루었는지에 대한 사례를 공유하세요.
지속적인 개선
- 정기 검토 주기: 분기별 또는 반기별 SLI 평가 및 개선
- 피드백 루프: SLI가 실제 사용자 경험을 반영하지 않는 경우를 포착하는 메커니즘
- 진화 전략: 서비스 및 비즈니스 요구 사항이 변경됨에 따라 SLI가 어떻게 성숙해질지 계획합니다.
중요한 고려 사항
- 양보다 질: 적용 범위 수를 극대화하는 것보다 의미 있는 SLI에 집중하세요
- 사용자 관점: 항상 내부 기술 점수보다 사용자 경험을 우선시합니다.
- 비즈니스 정렬: SLI가 비즈니스 목표와 고객 만족 목표를 지원하는지 확인하십시오.
- 실행 가능한 인사이트: SLI는 레버 값, 릴레이 값이 충족되지 않을 때 구체적인 조치로 이어져야 합니다.
다음 단계
- 즉각적인 조치: 가장 중요한 서비스를 식별하고 기본 가용성 SLI를 만듭니다.
- 적용 범위 확대: 비즈니스 우선순위에 따라 추가 서비스에 대한 SLI를 점진적으로 추가합니다.
- 정의 구체화: 실제 사용 및 피드백을 기반으로 SLI 정확도 향상
- 목표 설정: SLI를 기반으로 서비스 수준 목표(SLO)를 정의하는 과정
- 3단계로 진행: SLI 적용 범위가 확립되면 서비스 수준 달성에 집중하세요.
서비스 수준 관리에 대한 포괄적인 지침은 서비스 서비스 수준 관리 구현 가이드를 참조하세요.