레벨 1 - 국방부 공지 적용 범위 스코어카드 규칙

외부 공지 적용 범위는 서버, 컨테이너 및 기타 외부 구성 요소가 모니터링 알림을 갖추고 있어 문제가 사용자와 고객에게 영향을 미치기 전에 감지할 수 있도록 합니다.

이 점수카드 규칙에 관하여

이 공개 공지 적용 범위 규칙은 비즈니스 폴더타임 성숙도 모델 의 레벨 1(반응형)의 일부입니다. 문제 발생 시 알림을 받을 수 있도록 중요 인프라 구성 요소에 기본 알림이 구성되어 있는지 확인합니다.

이것이 중요한 이유: 인프라 문제는 종종 애플리케이션 문제로 이어집니다. 적절한 인프라 경고가 없다면, 고객이 서비스 속도가 느리거나 이용할 수 없다고 불평하기 시작할 때에만 문제가 발견될 수 있습니다.

이 규칙의 작동 방식

이 규칙은 분리 부분을 검사하고 공지 조건이 정의되어 있는지 확인합니다. 특히, 다음에 대한 알림을 찾습니다.

INFRA-HOST 분리: 물리적 서버, 가상 기계 및 cloud 존재
INFRA-KUBERNETES-POD 부분: Kubernetes 파드 및 컨테이너

모니터 회의 부분에 공지 조건이 하나 이상 없으면 규칙이 실패합니다.

점수 이해하기

통과(녹색): 모든 분리 부분에는 하나 이상의 공지 조건이 정의되어 있습니다.
실패(빨간색): 하나 이상의 교체 부품 공지 적용 범위가 부족합니다.
대구, 목표: 모든 중요 구성 요소에 대한 100% 공지 적용 범위

이는 무엇을 의미합니까?

합격 점수: 인프라 모니터링 기반이 구축되었습니다.
실패 점수: 일부 인프라 구성 요소는 팀에 경고 없이 실패할 수 있습니다.

공지사항 적용 범위를 개선하는 방법

점수에 인프라 알림이 누락된 것으로 나타나면 다음 단계에 따라 포괄적인 적용 범위를 설정하세요.

1. 노출된 인프라 식별

실패한 내용을 검토하세요. 공지 적용 범위가 부족한 특정 호스트 또는 파드를 식별하세요.
중요도에 따라 우선순위를 정하세요. 먼저 프로덕션 시스템과 비즈니스에 중요한 인프라에 집중하세요.
모니터링 격차 평가: 누락된 알림이 실제 모니터링 격차를 나타내는지 또는 의도적인 제외를 나타내는지 확인합니다.

2. 필수 인프라 알림 설정

각 부품에 대해 다음과 같은 중요한 요소에 대한 알림을 구성합니다.

호스트 모니터링 알림:

CPU 사용률: 공지 CPU 사용률이 5분간 80%를 초과할 경우
메모리 사용량: 메모리 사용량이 5분 동안 85%를 초과하는 경우 공지
디스크 공간: 훈디스크 사용량이 90%를 초과하거나 사용 가능한 공간이 1GB 미만으로 떨어질 때
호스트 가용성: 호스트가 3분 동안 데이터 보고를 중단할 때 공지

Kubernetes 패드 알림:

파드 재시작 빈도: 10분 안에 파드가 3회 이상 재시작되는 경우를 알려드립니다.
컨테이너 리소스 제한: CPU 또는 메모리 제한에 접근하는 경우 공지 컨테이너
파드 이용 가능 여부: 파드가 2분 이상 실행되지 않을 때 알림
노드 리소스 압박: 노드가 메모리 또는 디스크 압박을 경험할 때 공지

3. 공지조건을 효과적으로 구성하세요

적절한 레버 값을 사용하십시오:

보수적인, 한계로 시작하고 환경의 정상적인 동작에 따라 조정하세요.
개발을 위한 다양한 노드 설정, 안정성, 운영 환경을 고려하세요.
예상되는 사용 패턴(예: 일괄 처리 작업, 트래픽 급증)을 고려합니다.

적절한 평가 기간을 설정하세요.

자연스럽게 변동하는 지표에 대해 더 긴 창(5～10분)을 사용하세요.
가용성 및 중대한 실패 조건에 대해 더 짧은 창(1～3분)을 사용하세요.
일시적인 급증으로 인해 발생하는 지나치게 민감한 알림은 피하십시오.

4. 공지 라우팅 및 에스컬레이션 설정

공지 채널 정의: 이메일, Slack 또는 PagerDuty 통합 설정
책임 있는 팀 지정: 응답할 수 있는 팀에 알림이 도달하도록 합니다.
에스컬레이션 절차 만들기: 초기 알림이 확인되지 않을 경우 발생하는 상황을 정의합니다.
공지 전달 테스트: 알림이 실제로 의도한 수신자에게 도달하는지 확인하세요.

개선 측정

이러한 지표를 추적하여 버전 공지 적용 범위 개선 사항을 확인하세요.

커버리지 비율: 프로덕션에 대한 100% 공지 커버리지를 위한 AI 모니터링
공지 효율성: 통합 알림의 빈도를 모니터링하여 통합 문제를 예방하는 데 도움이 됩니다.
응답 시간: 팀이 감시 알림에 얼마나 신속하게 대응하는지 측정
오탐율: 불필요한 소음을 방지하기 위해 알림이 조정되었는지 확인하세요.

일반적인 시나리오 및 솔루션

구형 또는 폐기된 버전:

문제: 이전 호스트 또는 컨테이너가 모니터링에 계속 표시되지만 알림이 필요하지 않습니다.
해결 방법: 사용하지 않는 파티션을 제거하거나 비생산으로 분류하여 적용 범위 요구 사항에서 제외합니다.

개발 및 테스트 환경:

문제: 개발/테스트가 복잡해집니다. 공지 적용 범위 지표
솔루션: 태그 또는 명명 규칙을 사용하여 환경을 분리하고 프로덕션 시스템에 적용 범위 규칙을 집중합니다.

전문 인프라:

문제: 일부 인프라에는 사용자 지정 모니터링 접근 방식이 필요합니다.
솔루션: 다양한 데이터베이스 유형(데이터베이스, 로드 밸런서 등)에 대한 환경별 공지 템플릿 생성

클라우드 자동 확장 리소스:

문제: 동적으로 생성된 외부는 공지 설정을 상속받지 못할 수 있습니다.
해결 방법: 새로운 부품이 적절한 공지 범위를 확보하도록 하기 위해 국방부 템플릿 또는 자동화를 사용하십시오.

고급 고려 사항

적용 범위 규칙 사용자 정의

다음과 같은 경우 점수표 규칙을 조정해야 할 수 있습니다.

다양한 분리 유형: 분리에는 다른 분리 유형(데이터베이스, 로드 밸런서 등)이 포함됩니다.
환경 분리: 프로덕션 인프라에만 집중하려고 합니다.
비즈니스 중요성: 일부 인프라는 다른 인프라보다 더 중요합니다.

다른 모니터링 도구와의 통합

여러 모니터링 도구를 사용하는 경우:

공지 내용이 중복되지 않도록 확인하세요.
격차를 피하기 위해 기존 모니터링 시스템과 조정하세요
감시 알림을 위한 중앙 집계 지점으로 뉴렐릭을 사용하는 것을 고려해보세요.

중요한 고려 사항

중요한 시스템부터 시작하세요. 고객에게 직접 영향을 미치는 프로덕션 인프라에 먼저 집중하세요.
노이즈가 있는 균형 잡힌 적용 범위: 포괄적인 적용 범위가 공지 노이즈를 생성하지 않도록 보장
정기적인 유지 관리: 전투가 발전함에 따라 공지 조건을 검토하고 업데이트합니다.
팀 준비성: 팀이 귀하가 생성하는 알림에 실제로 응답할 수 있는지 확인하세요.

다음 단계

즉각적인 조치: 현재 적용 범위가 부족한 모든 인프라에 대한 기본 알림을 설정하세요.
지속적인 모니터링: 인프라 변경에 따른 적용 범위를 유지하기 위해 매주 이 점수표 규칙을 검토하세요.
2단계로 진행: 인프라 경보가 확립되면 사전 예방적 모니터링 관행에 집중합니다.

관측 모니터링 설정에 대한 자세한 지침은 관측 모니터링 문서를 참조하세요.

사용자의 편의를 위해 제공되는 기계 번역입니다.