Metrics Advisor를 사용하여 인시던트 진단

Important

2023년 9월 20일부터 새 Metrics Advisor 리소스를 만들 수 없습니다. Metrics Advisor 서비스는 2026년 10월 1일에 사용 중지됩니다.

인시던트란?

특정 타임스탬프의 여러 시계열에서 한 메트릭 내 변칙이 검색되는 경우 Metrics Advisor는 동일한 근본 원인을 공유하는 변칙을 하나의 인시던트에 자동으로 그룹화합니다. 인시던트는 일반적으로 실제 문제를 나타내며, Metrics Advisor는 그 위에 분석을 수행하고 자동 근본 원인 분석 인사이트를 제공합니다.

이렇게 하면 각 개별 변칙을 보는 고객의 노력이 크게 제거되고 문제에 가장 중요한 기여 요인을 빠르게 찾을 수 있습니다.

Metrics Advisor에서 생성된 경고에는 여러 인시던트가 포함될 수 있고, 각 인시던트에는 동일한 타임스탬프의 여러 시계열에서 캡처된 여러 변칙이 포함될 수 있습니다.

인시던트 진단 경로

  • 경고 알림에서 진단

    메일/Teams 형식의 후크를 구성하고 하나 이상의 경고 구성을 적용한 경우 그런 다음 Metrics Advisor에서 분석하는 인시던트 에스컬레이션 연속 경고 알림을 받게 됩니다. 알림 내에 인시던트 목록과 간략한 설명이 있습니다. 각 인시 던트에 대해 "진단" 단추를 선택하면 진단 인사이트를 볼 수 있는 인시던트 세부 정보 페이지로 이동됩니다.

    Diagnose from an alert notification

  • "인시던트 허브"에서 인시던트 진단

    Metrics Advisor에는 캡처된 모든 인시던트를 수집하고 진행 중인 문제를 쉽게 추적할 수 있는 중앙 위치가 있습니다. 왼쪽 탐색 모음에서 인시던트 허브 탭을 선택하면 선택한 메트릭 내의 모든 인시던트가 나열됩니다. 인시던트 목록 내에서 그 중 하나를 선택하여 자세한 진단 인사이트를 봅니다.

    Diagnose from an incident in Incident hub

  • 메트릭 페이지에 나열된 인시던트에서 진단

    메트릭 세부 정보 페이지 내에는 이 메트릭에 대해 캡처된 최신 인시던트를 나열하는 인시던트라는 탭이 있습니다. 목록은 인시던트의 심각도 또는 메트릭의 차원 값으로 필터링할 수 있습니다.

    목록에서 인시던트 하나를 선택하면 인시던트 세부 정보 페이지로 이동하여 진단 인사이트를 볼 수 있습니다.

    Diagnose from an incident listed in metrics page

일반적인 진단 흐름

인시던트 세부 정보 페이지로 이동된 후 Metrics Advisor에서 자동으로 분석된 인사이트를 활용하여 문제의 근본 원인을 빠르게 찾거나 분석 도구를 사용하여 문제 영향을 추가로 평가할 수 있습니다. 인시던트 세부 정보 페이지에는 인시던트 진단의 세 가지 주요 단계에 해당하는 세 가지 섹션이 있습니다.

1단계: 현재 인시던트 요약 확인

첫 번째 섹션에서는 기본 정보, 작업 및 추적 및 분석된 근본 원인을 포함하여 현재 인시던트에 대한 요약을 나열합니다.

  • 기본 정보에는 다이어그램, "영향 시작 및 종료 시간", "인시던트 심각도" 및 "포함된 총 변칙"이 포함된 "상위 영향 계열"이 포함됩니다. 이를 읽어 보면 진행 중인 문제와 그 영향에 대한 기본적인 이해를 얻을 수 있습니다.

  • 작업 및 추적은 진행 중인 인시던트에 대한 팀 공동 작업을 용이하게 하는 데 사용됩니다. 경우에 따라 한 인시던트가 팀 간 구성원의 분석 및 해결 노력을 포함해야 할 수 있습니다. 인시던트를 볼 수 있는 권한이 있는 모든 사용자는 작업 또는 추적 이벤트를 추가할 수 있습니다.

    예를 들어 인시던트를 진단하고 근본 원인을 식별한 후 엔지니어는 "사용자 지정된" 형식의 추적 항목을 추가하고 주석 섹션에 근본 원인을 입력할 수 있습니다. 상태 "활성"으로 둡니다. 그런 다음 다른 팀원이 동일한 정보를 공유하고 수정 작업을 하는 사람이 있다는 것을 알 수 있습니다. "Azure DevOps" 항목을 추가하여 특정 작업 또는 버그로 인시던트를 추적할 수도 있습니다.

  • 분석된 근본 원인은 자동으로 분석되는 결과입니다. Metrics Advisor는 동일한 타임스탬프에서 서로 다른 차원 값을 사용하여 하나의 메트릭 내에서 시계열에 캡처되는 모든 변칙을 분석합니다. 그런 다음 상관 관계를 수행하고 관련 변칙을 그룹화하기 클러스터링 근본 원인 조언을 생성합니다.

Incident summary

여러 차원이 있는 메트릭의 경우 여러 변칙이 동시에 검색되는 경우가 일반적입니다. 그러나 이러한 변칙은 동일한 근본 원인을 공유할 수 있습니다. 모든 변칙을 하나씩 분석하는 대신 분석된 근본 원인을 활용하는 것이 현재 인시던트 진단에 가장 효율적인 방법입니다.

2단계: 차원 간 진단 인사이트 보기

기본 정보 및 자동 분석 인사이트를 얻은 후에는 "진단 트리"를 사용하여 전체적인 방식으로 동일한 메트릭 내의 다른 차원에 대한 비정상적인 상태 대한 자세한 정보를 얻을 수 있습니다.

여러 차원이 있는 메트릭의 경우 Metrics Advisor는 시계열을 진단 트리라는 계층 구조로 분류합니다. 예를 들어 "revenue" 메트릭은 "region" 및 "category"의 두 가지 차원으로 모니터링됩니다. 구체적인 차원 값에도 불구하고 "SUM"처럼 집계된 차원 값이 있어야 합니다. 그런 다음 " region" = "SUM" 및 "category" = "SUM" 의 시계열이 트리 내의 루트 노드로 분류됩니다. "SUM" 차원에서 변칙이 캡처될 때마다 드릴다운하고 분석하여 부모 노드 변칙에 가장 많이 기여한 특정 차원 값을 찾을 수 있습니다. 각 노드를 선택하여 확장하고 자세한 정보를 확인합니다.

Cross dimension diagnostic using diagnostic tree

  • 메트릭에서 “집계” 차원 값을 사용하려는 경우

    Metrics Advisor는 차원에 대해 "롤업"을 수행하여 "집계된" 차원 값을 계산하도록 지원합니다. 진단 트리는 "SUM", "AVG", "MAX","MIN","COUNT" 집계에 대한 진단을 지원합니다. "집계된" 차원 값을 사용하도록 설정하려면 데이터 온보딩 중에 "롤업" 함수를 사용하도록 설정할 수 있습니다. 메트릭이 수학적으로 계산 가능 하고 집계된 차원에 실제 비즈니스 가치가 있는지 확인하세요.

    Roll-up settings

  • 메트릭에 “집계” 차원 값이 없는 경우

    메트릭에 "집계된" 차원 값이 없고 데이터 온보딩 중에 "롤업" 함수가 활성화되지 않은 경우 "집계된" 차원에 대해 계산된 메트릭 값은 없으며 트리에 회색 노드로 표시되고 자식 노드를 보기 위해 확장될 수 있습니다.

진단 트리의 범례

진단 트리에는 다음과 같은 세 가지 종류의 노드가 있습니다.

  • 실제 메트릭 값이 있는 시계열에 해당하는 파란색 노드입니다.
  • 메트릭 값이 없는 가상 시계열에 해당하는 회색 노드는 논리 노드입니다.
  • 현재 인시던트의 영향을 가장 많이 받은 시계열에 해당하는 빨간색 노드입니다.

각 노드에 대해 비정상적인 상태 노드 테두리의 색으로 설명됩니다.

  • 빨간색 테두리 는 인시던트 타임스탬프에 해당하는 시계열에 캡처된 변칙이 있음을 의미합니다.
  • 빨간색이 아닌 테두리 는 인시던트 타임스탬프에 해당하는 시계열에 캡처된 변칙이 없음을 의미합니다.

표시 모드

진단 트리에는 변칙 계열만 표시하거나 주요 비율을 표시하는 두 가지 표시 모드가 있습니다.

  • 변칙 계열 모드 만 표시하면 고객이 다른 계열에 캡처된 현재 변칙에 집중하고 영향을 받는 상위 계열의 근본 원인을 진단할 수 있습니다.
  • 주요 비율을 표시하면 고객이 영향을 받은 상위 시리즈의 주요 비율에 대한 비정상적인 상태 검사 수 있습니다. 이 모드에서 트리는 변칙이 검색된 계열과 변칙이 없는 계열을 모두 표시합니다. 그러나 중요한 시리즈에 더 집중합니다.

분석 옵션

  • 델타 비율 표시

    "델타 비율"은 부모 노드 델타에 비해 현재 노드 델타의 백분율입니다. 수식은 다음과 같습니다.

    (현재 노드의 실제 값 - 현재 노드의 예상 값) / (부모 노드의 실제 값 - 부모 노드의 예상 값) * 100%

    이 비율은 부모 노드 델타의 주요 기여를 분석하는 데 사용됩니다.

  • 값 비율 표시

    "값 비율"은 부모 노드 값과 비교하여 현재 노드 값의 백분율입니다. 수식은 다음과 같습니다.

    (현재 노드의 실제 값/부모 노드의 실제 값) * 100%

    이 비율은 전체에서 현재 노드의 비율을 평가하는 데 사용됩니다.

고객은 "진단 트리"를 사용하여 현재 인시던트 근본 원인을 특정 차원으로 찾을 수 있습니다. 이렇게 하면 각 개별 변칙을 보거나 다른 차원을 피벗하여 주요 변칙 기여도를 찾으려는 고객의 노력이 크게 제거됩니다.

3단계: “메트릭 그래프”를 사용하여 메트릭 간 진단 인사이트 보기

경우에 따라 단일 메트릭의 비정상적인 상태 검사 문제를 분석하기는 어렵지만 여러 메트릭의 상관 관계를 함께 지정해야 합니다. 고객은 메트릭 간 관계를 나타내는 메트릭 그래프를 구성할 수 있습니다. 시작하는 메트릭 그래프를 작성하는 방법을 참조하세요.

"메트릭 그래프" 내의 근본 원인 차원에 대한 변칙 상태 확인

위의 차원 간 진단 결과를 사용하여 근본 원인은 특정 차원 값으로 제한됩니다. 그런 다음, “메트릭 그래프”를 사용하고 분석된 근본 원인 차원으로 필터링하여 다른 메트릭의 변칙 상태를 확인합니다.

예를 들어 "수익" 메트릭에 캡처된 인시던트가 있는 경우 영향을 받은 상위 계열은 "region" = "SUM"이 있는 글로벌 지역에 있습니다. 차원 간 진단을 사용하여 근본 원인은 "region" = "Karachi"에 있습니다. "수익", "비용", "DAU", "PLT(페이지 로드 시간)" 및 "CHR(캐시 적중률)" 메트릭을 포함하여 미리 구성된 메트릭 그래프가 있습니다.

Metrics Advisor는 "region" = "Karachi"의 근본 원인 차원을 기준으로 메트릭 그래프를 자동으로 필터링하고 각 메트릭의 변칙 상태 표시합니다. 고객은 메트릭과 변칙 상태 간 관계를 분석하여 최종 근본 원인에 대한 추가 인사이트를 얻을 수 있습니다.

Cross metrics analysis

메트릭 그래프에 근본 원인 차원 필터를 적용하면 현재 인시던트 타임스탬프의 각 메트릭에 대한 변칙이 자동으로 적용됩니다. 이러한 변칙은 현재 인시던트에서 식별된 근본 원인과 관련이 있어야 합니다.

Auto related anomalies

다음 단계