Insights를 사용하여 여러 Azure Stack HCI 클러스터 모니터링

적용 대상: Azure Stack HCI, 버전 22H2

이 문서에서는 Insights를 사용하여 여러 Azure Stack HCI 클러스터를 모니터링하는 방법을 설명합니다. 단일 Azure Stack HCI 클러스터는 Insights를 사용하여 Azure Stack HCI 모니터링을 참조하세요.

중요

Azure Stack HCI 클러스터를 등록하고 2023년 11월 이전에 Insights를 구성한 경우 서버용 Arc, VM Insights, 클라우드용 Defender 또는 Sentinel과 같은 AMA(Azure Monitor 에이전트)를 사용하는 특정 기능이 로그 및 이벤트 데이터를 올바르게 수집하지 못할 수 있습니다. 문제 해결 지침은 2023년 11월 이전에 등록된 클러스터 문제 해결 섹션을 참조하세요.

이점, 필수 구성 요소 및 각 클러스터에서 Insights를 사용하도록 설정하는 방법에 대한 자세한 내용은 혜택, 필수 구성 요소인사이트 사용을 참조하세요.

빠른 소개는 비디오를 시청하세요.

상태, 성능 및 사용 인사이트 보기

Insights는 Log Analytics 작업 영역에 데이터를 저장하므로 시간이 지남에 따라 강력한 집계 및 필터링을 제공하고 데이터 추세를 분석할 수 있습니다. Insights에 대한 직접적인 비용은 없습니다. 사용자는 수집된 데이터의 양과 Log Analytics 작업 영역의 데이터 보존 설정에 따라 요금이 청구됩니다.

Azure Monitor > Insights 허브 > Azure Stack HCI에서 Insights에 액세스할 수 있습니다. 보기 간에 전환할 탭이 표시됩니다. 모니터링에 추가, 클러스터 상태, 서버, 가상 머신, 스토리지.

결과 필터링

시각화는 구독 간에 필터링할 수 있습니다. 다음 드롭다운 메뉴에 따라 결과를 필터링할 수 있습니다.

  • 시간 범위: 이 필터를 사용하면 추세 보기의 범위를 선택할 수 있습니다. 기본값은 지난 24시간입니다.
  • 구독: Azure Stack HCI 클러스터를 등록한 구독을 표시합니다. 이 필터에서 여러 구독을 선택할 수 있습니다.
  • HCI 클러스터: 선택한 시간 범위에서 로그 및 모니터링 기능을 사용하도록 설정된 등록된 Azure Stack HCI 클러스터를 Lists. 이 필터에서 여러 클러스터를 선택할 수 있습니다.
  • 리소스 그룹: 이 필터를 사용하면 리소스 그룹 내의 모든 클러스터를 선택할 수 있습니다.

모니터링에 추가

이 기능은 사용자가 모니터링하지 않는 클러스터에 대한 세부 정보를 제공합니다. 클러스터 모니터링을 시작하려면 클러스터를 선택하여 해당 클러스터를 연 다음 , Capabilities > Insights를 선택합니다. 클러스터가 표시되지 않으면 최근에 Azure에 연결되었는지 확인합니다.

모니터링할 클러스터를 선택하는 스크린샷

Description 예제
클러스터 클러스터의 이름입니다. 27cls1
Azure 연결 상태 HCI 리소스 상태. 연결됨
OS 버전 운영 체제는 서버에 빌드됩니다. 10.0.20348.10131

기본적으로 그리드 보기에는 처음 250개의 행이 표시됩니다. 다음 이미지와 같이 표 행을 편집하여 값을 설정할 수 있습니다.

그리드 값을 설정하기 위한 화면을 보여 주는 스크린샷

다음 이미지와 같이 Excel로 내보내기를 선택하여 Excel에서 세부 정보를 내보낼 수 있습니다.

Excel로 내보내기 위한 링크를 보여 주는 스크린샷

Excel은 다음과 같이 Azure 연결 상태 제공합니다.

  • 0: 등록되지 않음
  • 1: 연결이 끊김
  • 2: 최근이 아님
  • 3: 연결됨

클러스터 상태

이 보기는 클러스터의 상태에 대한 개요를 제공합니다.

클러스터 상태 개요 정보를 보여 주는 스크린샷

Description 예제
클러스터 클러스터의 이름입니다. 27cls1
마지막으로 업데이트한 날짜 서버가 마지막으로 업데이트된 시기의 타임스탬프입니다. 4/9/2022, 12:15:42 오후
상태 클러스터의 서버 리소스 상태를 제공합니다. 정상, 경고, 위험 또는 기타일 수 있습니다. 정상
오류 리소스 오류를 발생시킨 리소스에 대한 설명입니다. 서버, StoragePool, 하위 시스템
총 서버 수 클러스터 내의 서버 수입니다. 4

클러스터가 없거나 기타 상태 표시되는 경우 클러스터에 사용되는 Log Analytics 작업 영역으로 이동하여 에이전트 구성microsoft-windows-health/operational 로그에서 데이터를 캡처하는지 확인합니다. 또한 클러스터가 최근에 Azure에 연결되었는지 확인하고 클러스터가 이 통합 문서에서 필터링되지 않는지 검사.

서버

이 보기에서는 서버 상태 및 성능 및 선택한 클러스터의 사용량에 대한 개요를 제공합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 서버 이벤트 ID 3000 을 사용하여 빌드됩니다. 각 행을 추가로 확장하여 노드 상태 상태 확인할 수 있습니다. 클러스터 및 서버 리소스와 상호 작용하여 해당 리소스 페이지로 이동할 수 있습니다.

서버의 상태를 보여 주는 스크린샷

가상 머신

이 보기는 선택한 클러스터에 있는 모든 VM의 상태를 제공합니다. 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 가상 머신 이벤트 ID 3003 을 사용하여 빌드됩니다. 각 행을 추가로 확장하여 클러스터의 서버 간에 VM의 배포를 볼 수 있습니다. 클러스터 및 노드 리소스와 상호 작용하여 해당 리소스 페이지로 이동할 수 있습니다.

가상 머신의 상태를 보여 주는 스크린샷

메트릭 Description 예제
클러스터 > 서버 클러스터의 이름입니다. 확장할 때 클러스터 내의 서버를 표시합니다. Sample-VM-1
마지막 업데이트 날짜 서버가 마지막으로 업데이트된 날짜/시간 스탬프입니다. 4/9/2022, 12:24:02 오후
총 VM 수 클러스터 내의 서버 노드에 있는 VM 수입니다. 실행 중인 2개 중 1개
실행 중 클러스터 내의 서버 노드에서 실행되는 VM 수입니다. 2
중지됨 클러스터 내의 서버 노드에서 중지된 VM 수입니다. 3
실패 클러스터 내의 서버 노드에서 실패한 VM 수입니다. 2
기타 VM이 다음 상태(알 수 없음, 시작, 스냅샷, 저장, 중지, 일시 중지, 일시 중지, 다시 시작, 일시 중단됨) 중 하나에 있는 경우 "기타"로 간주됩니다. 2

스토리지

이 보기는 모니터링되는 클러스터에서 볼륨, 사용량 및 성능의 상태를 보여 줍니다. 클러스터를 확장하여 개별 볼륨의 상태를 확인합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 볼륨 이벤트 ID 3002 를 사용하여 빌드됩니다. 위쪽의 타일은 스토리지 상태에 대한 개요를 제공합니다.

스토리지 볼륨의 상태를 보여 주는 스크린샷

메트릭 Description 예제
클러스터 > 볼륨 클러스터의 이름입니다. 확장할 때 클러스터 내의 볼륨을 표시합니다. AltaylCluster1 > ClusterPerformanceHistory
마지막으로 업데이트한 날짜 스토리지가 마지막으로 업데이트된 날짜/시간 스탬프입니다. 2022년 4월 14일, 오후 2:58:55
볼륨 상태 볼륨의 상태. 정상, 경고, 위험 또는 기타일 수 있습니다. 정상
크기 보고 기간 동안 디바이스의 총 용량(바이트). 25B
사용량 보고 기간 동안 사용 가능한 용량의 백분율입니다. 23.54%
Iops 초당 입출력 작업 수입니다. 45/s
추세 IOPS 추세입니다.
처리량 Application Gateway에서 제공하는 초당 바이트 수입니다. 5B/s
추세(B/s) 처리량 추세입니다.
평균 대기 시간 대기 시간은 I/O 요청을 완료하는 데 걸리는 평균 시간입니다. 334 μs

인사이트 사용자 지정

사용자 환경은 Azure Monitor 통합 문서 템플릿을 기반으로 하므로 사용자는 시각화 및 쿼리를 편집하고 사용자 지정 통합 문서로 저장할 수 있습니다.

Azure Monitor > Insights 허브 > Azure Stack HCI의 시각화를 사용하는 경우 다른 이름으로 저장 편집 > 사용자 지정 > 을 선택하여 수정된 버전의 복사본을 사용자 지정 통합 문서에 저장합니다.

통합 문서는 리소스 그룹 내에 저장됩니다. 리소스 그룹에 액세스할 수 있는 모든 사용자는 사용자 지정된 통합 문서에 액세스할 수 있습니다.

대부분의 쿼리는 KQL(Kusto 쿼리 언어)을 사용하여 작성됩니다. 일부 쿼리는 Resource Graph 쿼리를 사용하여 작성됩니다. 자세한 내용은 다음 문서를 참조하세요.

지원

Insights에 대한 지원 티켓을 열려면 모니터링 & 관리에서 Azure Stack HCI용 Insights 서비스 유형을 사용합니다.

이벤트 로그 채널

인사이트 및 모니터링 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널을 기반으로 합니다. 모니터링을 사용하면 이 채널의 데이터가 Log Analytics 작업 영역에 저장됩니다.

덤프 캐시 간격 보기 및 변경

캐시를 덤프하는 기본 간격은 3600초(1시간)로 설정됩니다.

다음 PowerShell cmdlet을 사용하여 캐시 덤프 간격 값을 봅니다.

Get-ClusterResource "sddc management" | Get-ClusterParameter

다음 cmdlet을 사용하여 캐시 덤프의 빈도를 변경합니다. 0으로 설정하면 이벤트 게시가 중지됩니다.

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

로그 채널의 Windows 이벤트

이 채널에는 5개의 이벤트가 포함되어 있습니다. 각 이벤트에는 클러스터 이름 및 Azure Resource Manager ID가 EventData로 있습니다.

이벤트 ID 이벤트 유형
3000 서버
3001 드라이브
3002 볼륨
3003 가상 머신
3004 클러스터

서버 이벤트 3000 RenderedDescription 열 값

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

대부분의 변수는 이 JSON 정보에서 설명합니다. 그러나 아래 표에는 이해하기 어려운 몇 가지 변수가 나열되어 있습니다.

변수 Description
m_servers 서버 노드의 배열입니다.
m_statusCategory 서버의 상태 상태.
m_status 서버의 상태입니다. 하나 또는 두 개의 값을 포함할 수 있는 배열입니다. 첫 번째 값은 필수(0-4)입니다. 두 번째 값은 선택 사항(5-9)입니다.

m_statusCategory 변수의 값은 다음과 같습니다.

의미
0 정상
1 경고
2 비정상
255 기타

m_status 변수의 값은 다음과 같습니다.

의미
0 위로
1 아래로
2 유지 관리 중
3 조인
4 보통
5 격리
6 격리됨
7 배출
8 드레이닝 완료됨
9 드레이닝 실패
0xffff Unknown

드라이브 이벤트 3001 RenderedDescription 열 값

드라이브 이벤트 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

볼륨 이벤트 3002 RenderedDescription 열 값

볼륨 이벤트 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

대부분의 변수는 위의 JSON 정보에서 설명합니다. 그러나 아래 표에는 이해하기 어려운 몇 가지 변수가 나열되어 있습니다.

변수 Description
VolumeList 볼륨의 배열입니다.
m_StatusCategory 볼륨의 상태 상태.
m_Status 볼륨의 상태입니다. 하나 또는 두 개의 값을 포함할 수 있는 배열입니다. 첫 번째 값은 필수(0-4)입니다. 두 번째 값은 선택 사항(5-9)입니다.

m_statusCategory 변수의 값은 다음과 같습니다.

의미
0 정상
1 경고
2 비정상
255 기타

m_status 변수의 값은 다음과 같습니다.

의미
0 Unknown
1 기타
2 확인
3 복구 필요
4 스트레스
5 예측 실패
6 오류
7 복구할 수 없는 오류
8 시작 중
9 중지 중
10 중지됨
11 서비스 중
12 연락처 없음
13 통신 끊김
14 중단됨
15 Dormant
16 오류 발생 엔터티 지원
17 완료됨
18 전원 모드
19 재배치
0xD002 아래로
0xD003 다시 동기화 필요

가상 머신 이벤트 3003 RenderedDescription 열 값

가상 머신 이벤트 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

클러스터 이벤트 3004 RenderedDescription 열 값

클러스터 이벤트 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

수집되는 데이터에 대한 자세한 내용은 상태 관리 서비스 오류를 참조하세요.

다음 단계

관련 정보는 다음을 참조하세요.