스토리지 다시 동기화 이해 및 모니터링

적용 대상: Windows Server 2022, Windows Server 2019, Azure Stack HCI, 버전 21H2 및 20H2

Storage 다시 동기화 경고는 Azure Stack HCI 및 Windows Server에서 저장소 공간 다이렉트 기능입니다. 이를 통해 상태 관리 서비스 오류를 throw하여 다시 동기화에 대해 알릴 수 있습니다. 이렇게 하면 실수로 더 많은 서버를 중단하지 못하게 되므로 클러스터가 다운되는 여러 장애 도메인에 영향을 줄 수 있습니다.

이 문서에서는 스토리지 재동기 및 저장소 공간 다이렉트 사용하여 장애 조치(failover) 클러스터에서 모니터링하는 방법에 대한 개요를 제공합니다.

스토리지 다시 동기화 정보

스토리지가 동기화에서 벗어날 수 있는 방법을 이해하는 간단한 예제로 시작해 보겠습니다. 공유 없음(로컬 드라이브에만 해당) 분산 스토리지 솔루션은 이러한 동작을 나타냅니다. 다음 섹션에서는 한 서버 노드가 다운되면 스토리지가 동기화되는 방법을 보여 줍니다. 드라이브는 다시 온라인 상태가 될 때까지 업데이트되지 않습니다. 이 동작은 하이퍼컨버지드 아키텍처에 적용할 수 있습니다.

문자열 "HELLO"를 저장하려는 경우를 가정해 보겠습니다.

Image of a s c i i of a hello string.

3방향 미러 복원력이 있다고 가정하면 이 문자열의 복사본이 세 개 있습니다. 서버 #1을 일시적으로 중단하는 경우(유지 관리를 위해) 복사 #1에 액세스할 수 없습니다.

Image showing you cannot access copy number 1 if you take down server number 1.

현재 문자열을 "HELLO"에서 "HELP!"로 업데이트한다고 가정해 보겠습니다.

Image of a s c i i of a help! string.

문자열을 업데이트한 후 #2 및 #3 복사가 성공적으로 업데이트됩니다. 그러나 서버 #1이 일시적으로 중단되었기 때문에(유지 관리를 위해) #1 복사에 액세스할 수 없습니다.

GIF of writing to copy number 2 and 3.

이제 동기화할 수 없는 데이터로 #1을 복사했습니다. 운영 체제는 세분화된 더티 지역 추적을 사용하여 동기화되지 않은 비트를 추적합니다. 이렇게 하면 서버 #1이 다시 온라인 상태가 되면 #2 또는 #3 복사에서 데이터를 읽고 #1 복사에서 데이터를 덮어쓰면 변경 내용을 동기화할 수 있습니다. 이 방법을 사용하면 서버 #2 또는 서버 #3의 모든 데이터를 다시 합성하는 대신 부실한 데이터만 복사해야 합니다.

GIF of overwriting to copy number 1.

이전 섹션에서는 데이터가 동기화에서 벗어날 수 있는 방법을 설명했습니다. 그러나 이것은 높은 수준에서 어떤 모습일까요? 3개의 서버 하이퍼 수렴형 클러스터가 있다고 가정합니다. 서버 #1이 유지 관리 중이면 서버가 다운된 것으로 표시됩니다. 서버 #1을 백업하면 세분화된 더티 지역 추적을 사용하여 모든 스토리지를 다시 동기화하기 시작합니다(이전 섹션에서 설명). 데이터가 모두 다시 동기화되면 모든 서버가 위로 표시됩니다.

다음 GIF는 하이퍼 수렴형 클러스터에서 스토리지 다시 동기화가 작동하는 방법을 보여 줍니다.

GIF of admin view of resync.

스토리지 다시 동기화를 모니터링하는 방법

Windows Server 2019부터 스토리지를 다시 동기화할 때 표시되는 상태 관리 서비스 새 오류를 추가했습니다.

PowerShell에서 이 오류를 보려면 다음 cmdlet을 실행합니다.

Get-HealthFault

이 새 오류는 PowerShell, 클러스터 유효성 검사 보고서 및 상태 오류를 기반으로 하는 다른 위치에 나타납니다.

심층 보기를 위해 다음과 같이 PowerShell에서 시계열 데이터베이스를 쿼리할 수 있습니다.

Get-ClusterNode | Get-ClusterPerf -ClusterNodeSeriesName ClusterNode.Storage.Degraded

다음은 출력의 예입니다.

Object Description: ClusterNode Server1

Series                       Time                Value Unit
------                       ----                ----- ----
ClusterNode.Storage.Degraded 01/11/2019 16:26:48     214 GB

Windows Admin Center 상태 오류를 사용하여 클러스터 노드의 상태 및 색을 설정합니다. HCI 대시보드에서 이 새로운 오류를 사용하면 클러스터 노드가 빨간색에서 녹색으로 바로 이동하지 않고 빨간색(아래쪽)에서 노란색(다시 합성)에서 녹색(위쪽)으로 전환할 수 있습니다.

다음 이미지는 Windows Server 2016 스토리지 다시 동기화가 진행되는 방식과 Windows Server 2019를 비교합니다.

Image of Windows Server 2016 vs Window Server 2019 view of resync.

전체 스토리지 재동기 진행률을 보여줌으로써 동기화되지 중인 데이터의 양과 시스템이 앞으로 진행 중인지 여부를 정확하게 알 수 있습니다. Windows Admin Center 다음 스크린샷과 같이 대시보드로 이동하여 새 경고를 확인합니다.

Screen capture of alert in Windows Admin Center.

이 경고는 다시 동기화가 발생할 때 사용자에게 알리는 데 유용하므로 실수로 더 많은 서버를 중단하지 않습니다(이로 인해 여러 장애 도메인이 영향을 받아 클러스터가 다운될 수 있음).

Windows Admin Center 서버별로 스토리지 다시 동기화가 표시되는 방식에 대한 자세한 보기를 보려면 서버 페이지로 이동하고 인벤토리를 클릭한 다음 특정 서버를 선택합니다. 서버로 이동하여 Storage 차트를 확인하여 바로 위에 정확한 숫자로 자주색 줄로 복구해야 하는 데이터의 양을 확인합니다. 이 크기는 서버가 다운되면(더 많은 데이터를 다시 동기화해야 하는 경우) 증가하며, 서버가 다시 온라인 상태가 되면(데이터가 동기화 중임) 점차 감소합니다. 복구해야 하는 데이터의 양이 0이면 스토리지가 다시 동기화됩니다. 이제 필요한 경우 서버를 자유롭게 삭제할 수 있습니다.

다음 스크린샷은 Windows Admin Center 서버 보기를 표시합니다.

Screen capture of server view in Windows Admin Center.

Windows Server 2016 스토리지 다시 동기화를 모니터링하는 방법

Windows Server 2019 이상에서 사용할 수 있는 경고는 스토리지 계층에서 발생하는 일에 대한 전체적인 보기를 가져오는 데 유용합니다. cmdlet에서 Get-StorageJob 가져올 수 있는 정보가 요약되어 있습니다. 이 cmdlet은 다음 예제 출력과 같이 스토리지 공간에 대한 복구 작업과 같은 장기 실행 스토리지 모듈 작업에 대한 정보를 반환합니다.

Get-StorageJob

다음은 출력 예제입니다.

Name                  ElapsedTime           JobState              PercentComplete       IsBackgroundTask
----                  -----------           --------              ---------------       ----------------
Regeneration          00:01:19              Running               50                    True

스토리지 작업이 볼륨당 나열되므로 이 보기는 더 세분화됩니다. 실행 중인 작업 목록을 볼 수 있으며 개별 진행률을 추적할 수 있습니다. 이 cmdlet은 Windows Server 2016 및 2019 모두에서 작동합니다.

추가 참조