클라우드 모니터링의 관찰 가능성

아티클
10/07/2023

이 문서는 클라우드 모니터링 가이드의 시리즈의 일부입니다.

아래 섹션에서는 서비스를 모니터링하는 방법을 개선하기 위해 지속적으로 관찰하고 반복하여 운영 완성도를 높이는 것을 목표로 합니다. 조직에서 각 모니터링 솔루션에 대한 관찰 가능성을 설정하여 일관된 모니터링 전략을 더 빠르게 구현하는 방법을 알아봅니다.

관찰 가능성 정의

관찰성과 모니터링은 서로를 보완하지만 주목할 만한 차이점이 있습니다.

모니터링: 정보를 수집하고 해당 조건을 모니터링하도록 구성한 것에 따라 문제를 감지했음을 알려줍니다. 알려진 오류 또는 예측 가능한 오류를 모니터링하고 있습니다.
관찰성: 출력 데이터를 확인하여 시스템 내에서 발생하는 일을 이해하는 기능입니다. 관찰 솔루션은 이 데이터를 분석하여 시스템의 상태를 평가하고 IT 인프라의 문제를 해결하는 방법을 찾는 데 도움이 됩니다.

관찰성은 먼저 모니터링 소비자가 서비스의 정상적인 작동으로 간주되는 것을 이해하도록 유도합니다. 즉, 최대한 빨리 전체 가시성을 검색합니다.

초기 가시성을 달성하면 초기 수준의 가시성을 기반으로 실행 가능한 경고를 개발하고, 유용한 대시보드를 만들고, AIOps 솔루션을 평가 합니다. 이러한 인사이트를 통해 기본 메트릭 및 로그 모니터링 데이터에 익숙해질 수 있습니다.

참고 항목

이는 팀이 빌드, 테스트 및 배포하기 전에 종이에 먼저 모든 모니터링 요구 사항을 정의하기 위해 노력했을 때 사용한 방식과는 반대입니다.

모니터링 계획이 애플리케이션, 클라우드 인프라 또는 Azure Platform을 대상으로 하는지 여부에 관계없이 첫 번째 단계는 관찰 가능성을 설정하는 것입니다.

이 방법은 또한 계획을 단순화합니다. 모든 경우에 총 가시성은 세 가지 차원 또는 측면에서 충분한 가시성을 달성하고 유지하는 것을 의미합니다.

심층 모니터링: 의미 있고 관련된 신호를 수집합니다.
엔드투엔드 또는 폭 모니터링: 스택의 가장 낮은 계층에서 애플리케이션까지.
상태 모델 전체에서 모니터링: 가용성, 성능, 보안 및 연속성과 같은 상태 측면에 집중합니다.

Three-sided cube example

관찰성은 IT 팀에만 초점을 맞추는 것 이상입니다. 필수 목표는 최종 사용자가 시스템을 사용할 수 있고 SLO(서비스 수준 목표)가 충족되도록 하는 것입니다.

솔루션 및 관찰 가능성 모니터링

인프라 및 애플리케이션 모니터링은 복잡할 수 있습니다. 비즈니스 변환은 기술을 적용하여 전략을 달성하고 구체화하는 데 도움이 됩니다. 클라우드는 모니터링의 복잡한 특성에 더욱 영향을 미쳤습니다.

이는 다음과 같은 방법으로 증명됩니다.

디지털 변환 변화: 기업의 디지털 변환 노력은 클라우드 기술의 하이퍼 악용으로 전환됩니다.
기본 제공 모니터링: 모니터링은 온-프레미스에서 관리하는 별도의 도구와 비교해 Azure 리소스 및 리소스 그룹에 포함됩니다.
Azure Monitor와 같은 광범위한 모니터링 클라우드 네이티브 아키텍처는 SIEM(보안 인시던트 및 이벤트 관리) 도구와 유사합니다. Azure Monitor는 기존 온-프레미스 도구보다 광범위하고 로그 기반이며 훨씬 더 유연합니다.

설계자는 운영자와 마찬가지로 인프라 구성 요소 또는 애플리케이션에서 내보내는 진단 정보를 이해해야 합니다.

다변량, 동적, 시계열, 이벤트, 상태 저장 및 원격 메트릭 로그 스트림을 중요한 인텔리전스로 결합하는 방법은 다음과 같습니다.

팀 지식: 모니터링 대상을 깊이 이해하는 개발자 또는 시스템 엔지니어의 지식과 경험입니다.
문제 해결 환경: 데이터를 사용하여 문제의 원인을 찾거나 찾는 데 대한 지원 및 문제 해결 환경입니다.
역사에서 학습: 과거의 인시던트를 검토하여 나중에 자동 수정할 수 있는 비기술 이유를 찾습니다.
설명서: 소프트웨어 또는 하드웨어 공급업체의 설명서, 소프트웨어, 교육 또는 컨설팅에 대한 지침입니다.

Microsoft와 파트너는 System Center Operations Manager용 관리 팩을 제공합니다. 관리 팩은 기술별로 다릅니다. 예를 들어 SQL 관리 팩을 가져오는 경우 Operations Manager는 SQL Server를 호스트하는 서버를 자동으로 검색하고 대상으로 지정하고 모니터링을 시작합니다. 여기서 관찰 성은 다소 미리 정의되어 있습니다. Operations Manager는 주로 클라우드 서비스를 기준으로 구성 요소 및 아키텍처 디자인 패턴에서 수정되는 경향이 있는 온-프레미스 인프라용으로 설계되었습니다.

클라우드에서는 선택할 수 있는 서비스 유형에 엄청난 유연성 이 있습니다. 모니터링에는 시간이 지남에 따라 서비스가 변경되는 방식이 포함되며 동적, 글로벌 및 복원력이 있을 수 있습니다. Azure Monitor를 사용하면 Operations Manager의 관리 팩과 유사한 기능을 제공하는 Azure Monitor Insights에 포함된 기존 통합 문서를 활용할 수 있습니다.

관찰의 기술

관찰성은 모니터링되는 내용과 방법에 의존합니다.

Azure에는 여러 모니터링 데이터 원본이 있으며, 각각은 어떤 동작 방식에 대해 서로 다른 관점을 제공합니다. Azure에는 이 데이터의 다양한 측면을 분석하는 데 도움이 되는 다양한 도구가 포함되어 있습니다.

플랫폼 관찰

Azure에서 Microsoft는 다양한 플랫폼 로그를 통해 서비스 공급자의 관점을 제공합니다.

Azure의 서비스는 시간이 지남에 따라 예측할 수 없는 다양한 방식으로 변경됩니다. 이 동작을 동적이라고 합니다. 시간이 지남에 따라 서비스를 관찰하는 클라우드 서비스 관리자도 다음을 고려해야 합니다.

리소스 재배치: 리소스는 위치 또는 지리 간에 마이그레이션하거나 이동할 수 있습니다.
리소스 변경: 리소스가 추가, 삭제 또는 수정됩니다.
소비: 사용량은 다양한 서비스 및 구현에 따라 다릅니다. 비용, 소비 및 예상 지출을 모니터링하는 데 유의하세요.

다음은 플랫폼 관찰을 가능하게 하는 도구의 몇 가지 예입니다.

로그 원본	설명
서비스 상태	Microsoft에서 보고한 서비스 인시던트 및 계획된 기본 테넌트.
Azure Resource Health	리소스의 현재 및 과거 상태에 대해 보고합니다.
Azure Monitor 활동 로그.	구독에 배포된 모든 리소스에서 구독 수준 이벤트를 보고합니다.
Azure Monitor 변경 분석	Azure 애플리케이션의 변경 내용을 보고하고 MTTR(평균 복구 시간)을 줄입니다.
Azure 리소스 로그	이전에 진단 로그라고도 하는 리소스 로그는 데이터 평면에서 Azure 리소스 내에서 수행된 작업에 대해 보고합니다.
AzureAD(Microsoft Entra 보고서) 로그	로그인 활동 기록 및 지정된 테넌트에 대한 Microsoft Entra ID의 변경 내용 감사 내역을 보고합니다.
Azure Advisor	Azure Advisor를 사용하여 모범 사례에 따라 권장 솔루션을 받아 Azure 배포를 최적화합니다.
Microsoft Cloud for Sovereignty 투명성 로그	리소스에 액세스하는 시기와 리소스에 액세스하는 Microsoft 엔지니어를 보고합니다. 투명성 로그는 고객 리소스에 대한 액세스에 대한 세부 정보를 제공합니다. 또한 로그는 액세스 권한이 없을 때 이를 알립니다. 이는 일반적입니다.

가시성은 최소한의 실행 가능한 모니터링 계획으로 시작하여 점진적으로 발전하고 있으며 도구와 프로세스를 통합하려는 노력이 진행 중입니다. 데이터(메트릭, 로그 및 트랜잭션)에 익숙해짐에 따라 해당 리소스 또는 애플리케이션의 증상 또는 문제의 동작과 징후를 이해할 수 있습니다. 데이터에 익숙해지면 Azure Monitor 및 데이터 작업에 대한 신뢰를 빌드할 수 있습니다.

관찰 가능성을 통해 자신감 얻기

적절한 관찰을 통해 자신감을 얻고 원인을 실현하고 도움이 될 수 있는 답을 찾을 수 있습니다. 데이터에 대해 더 많이 배울수록 프로세스가 더 진화하고 팀이 인사이트를 얻습니다.

장면을 설정하려면 다음 몇 가지 방법으로 관찰 가능성을 확인할 수 있습니다.

예측 가능성 향상: 리소스 및 서비스에 대한 모니터링을 개선하면 문제를 사전에 식별하여 나중에 예측 가능하고 관리할 수 있습니다.
변칙 조기 검색: 관찰성을 통해 예상 동작에서 이상 또는 편차를 적시에 감지하여 잠재적인 문제의 영향을 줄일 수 있습니다.
근본 원인 식별: 자세한 관찰성 데이터는 문제의 근본 원인을 식별하여 더 빠른 해결을 가능하게 하고 되풀이를 방지하는 데 도움이 됩니다.
문제 해결 효율성 향상: 관찰 가능성을 통해 팀은 관련 데이터를 분석하고 이벤트를 상호 연결하여 복잡한 문제를 신속하게 진단하고 해결할 수 있습니다.
시스템 안정성 향상: 병목 상태, 성능 문제 및 잠재적인 오류 지점을 식별하여 관찰성은 시스템 성능을 최적화하고 전반적인 안정성을 향상시키는 데 도움이 됩니다.
고객 환경 개선: 가시성을 통해 시스템 성능이 최종 사용자에게 미치는 영향을 더 잘 이해할 수 있으므로 사전 조치를 통해 고객 만족도를 높일 수 있습니다.
공동 작업 촉진: 관찰성 플랫폼은 공유 가시성 및 데이터 액세스를 제공하여 개발자, 운영 및 지원과 같은 서로 다른 팀 간의 협력을 촉진합니다.
규정 준수: 준수성은 추적 가능성, 감사 로그를 제공하고 보안 및 개인 정보 보호 표준을 준수하여 규정 요구 사항을 충족하는 데 도움이 됩니다.
더 빠른 해결 시간: 풍부한 데이터와 인사이트를 제공함으로써 관찰성은 문제를 진단하고 해결하는 시간을 가속화하여 가동 중지 시간 및 서비스 중단을 최소화합니다.
사전 관리 용량 관리: 가시성 데이터는 리소스 수요를 예측하고, 용량 격차를 식별하고, 리소스를 사전에 조정하여 최적의 성능을 기본.
위험 완화: 관찰 가능성을 통해 잠재적 위험을 조기에 식별하여 사전 예방적 완화 조치를 가능하게 하고 심각한 영향의 가능성을 줄일 수 있습니다.
지속적인 모니터링 및 학습: 관찰성을 통해 지속적인 모니터링 및 학습을 통해 팀이 변화하는 환경, 요구 사항 및 사용자 동작에 적응할 수 있습니다.
성능 최적화: 팀은 관찰 가능성 데이터를 분석하여 성능 병목 상태를 식별하고 최적화하여 시스템 효율성을 향상시킬 수 있습니다.
노력의 우선 순위 지정: 관찰성 인사이트를 통해 팀은 작업의 우선 순위를 지정하고 식별된 문제의 위험성과 영향에 따라 리소스를 할당할 수 있습니다.
변경 관리에 대한 신뢰도: 관찰성은 변경의 영향을 파악하여 새 배포 또는 업데이트에서 예기치 않은 문제가 발생하지 않도록 합니다.
향상된 인시던트 대응: 가시성을 통해 인시던트 대응 팀은 관련 정보를 신속하게 수집하고, 컨텍스트를 이해하고, 적절한 작업을 시작할 수 있습니다.

모니터링 계획

목표 및 목표, 요구 사항 및 기타 필수 세부 정보를 설명하는 모니터링 계획을 만듭니다. 그런 다음 조직의 모든 관련 이해 관계자 간에 동의를 구합니다.

모니터링 계획은 하나 이상의 모니터링 솔루션을 개발하고 운영하는 방법을 설명해야 합니다. 프로젝트의 전략 및 계획 단계에서 모니터링 계획을 일찍 만들기 시작합니다.

계획을 만드는 동안 클라우드 모니터링 전략 설명서에 설명된 대로 최신 모니터링의 5가지 분야인 모니터링, 측정, 응답, 학습 및 개선을 기억해야 합니다.

다음은 모니터링 계획에 대한 초기 권장 개요를 제공하며, 서비스에 대한 개별 계획 또는 Azure 리소스 종류 또는 Microsoft 365 서비스와 같은 클라우드 서비스 기능을 표준화하는 경우의 주요 고려 사항으로 간주됩니다.

계획의 핵심은 서비스 공급자(솔루션을 필드로 처리할 사용자)와 소비자(가치를 운영하거나 파생하는 사람) 간의 가시성 선을 정의하는 것입니다.

비즈니스 관점

포괄적인 모니터링 계획은 사용자 중심 포커스를 포함하여 비즈니스에 필요한 모니터링 및 모니터링을 고려해야 합니다. 계획을 정의하는 동안 비즈니스 요구 사항을 문서화하고 공유하는 것이 중요하며, 다음은 계획의 이 부분의 범위를 제안합니다.

이해관계자 및 소비자
비즈니스 가치 흐름 및 프로세스
최종 사용자 관점 및 유틸리티
측정 및 보고 요구 사항
식별된 위험 및 규정 준수 제어 프레임워크
액세스 및 제어 요구 사항
비즈니스에 대한 위험

서비스 관점

포괄적인 모니터링 계획은 서비스 소유자가 모니터링에 필요한 사항을 고려해야 합니다. 계획을 정의하는 동안 요구 사항을 문서화하고 공유하는 것이 중요하며, 다음은 계획의 이 부분의 범위를 제안합니다.

이해관계자 및 소비자
역할 및 책임
서비스의 정의
액세스 및 제어 요구 사항
아키텍처 고려 사항?
계약을 뒷받침하는 공급자 및 파트너
서비스 계약(SLA, OLA)
서비스 보증 범위 식별
측정 및 보고 요구 사항
위험

기술 관점

계획의 이 섹션은 비즈니스 및 서비스 관점에서 정보를 사용하는 모니터링 솔루션을 나타냅니다. 다음은 계획의 이 부분의 범위를 제안합니다.

사용자 스토리 및 시나리오
기술적 대상(예: 네트워킹)
구성 요소 종속성 매핑
형식(예: 클라우드 네이티브, 하이브리드, 온-프레미스)
관찰
반응형
측정
튜닝 및 최적화

고려 사항

모든 관련 소비자, 이해 관계자 및 관리 수준이 의사 소통하고 정보를 제공하도록 계획을 요약합니다. 성공적인 모니터링 계획을 위해 다음 사항을 고려합니다.

주요 고려 사항

프로덕션 단계: 서비스가 라이브 상태가 되면 모니터링 솔루션을 준비해야 합니다. 계획에는 가정을 실험하고 테스트하는 데 도움이 되는 다른 구독에 테스트 또는 사전 프로덕션 구성이 포함될 수 있습니다.
전략: 계획은 모니터링 및 IT 전략에 다시 매핑하여 모니터링 목표를 임무 또는 비즈니스에 추적할 수도 있습니다.
대상: 계획에서 고려 중인 대상 자산 또는 서비스를 설명하고 분석합니다. 필요한 경우 서비스 종속성을 포함하여 모니터링할 모든 구성 요소를 매핑합니다. 커버리지 격차를 식별하고 서비스의 각 부분을 누가 소유하고 있는지 확인합니다.
솔루션: 모니터링 솔루션의 경우 소비자, 이해 관계자, 공급자, 파트너, 액세스 권한 및 도구를 식별합니다. 또한 측면, 범위, 응답, 보고서 및 대시보드(가용성, 보안, 사용자 환경 등)를 모니터링합니다.

일반적인 고려 사항

주요 고려 사항 외에도 이러한 점이 조직의 모니터링 계획에 어떻게 영향을 줄 수 있는지 더 잘 이해하려고 합니다.

MVP(최소 실행 가능한 제품): 계획에서 실행 가능한 최소 제품에 대한 성공의 모양을 정의하도록 합니다. 즉, 처음에는 라이브로 전환해야 하는 것이 무엇이며, 이에 대한 성공을 측정할 수 있습니까? 라이브 상태이면 모니터링 솔루션을 계속 발전하여 가치를 극대화할 수 있습니다.
모니터링 데이터 보호: 보안은 오늘날 모든 조직과 팀에게 중요한 측면입니다. 교육을 받고 가드레일을 알고 있는지 확인하거나, 예를 들어 로그에 중요한 모니터링 데이터를 노출하여 모니터링 솔루션에 위험을 추가하지 않도록 전문가에게 안내해 주세요.
Microsoft 365 고려: 모든 좋은 계획은 Microsoft 365를 사용하는 Azure 테넌트를 중요한 구성 요소로 간주합니다. Microsoft 365는 Microsoft Entra ID에 따라 달라지고 Azure Monitor는 엔드포인트 관리와 Microsoft 365 통합을 제공합니다.
관찰 가능성 우선: 경고에 집중하기 전에 전체 가시성에 집중합니다. 둘 다 경고하는 것은 비용이며 신속하게 경고 피로로 이어질 수 있기 때문에.
활동 모니터링: 감사, 로그인 및 활동 로그는 이제 서비스 소유자와 보안이 조각화 및 주사위를 쉽게 만들 수 있습니다. 모니터링 계획에서 관련 관련자를 위해 만들어야 하는 인사이트 및 대시보드를 포함하여 활동 모니터링을 고려해야 합니다.

다음 단계

서비스 수준 목표