운영 관리 프로세스 설정

기업이 Azure에서 워크로드를 운영하기 시작하면 다음 단계는 운영 관리 및 적합성 프로세스를 설정하는 것입니다. 이 프로세스는 이러한 워크로드에 대한 운영 상태를 열거, 구현 및 반복적으로 검토하고 최적화합니다.

운영 적합성 검토를 위한 프로세스를 통해 워크로드의 전체 포트폴리오가 성능, 안정성 및 비용에 대한 비즈니스 약속을 충족하도록 보장합니다. 이 프로세스는 중앙 IT, 클라우드 센터, 워크로드 팀의 노력을 조정하여 운영상의 우수성을 대규모로 제공합니다.

운영 적합성 검토를 위한 핵심 프로세스 설정

운영 적합성 검토를 위한 프로세스를 만들어 프로덕션 환경에서 워크로드를 실행하여 발생하는 문제와 이러한 문제를 수정하고 해결하는 방법을 완전히 이해합니다. 이 문서에서는 기업에서 이 목표를 달성하는 데 사용할 수 있는 운영 적합성 검토를 위한 개략적인 프로세스를 간략하게 설명합니다.

Microsoft의 운영 적합성

처음부터 Microsoft의 많은 팀이 Azure 플랫폼 개발에 참여했습니다. 이 정도 크기에 복잡성이 있는 프로젝트에서 품질과 일관성을 보장하기는 어렵습니다. 기본 비기능 요구 사항을 정기적으로 열거하고 구현하려면 강력한 프로세스가 필요합니다.

Microsoft가 따르는 프로세스는 이 문서에 설명된 프로세스의 기초가 됩니다.

역할 및 운영 모델 이해

운영 관리는 회사 전체에서 여러 역할을 포함하는 광범위한 분야입니다. 조직 운영 모델에 따라 이러한 역할은 중앙 집중식 운영 팀과 탈중앙화 운영 팀 간에 많은 핸드오프가 있는 행렬 환경에서 작동할 수 있습니다.

  • 중앙 IT/CCoE: 이 중앙 집중식 기술 기능은 기술 포트폴리오의 모든 기술 자산의 구성, 운영, 거버넌스 및 보안을 담당합니다.
  • 클라우드 작업: 중앙 집중식 기술 조직 내의 기능인 이 운영 기능은 기술 포트폴리오의 상태 및 운영을 관리합니다. 프로세스가 원활하게 실행되고, 프로세스의 인접한 각 역할에 필요한 도구가 있고, 각 후속 역할이 이 프로세스의 기대에 맞춰 책임을 져야 합니다.
  • 클라우드 전략: 다양한 워크로드의 운영 요구 사항을 유지하기 위해 약정을 식별하고 우선 순위를 지정하는 비즈니스에 대한 지식을 제공합니다. 또한 비즈니스 영향에 대한 완화 비용을 비교하고 수정에 대한 최종 결정을 추진합니다.
  • 워크로드 팀: 온-프레미스 또는 클라우드에서 특정 지원 애플리케이션, 서비스 및 인프라에 매핑되는 신중한 워크로드의 개발 및 운영에 대한 책임이 있습니다. 역할에는 워크로드 아키텍처에 대한 자세한 지식이 필요합니다.

각 조직의 운영 모델은 위의 역할의 책임 및 일상적인 활동을 결정합니다.

  • 중앙 집중식 작업: 중앙 IT는 운영에 대한 모든 책임을 유지합니다. 워크로드 소유자는 작업 및 구성에 대한 입력을 가질 수 있지만 프로덕션 환경을 변경할 수 없습니다. 중앙 IT 및 클라우드 운영만이 운영 적합성을 개선하기 위해 운영 변화를 제공할 수 있습니다.
  • 탈중앙화 작업: 워크로드 팀은 일반적으로 완성도 높은 CI/CD 파이프라인 및 DevOps 자동화를 통해 운영에 대한 책임을 집니다. 이 모델에서는 구성, 운영, 거버넌스 또는 보안에 대한 중앙 지원이 없습니다. 이 작업 접근 방식은 클라우드 채택 프레임워크의 범위를 벗어납니다. 이 운영 모델은 운영 지침에 대한 Azure Well-Architected Framework를 확인해야 합니다.
  • Enterprise 운영: 탁월한 클라우드 센터는 운영에 대한 책임이 있습니다. 클라우드 운영 및 워크로드 팀은 각각 운영 적합성의 특정 측면에 대한 책임을 공유합니다.

검토 목표

운영 적합성는 안정성, 성능 및 비용이라는 몇 가지 메트릭을 사용하여 포트폴리오 전체에서 평가됩니다. 이러한 속성을 함께 사용하면 포트폴리오에 있는 모든 자산의 상태 및 적합성을 신속하게 평가할 수 있습니다. 이러한 메트릭은 운영 관리의 세 가지 권한 상승에서 평가됩니다.

작업 권한 상승

  • 작업 기준(또는 향상된 기준): 기능과 관계없이 배포된 모든 자산에서 운영 적합성을 평가합니다. 이러한 광범위한 작업 보기를 통해 광범위한 변경 및 큰 영향을 수행할 수 있지만 개별 워크로드의 아키텍처에 대한 가시성이 부족하여 제한됩니다. 클라우드에 배포된 모든 리소스는 클라우드 운영에서 정기적으로 지원되는 작업 기준에서 다루어야 합니다. 일부 환경에서는 향상된 기준 요구 사항을 충족하기 위해 더 높은 수준의 운영 지원이 필요할 수 있습니다.
  • 플랫폼 작업: 중앙 집중식 기술 플랫폼의 운영 적합성을 평가합니다. 이 운영 보기는 플랫폼의 아키텍처와 솔루션의 변경이 운영 적합성에 미치는 영향을 고려하기 때문에 더욱 정교합니다. 중앙 기술 플랫폼의 변경은 지원되는 워크로드에 광범위한 다운스트림 영향을 줄 수 있습니다. 모든 중요 업무용 플랫폼은 중앙 IT 팀으로부터 전담 지원을 받아야 합니다.
  • 워크로드 작업: 개별 워크로드의 운영 적합성을 평가합니다. 이 작업 보기는 가장 정교하며 운영 적합성 향상을 위해 워크로드 아키텍처를 변경해야 하는 경우 고려해야 합니다. 워크로드 작업은 Azure Well-Architected Framework의 원칙을 준수해야 합니다. 활성 DevOps 주기가 있는 모든 중요 업무용 워크로드는 워크로드 팀의 전담 지원을 받아야 합니다.

운영 적합성 검토의 목적은 모든 수준에서 운영 적합성을 정기적으로 평가하는 것입니다. 식별된 개선 사항은 적절한 수준에서 적용하여 전체 포트폴리오를 관리하는 데 필요한 변경 내용을 알릴 수 있습니다.

운영 적합성 검토 프로세스

기업 포트폴리오의 성능과 연속성을 유지하는 핵심은 운영 적합성 검토를 위한 프로세스를 구현하는 것입니다.

운영 적합성 검토를 위한 프로세스 개요

높은 수준의 프로세스에는 두 단계가 있습니다. 필수 구성 요소 단계에서는 요구 사항이 설정되고 지원되는 서비스에 매핑됩니다. 이 단계는 매년 또는 새 작업이 도입될 때 정도로 자주 발생하지 않습니다. 필수 구성 요소 단계의 출력은 흐름 단계에서 사용됩니다. 흐름 단계는 월별 정도로 더 자주 발생합니다.

필수 구성 요소 단계

이 단계에서는 포트폴리오 및 중요 업무용 워크로드에 대한 정기적인 검토를 수행하기 위한 요구 사항을 파악합니다.

  1. 중요 비즈니스 운영을 식별합니다. 합의된 비즈니스 약정에 따라 기업의 중요 업무용 비즈니스 운영을 식별합니다. 비즈니스 운영은 지원되는 모든 서비스 기능과는 독립적입니다. 즉, 비즈니스 운영은 비즈니스에서 수행해야 하는 실제 활동과 일련의 IT 서비스에서 지원하는 작업을 나타냅니다.

    중요 업무용 용어(또는 중요 비즈니스용)는 운영이 방해되는 경우 비즈니스에 심각한 영향을 반영합니다. 예를 들어 온라인 판매점은 "고객이 쇼핑 카트에 항목을 추가할 수 있도록 설정" 또는 "신용 카드 결제 처리"와 같은 비즈니스 작업을 수행할 수 있습니다. 이러한 작업 중 하나가 실패하면 고객은 트랜잭션을 완료할 수 없고 기업에서는 판매가 이루어지지 않습니다.

  2. 운영을 서비스에 매핑합니다. 중요한 비즈니스 작업을 지원하는 IT 서비스(기준, 플랫폼 또는 워크로드 작업)에 매핑합니다. 중요한 비즈니스 기능을 지원하는 데 필요한 모든 기술 플랫폼 또는 워크로드도 식별하여 운영 및 서비스를 책임 있는 팀에 매핑해야 합니다.

  3. 서비스 종속성을 분석합니다. 대부분의 비즈니스 운영에는 여러 지원 워크로드 및 기술 플랫폼 간의 오케스트레이션이 필요합니다. 지원 자산의 각 집합 간의 종속성과 이러한 서비스를 통한 중요 업무용 트랜잭션 흐름을 이해하는 것이 중요합니다.

    또한 온-프레미스 서비스와 Azure 서비스 간의 종속성도 고려합니다. 쇼핑 카트 예제에서 인벤토리 재고 관리 서비스는 온-프레미스에서 호스트되고 실제 창고에서 직원이 입력한 데이터를 수집할 수 있습니다. 그러나 Azure Storage 같은 Azure 서비스 또는 Azure Cosmos DB와 같은 데이터베이스에 오프-프레미스 데이터를 저장할 수 있습니다.

이러한 활동의 출력은 작업 관리를 위한 성과 기록표 메트릭 집합입니다. 성과 기록표는 안정성, 성능 및 비용과 같은 조건을 측정합니다. 성과 기록표 메트릭은 서비스가 충족할 것으로 예상되는 운영 조건을 나타냅니다.

성과 기록표는 비즈니스 소유자, 클라우드 운영 및 워크로드 팀 간에 의미 있는 논의를 용이하게 하기 위해 간단한 용어로 표현되어야 합니다. 예를 들어 안정성을 위한 성과 기록표 메트릭은 합의된 SLA의 달성에 따라 색으로 구분될 수 있습니다. 녹색은 정의된 SLA를 충족하고, 노란색은 정의된 조건을 충족하지 못하지만 계획된 수정을 적극적으로 구현하는 것을 의미하며, 빨간색은 계획이나 작업 없이 정의된 조건을 충족하지 못한다는 것을 의미합니다.

이러한 메트릭은 비즈니스 약정을 직접 반영해야 한다는 점을 강조하는 것이 중요합니다.

서비스 검토 단계

서비스 검토 단계는 운영 적합성 검토의 핵심입니다. 이 작업은 다음 단계로 이루어져 있습니다.

  1. 서비스 메트릭을 측정합니다. 성과 기록표 메트릭을 사용하여 각 운영 관리 수준에서 성능을 모니터링하여 서비스가 비즈니스 약정을 충족하는지 확인합니다. 작업 기준 내의 인벤토리 및 가시성 서비스는 필수입니다. 비즈니스 약정과 관련하여 리소스 집합을 모니터링할 수 없는 경우 해당 성과 기록표 메트릭은 빨간색으로 간주됩니다. 이 경우 재구성에 대한 첫 번째 단계는 적절한 서비스 모니터링을 구현하는 것입니다. 예를 들어 비즈니스에서 서비스가 99.99%의 가용성으로 작동할 것으로 예상하지만 가용성을 측정하기 위한 프로덕션 원격 분석이 없는 경우 요구 사항을 충족하지 않는다고 가정합니다.

  2. 재구성을 계획합니다. 메트릭이 허용 가능한 임계값 아래로 떨어지는 각 비즈니스 약정에 대해 필요한 수정을 완료할 적절한 운영 팀을 결정합니다. 해당 팀은 서비스를 수정하여 작업을 허용 가능한 수준으로 끌어올리는 데 드는 비용을 계산할 책임이 있습니다. 문제 해결 비용이 해당 서비스에 할당된 예산보다 큰 경우 중앙 IT/CCoE는 클라우드 전략 팀과 검토하여 추가 투자가 필요한지 평가해야 합니다.

  3. 재구성을 구현합니다. 클라우드 운영 또는 워크로드 팀이 수정 계획에 대한 동의를 얻은 후 이를 구현합니다. 성과 기록표 메트릭을 검토할 때마다 구현 상태를 보고합니다.

이 프로세스는 반복됩니다. 중앙 IT/CCoE 팀은 프로세스를 관리하고 클라우드 전략 팀에 진행 상황을 보고할 책임이 있습니다. 이 팀은 정기적으로 만나 기존 수정 프로젝트를 검토하고, 새 워크로드에 대한 기본 검토를 시작하고, 기업의 전체 성과 기록표를 추적해야 합니다. 또한 팀은 수정 팀(클라우드 운영 또는 워크로드 작업)이 일정에 뒤처지거나 메트릭을 충족하지 못하는 경우 책임을 져야 합니다.

모임 검토

운영 적합성을 정기적으로 검토하는 것이 좋습니다. 중앙 IT/CCoE 및 클라우드 운영 팀은 검토에 참석해야 합니다. 클라우드 전략 및 워크로드 운영 팀은 참석이 권장되지만 운영됩니다. 예를 들어 핵심 팀은 매월 만나 계획을 조정하고 다양한 운영 팀에 책임을 물을 수 있습니다. 분기별로 클라우드 전략과 모든 워크로드 팀이 참가하여 상태 및 메트릭을 파악할 수 있습니다.

프로세스 및 모임의 세부 정보를 특정 요구 사항에 맞게 조정합니다. 시작점으로 다음과 같은 고려 사항을 사용하는 것이 좋습니다.

  • 중앙 집중식 작업: 워크로드 팀은 프로세스에 적극적으로 참여할 가능성은 낮지만 가시성을 위해 보고서에 포함되어야 합니다.
  • 탈중앙화 작업: 클라우드 운영 팀은 워크로드 팀과 기술 플랫폼의 운영을 개선하는 데 사용되는 모범 사례를 공유해야 합니다. 워크로드 팀은 기술 플랫폼 및 운영 기준에 적용할 수 있는 개선 사항을 식별하기 위해 각 워크로드의 변경 내용을 공유해야 합니다.
  • Azure Automanage. Azure Automanage는 운영 기준에서 운영 적합성을 자동으로 모니터링하고 포트폴리오 전체에서 다양한 수정 전략의 적용을 자동화합니다.
  • Azure Advisor. Azure Advisor는 리소스를 최적화하는 데 도움이 되는 사용량 및 구성에 따라 맞춤형 권장 사항을 제공합니다. 기본적으로 이 도구는 작업 기준을 개선하기 위해 구독 전반에 걸쳐 권장 사항을 제공합니다. 또한 기술 플랫폼 또는 개별 워크로드의 향상된 기능을 식별하기 위해 보다 세부적으로 사용할 수 있습니다.
  • Microsoft Azure Well-Architected Framework: 워크로드 작업을 개선하거나 분산된 작업을 안내하는 지침입니다.