클라우드 관리에서 보호 및 복구Protect and recover in cloud management

인벤토리 및 가시성운영 규정 준수에 대 한 요구 사항을 충족 하 고 나면 클라우드 관리 팀에서 잠재적 워크 로드 중단을 예상 하 고 준비할 수 있습니다.After they've met the requirements for inventory and visibility and operational compliance, cloud management teams can anticipate and prepare for a potential workload outage. 클라우드 관리를 계획할 때 팀은 어떤 것이 실패 한다고 가정 하 고 시작 해야 합니다.As they're planning for cloud management, the teams must start with an assumption that something will fail.

100% 가동 시간 SLA를 일관 되 게 제공할 수 있는 기술 솔루션은 없습니다.No technical solution can consistently offer a 100 percent uptime SLA. "6 9" 또는 99.9999%의 가동 시간을 제공 하기 위해 가장 중복 아키텍처가 청구 되는 솔루션입니다.Solutions with the most redundant architectures claim to deliver on "six 9s" or 99.9999 percent uptime. 그러나 "6 9" 솔루션은 지정 된 연도에서 31.6 초 동안 중단 됩니다.But even a "six 9s" solution goes down for 31.6 seconds in any given year. Sadly "6 9"의 가동 시간에 도달 하는 데 필요한 크고 지속적인 운영 투자를 보장 하는 솔루션이 거의 없습니다.Sadly, it's rare for a solution to warrant a large, ongoing operational investment that's required to reach "six 9s" of uptime.

중단을 준비 하면 팀에서 오류를 신속 하 게 감지 하 고 신속 하 게 복구할 수 있습니다.Preparation for an outage allows the team to detect failures sooner and recover more quickly. 이 분야의 초점은 시스템에 오류가 발생 한 직후 발생 하는 단계에 대 한 것입니다.The focus of this discipline is on the steps that come immediately after a system fails. 중단이 발생 하면 신속 하 게 복구할 수 있도록 작업을 보호 하는 방법How do you protect workloads, so that they can be recovered quickly when an outage occurs?

보호 및 복구 대화 변환Translate protection and recovery conversations

비즈니스 작업을 수행 하는 작업은 응용 프로그램, 데이터, Vm (가상 컴퓨터) 및 기타 자산으로 구성 됩니다.The workloads that power business operations consist of applications, data, virtual machines (VMs), and other assets. 이러한 각 자산에는 보호 및 복구에 대 한 다른 방법이 필요할 수 있습니다.Each of those assets might require a different approach to protection and recovery. 이 분야의 중요 한 측면은 관리 기준 내에서 일관 된 약정을 설정 하는 것입니다 .이는 비즈니스 토론 중에 시작 지점을 제공할 수 있습니다.The important aspect of this discipline is to establish a consistent commitment within the management baseline, which can provide a starting point during business discussions.

최소한 지정 된 워크 로드를 지 원하는 각 자산에는 복구 속도 (복구 시간 목표 또는 RTO)와 데이터 손실 (복구 지점 목표 또는 RPO)의 위험에 대 한 명확한 약정을 가진 기준 접근 방법이 있어야 합니다.At a minimum, each asset that supports any given workload should have a baseline approach with a clear commitment to speed of recovery (recovery time objectives, or RTO) and risk of data loss (recovery point objectives, or RPO).

RTO (복구 시간 목표)Recovery time objectives (RTO)

재해 발생 시 복구 시간 목표는 재해가 발생 하기 전의 상태로 시스템을 복구 하는 데 소요 되는 시간입니다.When disaster strikes, a recovery time objective is the amount of time it should take to recovery any system to its state prior to the disaster. 각 워크 로드에 대해 Vm 및 응용 프로그램에 필요한 최소 기능을 복원 하는 데 필요한 시간이 포함 됩니다.For each workload, that would include the time required to restore minimum necessary functionality for the VMs and applications. 또한 응용 프로그램에 필요한 데이터를 복원 하는 데 필요한 시간도 포함 됩니다.It also includes the amount of time required to restore the data that's required by the applications.

비즈니스 측면에서 RTO는 비즈니스 프로세스가 서비스를 사용할 수 없게 되는 기간을 나타냅니다.In business terms, RTO represents the amount of time that the business process will be out of service. 업무상 중요 한 워크 로드의 경우이 변수는 상대적으로 낮으므로 비즈니스 프로세스를 신속 하 게 다시 시작할 수 있습니다.For mission-critical workloads, this variable should be relatively low, allowing the business processes to resume quickly. 우선 순위가 낮은 워크 로드의 경우 표준 수준의 RTO는 회사 성능에 눈에 띄는 영향을 주지 않을 수 있습니다.For lower-priority workloads, a standard level of RTO might not have a noticeable impact on company performance.

관리 기준은 업무에 중요 하지 않은 워크 로드에 대 한 표준 RTO를 설정 해야 합니다.The management baseline should establish a standard RTO for non-mission-critical workloads. 그러면 비즈니스는 복구 시간에 추가 투자를 정당화 하는 방법으로 해당 기준을 사용할 수 있습니다.The business can then use that baseline as a way to justify additional investments in recovery times.

RPO(복구 지점 목표)Recovery point objectives (RPO)

대부분의 클라우드 관리 시스템에서 데이터는 데이터 보호의 일부 형식을 통해 정기적으로 캡처되고 저장 됩니다.In most cloud management systems, data is periodically captured and stored through some form of data protection. 데이터를 마지막으로 캡처한 시간은 복구 지점 이라고 합니다.The last time data was captured is referred to as a recovery point. 시스템에 오류가 발생 하면 가장 최근 복구 지점 으로만 복원할 수 있습니다.When a system fails, it can be restored only to the most recent recovery point.

시스템에 시간 또는 일 단위로 측정 된 복구 지점 목표가 있는 경우 시스템 오류가 발생 하면 마지막 복구 지점과 중단 사이에 이러한 시간 또는 일에 대 한 데이터가 손실 됩니다.If a system has a recovery point objective that's measured in hours or days, a system failure would result in the loss of data for those hours or days between the last recovery point and the outage. 1 일 RPO는 이론적으로 오류가 발생할 때까지 모든 트랜잭션이 손실 될 수 있습니다.A one-day RPO would theoretically result in the loss of all transactions in the day leading up to the failure.

중요 업무용 시스템의 경우 분 또는 초로 측정 된 RPO는 수익 손실을 방지 하는 데 사용 하는 것이 더 적합할 수 있습니다.For mission-critical systems, an RPO that's measured in minutes or seconds might be more appropriate to use to avoid a loss in revenue. 하지만 RPO가 짧으면 일반적으로 전체 관리 비용이 증가 합니다.But a shorter RPO generally results in an increase in overall management costs.

비용을 최소화 하기 위해 관리 기준은 허용 가능한 가장 긴 RPO에 초점을 맞춰야 합니다.To help minimize costs, a management baseline should focus on the longest acceptable RPO. 클라우드 관리 팀은 특정 플랫폼 또는 워크 로드의 RPO를 늘릴 수 있습니다. 그러면 더 많은 투자가 보장 됩니다.The cloud management team can then increase the RPO of specific platforms or workloads, which would warrant more investment.

작업 보호 및 복구Protect and recover workloads

IT 환경에서 대부분의 워크 로드는 특정 비즈니스 또는 기술 프로세스를 지원 합니다.Most of the workloads in an IT environment support a specific business or technical process. 비즈니스 운영에 대 한 시스템의 영향을 받지 않는 시스템은 신속 하 게 복구 하거나 데이터 손실을 최소화 하는 데 필요한 투자 증가를 보장 하지 않습니다.Systems that don't have a systemic impact on business operations often don't warrant the increased investments required to recover quickly or minimize data loss. 비즈니스는 기준선을 설정 하 여 일관 되 고 관리 가능한 가격으로 제공할 수 있는 복구 지원 수준을 명확 하 게 파악할 수 있습니다.By establishing a baseline, the business can clearly understand what level of recovery support can be offered at a consistent, manageable price point. 이러한 이해를 통해 비즈니스 관련자는 복구에 대 한 투자 금액의 가치를 평가할 수 있습니다.This understanding helps the business stakeholders evaluate the value of an increased investment in recovery.

대부분의 클라우드 관리 팀의 경우 다양 한 자산에 대 한 특정 RPO/RTO 약정을 통해 향상 된 기준을 사용 하면 상호 비즈니스 약정에 가장 적합 한 경로가 생성 됩니다.For most cloud management teams, an enhanced baseline with specific RPO/RTO commitments for various assets yields the most favorable path to mutual business commitments. 다음 섹션에서는 반복 가능한 프로세스를 통해 보호 및 복구 기능을 쉽게 추가할 수 있는 몇 가지 일반적인 향상 된 기준을 간략하게 설명 합니다.The following sections outline a few common enhanced baselines that empower the business to easily add protection and recovery functionality through a repeatable process.

데이터 보호 및 복구Protect and recover data

데이터는 디지털 경제에서 가장 중요 한 자산입니다.Data is arguably the most valuable asset in the digital economy. 데이터를 보다 효율적으로 보호 하 고 복구 하는 기능이 가장 일반적으로 향상 된 기준입니다.The ability to protect and recover data more effectively is the most common enhanced baseline. 프로덕션 워크 로드를 지 원하는 데이터의 경우 데이터 손실을 직접 동일시 수익성의 수익과 손실을 방지할 수 있습니다.For the data that powers a production workload, loss of data can be directly equated to loss in revenue or loss of profitability. 일반적으로 클라우드 관리 팀은 일반적인 데이터 플랫폼을 지 원하는 향상 된 관리 기준 수준을 제공 하도록 권장 합니다.We generally encourage cloud management teams to offer a level of enhanced management baseline that supports common data platforms.

클라우드 관리 팀은 플랫폼 작업을 구현 하기 전에 PaaS (platform as a service) 데이터 플랫폼에 대 한 향상 된 작업을 지 원하는 것이 일반적입니다.Before cloud management teams implement platform operations, it's common for them to support improved operations for a platform as a service (PaaS) data platform. 예를 들어 클라우드 관리 팀은 Azure SQL Database 또는 Azure Cosmos DB 솔루션에 더 높은 백업 또는 다중 지역 복제를 적용 하는 것이 쉽습니다.For instance, it's easy for a cloud management team to enforce a higher frequency of backup or multiregion replication for Azure SQL Database or Azure Cosmos DB solutions. 이렇게 하면 개발 팀이 데이터 플랫폼을 현대화 하 여 RPO를 쉽게 개선할 수 있습니다.Doing so allows the development team to easily improve RPO by modernizing their data platforms.

이 고려 프로세스에 대 한 자세한 내용은 플랫폼 작업 분야를 참조 하세요.To learn more about this thought process, see Platform operations discipline.

Vm 보호 및 복구Protect and recover VMs

대부분의 작업은 솔루션의 다양 한 측면을 호스트 하는 가상 컴퓨터에 대 한 종속성이 있습니다.Most workloads have some dependency on virtual machines, which host various aspects of the solution. 시스템 오류가 발생 한 후 비즈니스 프로세스를 지원 하기 위한 작업의 경우 일부 가상 컴퓨터를 신속 하 게 복구 해야 합니다.For the workload to support a business process after a system failure, some virtual machines must be recovered quickly.

가상 컴퓨터의 가동 중지 시간 마다 분이 발생 하거나 수익성을 절감할 수 있습니다.Every minute of downtime on those virtual machines could cause lost revenue or reduced profitability. VM 가동 중지 시간이 비즈니스의 회계 성능에 직접적인 영향을 주는 경우 RTO는 매우 중요 합니다.When VM downtime has a direct impact on the fiscal performance of the business, RTO is very important. 핫 웜 복구 모델 이라고 하는 모델인 보조 사이트 및 자동화 된 복구에 대 한 복제를 사용 하 여 가상 컴퓨터를 더 신속 하 게 복구할 수 있습니다.Virtual machines can be recovered more quickly by using replication to a secondary site and automated recovery, a model that's referred to as a hot-warm recovery model. 가장 높은 복구 상태에서 가상 컴퓨터를 완벽 하 게 작동 하는 보조 사이트로 복제할 수 있습니다.At the highest state of recovery, virtual machines can be replicated to a fully functional, secondary site. 이러한 더 저렴 한 접근 방식을 고가용성 또는 핫 핫 복구 모델 이라고 합니다.This more expensive approach is referred to as a high-availability, or hot-hot, recovery model.

위의 각 모델은 RTO를 줄임으로써 비즈니스 프로세스 기능을 더 빠르게 복원 합니다.Each of the preceding models reduces the RTO, resulting in a faster restoration of business process capabilities. 그러나 각 모델 에서도 클라우드 관리 비용이 크게 증가 합니다.However, each model also results in significantly increased cloud management costs.

또한 고가용성을 위한 복제와는 별도로 실수로 인 한 삭제, 데이터 손상 및 랜 섬 웨어 공격과 같은 시나리오에 대해 백업을 사용 하도록 설정 해야 합니다.Also, please note that, apart from replication for high-availability, backup should be enabled for scenarios such as accidental delete, data corruption and ransomware attacks.

이 고려 프로세스에 대 한 자세한 내용은 워크 로드 작업 분야를 참조 하세요.For more information about this thought process, see Workload operations discipline.

다음 단계Next steps

이 관리 기준 구성 요소가 충족 되 면 팀은 플랫폼 운영워크 로드 작업에서 중단을 방지할 수 있습니다.After this management baseline component is met, the team can look ahead to avoid outages in its platform operations and workload operations.