Provoz úloh ve správě clouduWorkload operations in cloud management

Některé úlohy jsou zásadní pro úspěch firmy.Some workloads are critical to the success of the business. Pro tyto úlohy není standardní hodnota správy dostačující pro splnění požadovaných obchodních závazků ke správě cloudu.For those workloads, a management baseline is insufficient to meet the required business commitments to cloud management. Operace s platformou nemusí být pro splnění obchodních závazků ještě dostačující.Platform operations might not even be sufficient to meet business commitments. Tato vysoce důležitá podmnožina úloh vyžaduje specializovaný fokus na způsob fungování úlohy a způsobu jejich podpor.This highly important subset of workloads requires a specialized focus on the way the workload functions and how it's supported.

V důsledku toho může investice do operací zatížení vést k lepšímu výkonu, snížení rizika při přerušení provozu a rychlejšímu obnovení, když dojde k selhání systému.In return, the investment in workload operations can lead to improved performance, decreased risk of business interruption, and faster recovery when system failures occur. Tento článek popisuje přístup k investicím do pokračujících operací těchto úloh s vysokou prioritou za účelem vylepšení obchodních závazků.This article discusses an approach to investing in the continued operations of these high priority workloads to drive improved business commitments.

Kdy investovat do provozu úlohWhen to invest in workload operations

Princip Paretova (označovaný také jako pravidlo 80/20) uvádí, že 80 procento efektů vede od 20% příčin.The Pareto principle (also known as the 80/20 rule) states that 80 percent of effects come from 20 percent of the causes. Když se portfolia IT můžou v průběhu času rozrůstat organicky, toto pravidlo je často znázorněné na revizi portfolia IT.When IT portfolios are allowed to grow organically over time, this rule is often illustrated in a review of the IT portfolio. V závislosti na vlivu, který vyžaduje investici, může být příčina odlišná, ale obecná zásada má hodnotu true:Depending on the effect that requires investment, the cause can vary but the general principle holds true:

  • 80 procent systémových selhání by vedlo k tomu, že je výsledkem 20 procent běžných chyb nebo chyb.80 percent of system failures tend to be the result of 20 percent of the common errors or bugs.
  • 80 procentuální hodnota z firmy představuje 20% úloh v portfoliu.80 percent of business value tends to come from 20 percent of the workloads in a portfolio.
  • 80 procent úsilí o migraci do cloudu je z 20 procent přesouvaných úloh.80 percent of the effort to migrate to the cloud comes from 20 percent of the workloads being moved.
  • 80 procent úsilí správy cloudu bude podporovat 20% incidentů služby nebo lístků s problémy.80 percent of cloud management efforts will support 20 percent of the service incidents or trouble tickets.
  • 80 procent z nepracovního dopadu z výpadku bude pocházet z 20% systémů, které by se při výpadku ovlivnily.80 percent of business impact from an outage will come from 20 percent of the systems affected by the outage.

Operace úlohy by se měly použít jenom v případě, že je strategie pro přijetí do cloudu, obchodní výsledky a provozní metrika velmi srozumitelná.Workload operations should be applied only when the cloud adoption strategy, business outcomes, and operational metrics are each well understood. Jedná se o paradigma posun z klasického zobrazení.This is a paradigm shift from the classic view of IT. Tradičně předpokládá, že všechny úlohy mají stejný stupeň podpory a vyžadují podobnou úroveň priority.Traditionally, IT assumed that all workloads experienced the same degree of support and required similar levels of priority.

Předtím, než investovaly do operací s hlubokým zatížením, by IT a firmy měly pochopit obchodní odůvodnění a očekávání většího investování do správy cloudu.Before they invest in deep workload operations, both IT and the business should understand the business justifications and the expectations of increased investment in cloud management.

Začněte s datyStart with the data

Provozní operace začínají hlubokou znalostí výkonu úloh a požadavků na podporu.Workload operations begin with a deep understanding of workload performance and support requirements. Než tým investuje do provozu, musí mít rozsáhlá data o závislostech úloh, výkonu aplikace, diagnostikě databáze, telemetrie virtuálních počítačů a historii incidentů.Before the team invests in workload operations, it must have rich data about workload dependencies, application performance, database diagnostics, virtual machine telemetry, and incident history.

Tato data se týkají přehledů, které řídí rozhodování o provozu úloh.This data seeds the insights that drive workload operations decisions.

Pokračování v pozorováníContinued observation

Počáteční data a průběžná telemetrie můžou přispět k formulování a testování teorie výkonu úloh.Initial data and ongoing telemetry can help formulate and test theories about the performance of a workload. Ale probíhající operace úloh jsou zachovány v nepřetržitém a rozšířeném sledování výkonu úloh, s důrazem na výkon aplikací a dat.But ongoing workload operations are rooted in a continued and expanded observation of workload performance, with a heavy focus on application and data performance.

Testování automatizaceTest the automation

Na úrovni aplikace jsou první požadavky na úlohy zatížení investice do hloubkového testování.At the application level, the first requirements of workload operations, is an investment in deep testing. Pro všechny aplikace, které jsou podporovány prostřednictvím operací zatížení, by měl být vytvořen testovací plán, který bude pravidelně proveden pro zajištění funkčního a škálovatelného testování napříč aplikacemi.For any application that's supported through workload operations, a test plan should be established and regularly executed to deliver functional and scale testing across the applications.

Pravidelná telemetrie testů může poskytovat okamžité ověření různých hypotéz o provozu úlohy.Regular test telemetry can provide immediate validation of various hypotheses about the operation of the workload. Vylepšení provozních a architektonických vzorů se dá spouštět a testovat.Improving operational and architectural patterns can be executed and tested. Výsledné rozdíly poskytují nejasnou analýzu dopadu, aby bylo možné pokračovat v investicích.The resulting deltas provide a clear impact analysis to guide continued investments.

Pochopení verzíUnderstand releases

Jasné porozumění cyklům vydávání verzí a kanálům pro vydávání verzí je důležitým prvkem operací s úlohami.A clear understanding of release cycles and release pipelines is an important element of workload operations.

Porozumění cyklům se může připravit na potenciální přerušení a umožní týmu proaktivně řešit všechny verze, které by mohly způsobit nepříznivý vliv na operace.An understanding of cycles can prepare for potential interruptions and allow the team to proactively address any releases that might produce an adverse effect on operations. Díky tomuto porozumění můžou tým pro správu cloudu spolupracovat s týmy přijímání a průběžně zlepšovat kvalitu produktu a řešit všechny chyby, které by mohly ovlivnit stabilitu.This understanding also allows the cloud management team to partner with adoption teams to continuously improve the quality of the product and address any bugs that might affect stability.

Důležitější je, že porozumění kanálům vydání může významně zlepšit cíl bodu obnovení (RPO) úlohy.More importantly, an understanding of release pipelines can significantly improve the recovery point objective (RPO) of a workload. V mnoha scénářích je nejrychlejší a nejpřesnější cesta k obnovení aplikace kanál verze.In many scenarios, the fastest and most accurate path to the recovery of an application is a release pipeline. Pro aplikační vrstvy, které se mění pouze v případě, že dojde k nové verzi, může být vhodnější investovat do optimalizace kanálu, než při obnovení aplikace z tradičních záložních procesů.For application layers that change only when a new release happens, it might be wise to invest more heavily in pipeline optimization than on the recovery of the application from traditional back-up processes.

I když kanál nasazení může být nejrychlejší cestou k obnovení, může to být také nejrychlejší cesta k nápravě.Although a deployment pipeline can be the fastest path to recovery, it can also be the fastest path to remediation. Pokud má aplikace rychlý, efektivní a spolehlivý kanál pro vydávání verzí, tým pro správu cloudu má možnost automatizovat nasazení na nového hostitele jako formu automatizované nápravy.When an application has a fast, efficient, and reliable release pipeline, the cloud management team has an option to automate deployment to a new host as a form of automated remediation.

K dispozici může být mnoho dalších rychlejších a efektivnějších mechanismů pro nápravu a obnovení.There might be many other faster, more effective mechanisms for remediation and recovery. Pokud však použití existujícího kanálu může splňovat obchodní závazky a využít stávající investice do DevOps, může být existující kanál životaschopnou alternativou.However, when the use of an existing pipeline can meet business commitments and capitalize on existing DevOps investments, the existing pipeline might be a viable alternative.

Jasně informovat o změnách zatíženíClearly communicate changes to the workload

Změna na jakékoli zatížení je mezi největšími riziky při provozu úloh.Change to any workload is among the biggest risks to workload operations. Pro všechny úlohy na úrovni operací správy cloudu, které tým pro správu cloudu musí úzce zarovnávat s týmy pro přijetí cloudu a pochopit, jaké změny přicházejí v jednotlivých vydaných verzích.For any workload in the workload operations level of cloud management, the cloud management team should closely align with the cloud adoption teams to understand the changes coming from each release. Tato investice v proaktivním porozumění budou mít přímý a kladný dopad na provozní stabilitu.This investment in proactive understanding will have a direct, positive impact on operational stability.

Zlepšení výsledkůImprove outcomes

Investice do dat a komunikace v rámci úlohy budou poskytovat návrhy na vylepšení probíhajících operací v jedné ze tří oblastí:The data and communication investments in a workload will yield suggestions for improvements to ongoing operations in one of three areas:

  • Řešení technického dluhuTechnical debt resolution
  • Automatizovaná nápravaAutomated remediation
  • Vylepšený návrh systémuImproved system design

Řešení technického dluhuTechnical debt resolution

Nejlepší provozní plány úloh stále vyžadují nápravu.The best workload operations plans still require remediation. Vzhledem k tomu, že váš tým pro správu cloudu usiluje o připojení k porozumění vývoji a vydávání verzí, by měl tým podobně pravidelně sdílet požadavky na nápravu, aby se zajistilo, že technický dluh a chyby jsou nepřetržitou prioritou pro vývojové týmy.As your cloud management team seeks to stay connected to understand adoption efforts and releases, the team likewise should regularly share remediation requirements to ensure that technical debt and bugs are a continued priority for your development teams.

Automatizovaná nápravaAutomated remediation

Když použijete princip Paretova, můžeme říct, že 80 procent negativního dopadu na firmu je pravděpodobný z 20% incidentů služeb.By applying the Pareto principle, we can say that 80 percent of negative business impact likely comes from 20 percent of the service incidents. V případě, že se tyto incidenty nedají řešit v normálním vývojovém cyklu, investice do automatizace nápravy můžou významně snižovat provozní přerušení.When those incidents can't be addressed in normal development cycles, investments in remediation automation can significantly reduce business interruptions.

Vylepšený návrh systémuImproved system design

V případě řešení technického dluhu a automatizované nápravy jsou systémové chyby běžnou příčinou většiny výpadků systému.In the cases of technical debt resolution and automated remediation, system flaws are the common cause of most system outages. Můžete mít největší dopad na celkové operace úloh, a to díky několika principům návrhu:You can have the greatest impact on overall workload operations by adhering to a few design principles:

  • Škálovatelnost: Schopnost systému zpracovávat zvýšené zatížení.Scalability: The ability of a system to handle increased load.
  • Dostupnost: Procento času, po který je systém funkční a funguje.Availability: The percentage of time that a system is functional and working.
  • Odolnost: Schopnost systému obnovit selhání a nadále fungovat.Resiliency: The ability of a system to recover from failures and continue to function.
  • Správa: Provozní procesy, které udržují systém běžící v produkčním prostředí.Management: Operations processes that keep a system running in production.
  • Zabezpečení: Ochrana aplikací a dat před hrozbami.Security: Protecting applications and data from threats.

Pro zlepšení celkových operací poskytuje Microsoft Azure Well-Architected Framework přístup k vyhodnocení konkrétních úloh pro dodržování těchto pilířů.To help improve overall operations, the Microsoft Azure Well-Architected Framework provides an approach to evaluating specific workloads for adherence to these pillars. Použijte pilíře na operace platforem a operace úlohy.Apply the pillars to both platform operations and workload operations.

Další krokyNext steps

S úplným porozuměním metodologii v rámci architektury pro přijetí do cloudu teď jste si vyrozuměli implementaci principů správy cloudu.With a full understanding of the Manage methodology within the Cloud Adoption Framework, you are now armed to implement cloud management principles. Naučte se, jak provést tuto metodologii v rámci provozního prostředí.Learn how to make this methodology actionable within your operations environment.