Správa moderních clusterů řešení kontejnerůManage modern container solutions clusters

Rozhraní pro přijetí do cloudu poskytuje základní metodologii pro definování procesů správy operací pro Cloud ve nezávislá smyslu.The Cloud Adoption Framework provides a core methodology to define operation management processes for the cloud in an agnostic sense. Jeho doprovodné materiály vám pomůžou navázat standardní hodnoty Operations managementu a další specializované vrstvy operací.Its guidance helps establish an operations management baseline and other specialized layers of operations. Tento návod může stále platit pro organizace, které mají kombinaci infrastruktury jako služby (IaaS), platformy jako služby (PaaS) a kontejnerových úloh.This guidance might still apply for organizations that have a mixture of infrastructure as a service (IaaS), platform as a service (PaaS), and containerized workloads. Tento článek popisuje, co je potřeba integrovat do stávajících operací a připravit se na správu kontejnerů.This article outlines what you need to integrate into your existing operations to prepare for container management. Také zdůrazňuje výhody integrace služby Azure Kubernetes Service (AKS) do strategie správy kontejnerů.It also highlights the benefits of integrating Azure Kubernetes Service (AKS) into your container management strategy.

Obchodní zarovnání pro potřeby správy operacíBusiness alignment for operations management needs

Kontejnery odstraňují závislosti na několika vrstvách infrastruktury, což vede k lepším funkcím pro správu provozu.Containers remove dependencies on several layers of infrastructure, leading to improved operations management capabilities. Abyste mohli realizovat tato provozní vylepšení, možná budete muset upravit svou celkovou strategii cloudového řízení počínaje zarovnáním firmy.To realize these operational improvements, you might have to revise your overall cloud management strategy, starting with the business alignment.

Aby bylo možné navázat správné postupy pro správu operací, musíte pochopit, jak se budou kontejnery používat v plánech přijetí v cloudu a jaké výhody si z tohoto posunu z této kombinace můžete vyhodnotit na kontejnerové úlohy.To establish proper operations management practices, you must understand how containers will be used in your cloud adoption plans and what benefits you want to realize from this shift to containerized workloads.

  • Budete ve své cloudové platformě spravovat více technologických řešení, jako jsou kontejnery, IaaS a PaaS?Will you manage multiple technology solutions, such as containers, IaaS, and PaaS, in your cloud platform?
  • Budou centralizované týmy podporovat operace a správu kontejneru nebo platformy AKS?Will centralized teams support operations and management of the container or AKS platform? Přesune se tato zodpovědnost na jednotlivé týmy úloh?Does this accountability shift to the individual workload teams?
  • Budou centralizované týmy podporovat operace a správu úloh, které běží v každém kontejneru nebo pod?Will centralized teams support operations and management of the workloads running in each container or pod? Přesune se tato zodpovědnost na jednotlivé týmy úloh?Does this accountability shift to the individual workload teams?
  • Používáte kontejnery pro klíčové úlohy?Are you using containers for mission-critical workloads?
  • Používáte jenom kontejnery pro méně důležité nebo obslužné úlohy, abyste snížili náklady?Are you only using containers for less-critical or utility workloads to reduce costs?
  • Jak důležité je výkon a spolehlivost vašich individuálních úloh?How important is the performance and reliability of your individual workloads?
  • Jsou aplikace v kontejnerech bez stavu?Are the applications in your containers state-less? Potřebujete zachovat stav, abyste chránili a obnovili úlohy v kontejnerech?Do you need to persist state to protect and recover the workloads in the containers?

Tyto základní otázky vám pobudou s tím, jak nejlépe integrovat kontejnery a AKS do strategie správy provozu.These basic questions will shape how to best integrate containers and AKS into your operations management strategy.

Směrný plán provozuOperations baseline

Implementace standardních hodnot operací zajišťuje centralizovaný přístup k nástrojům vyžadovaným pro provoz a správu všech prostředků ve vašem cloudovém prostředí.Implementing an operations baseline provides centralized access to the tools required to operate and manage all assets in your cloud environment. Pokud nemáte směrné plány operací pro nekontejnerové prostředky, můžete implementovat směrný plán operací definovaný v metodologii Správa.If you don't have an operations baseline for your non-containerized assets, you can implement the operations baseline defined in the Manage methodology.

Směrné plány operací by měly zahrnovat nástroje a konfigurace, které poskytují přehled, monitorování, provozní dodržování předpisů, optimalizaci a ochranu/obnovení.Your operations baseline should include tools and configurations to provide visibility, monitoring, operational compliance, optimization, and protection/recovery.

Operations Management – směrný plán

Směrné plány operací popsaných v článcích výše neposkytují podporu pro vaše kontejnery nebo AKS platformu.The operations baseline outlined in the articles above won't provide support for your containers or AKS platform. Poskytne vám ale nástroje pro podporu, které se dají rozšířit tak, aby podporovaly kontejnery, jako jsou Azure Monitor, Azure Backup a další nástroje.However, it will provide the tooling foundation that can be extended to support containers, such as Azure Monitor, Azure Backup, and other tools.

Pokud je většina vašeho portfolia v cloudu hostovaná v kontejnerech, zvažte zahrnutí specializovaných operací platforem do následujícího oddílu do směrného plánu operací.If most of your portfolio in the cloud is hosted in containers, consider including the specialized platform operations in the next section into your operations baseline.

Provoz platforemPlatform operations

Pokud tato implementace nepředstavuje první nebo jenom nasazení do cloudu, měli byste mít základnu operací.Unless this implementation is your organization's first or only deployment to the cloud, you should have an operations baseline. Tato část obsahuje několik nástrojů, které můžete chtít zahrnout, abyste mohli pořídit nasazení kontejnerů nebo AKS.This section identifies a few tools you might want to include to help manage container or AKS deployment.

Inventarizace a zajištění přehleduInventory and visibility

Monitorování kontejnerů a clusterů AKS využívá nástroje, řídicí panely a výstrahy zahrnuté do směrného plánu operací.Monitoring containers and AKS clusters use the tools, dashboards, and alerts included in your operations baseline. Je ale možné, že budete muset provést další konfiguraci a získat data z vašich kontejnerů do nástrojů pro monitorování operací, jako je Azure monitor pro kontejnery.However, you might need to do more configuration to get the data from your containers into operations monitoring tools, like Azure Monitor for containers. V tématu přehled Azure Monitorch kontejnerů můžete shromáždit data potřebná pro přidání kontejnerových a AKS operací platforem do směrného plánu operací.See the overview of Azure Monitor for containers to gather the data needed to add container and AKS platform operations to your operations baseline.

Jakmile nakonfigurujete Azure Monitor ke shromažďování dat ve vašich kontejnerech, můžete monitorovat následující oblasti jako součást centralizovaných procesů správy:Once you've configured Azure Monitor to collect data on your containers, you can monitor the following areas as part of your centralized management processes:

  • Identifikujte clustery běžící v různých oblastech, ideálně svázané se záznamem stromu služby a Identifikujte klíčová fakta týkající se těchto clusterů.Identify clusters running in various regions, ideally tied to a service tree entry and identify key facts on those clusters
    • Identifikujte fond uzlů clusteru, sítě a topologie úložiště těchto clusterů.Identify cluster node pool, networking, and storage topologies of those clusters
    • Identifikujte verzi AKS a verzi image uzlu rozvrstvení.Identify AKS version and node image version stratification.
  • Identifikace využití prostředků uzlu clusteru (proces, paměť a úložiště)Identify cluster node resource utilization (process, memory, and storage)
  • Identifikace kontejnerů, které jsou spuštěny na uzlech a jejich podíl na využití uzlůIdentify containers that are running on the nodes and their contribution to node utilization
  • Pochopení chování clusterů v rámci průměrného a nejtěžšího zatížení.Understand the behavior of clusters under average and heaviest loads. Tato znalostní báze vám pomůže identifikovat požadavky na kapacitu a určit maximální zatížení, které může cluster tolerovat.This knowledge can help you identify capacity needs and determine the maximum load that the cluster can sustain.
  • Nakonfigurujte výstrahy pro proaktivní upozorňování nebo zaznamenání, když využití procesoru a paměti na uzlech nebo kontejnerech překročí vaše prahové hodnoty nebo když dojde ke změně stavu v clusteru v souhrnu stavu infrastruktury nebo uzlů.Configure alerts to proactively notify you or record when CPU and memory utilization on nodes or containers exceed your thresholds, or when a health state change occurs in the cluster at the infrastructure or nodes health rollup.
  • Pomocí dotazů můžete vytvořit společnou sadu výstrah, řídicích panelů a podrobného provádění podrobných analýz.Use queries to create a common set of alerts, dashboards, and detailed perform detailed analysis

Tato data budou také podporovat provozní týmy úloh tím, že poskytují podrobné informace o úlohách běžících na kontejnerové platformě:This data will also support workload operations teams by providing detailed information about the workloads running on the containerized platform:

  • Prohlédněte si využití prostředků u úloh běžících na hostiteli, které nesouvisí se standardními procesy, které podporují rozhraní pod.Review the resource utilization of workloads running on the host that are unrelated to the standard processes that support the pod.
  • Integrujte s Prometheus a zobrazte metriky aplikací.Integrate with Prometheus to view application metrics.
  • Monitorujte úlohy kontejneru nasazené do místního a AKSového stroje AKS Engine na Azure Stack.Monitor container workloads deployed to AKS Engine on-premises and AKS Engine on Azure Stack.
  • Monitorujte úlohy kontejneru nasazené do Azure Red Hat OpenShift.Monitor container workloads deployed to Azure Red Hat OpenShift.
  • Monitorujte úlohy kontejneru nasazené do Azure ARC s povoleným Kubernetes (Preview).Monitor container workloads deployed to Azure Arc enabled Kubernetes (preview).

Dodržování předpisů v provozuOperations compliance

Oprava, optimalizace a změna velikosti probíhá na několika různých úrovních v kontejnerovém prostředí.Patching, tuning, and sizing happens at a few different levels in a containerized environment. Operátory mohou být v různých týmech v závislosti na požadovaném přístupu k operacím.The operators may sit in a number of different teams, depending on your desired operations approach. Aby bylo možné zachovat dodržování předpisů, operátor bude monitorovat využití, měnit velikost prostředků a vyrovnávat výkon a náklady a opravovat základní systémy pro minimalizaci rizika a snížení úrovně konfigurace.To maintain operations compliance, an operator will monitor usage, resize assets to balance performance and cost, and patch the underlying systems to minimize risk and configuration drift. Každé z těchto úloh jsou úkoly, které IT oddělení IT mají jako součást směrného plánu operací pro řešení IaaS a PaaS.Each of these are tasks that central IT organizations tend to deliver as part of the operations baseline for IaaS and PaaS solutions.

V prostředí clusteru v Azure se tyto úlohy provádějí na několika úrovních: cluster AKS, image uzlu a operační systém Node.In a cluster environment in Azure, these tasks are performed at multiple levels: AKS cluster, node image, and node OS. Všechny tyto provozní úlohy se budou podílet na porozumění a funkční relaci úloh spuštěných v clusterech nebo na jednotlivých fondech uzlů.All of these operations tasks become more dependent on an understanding and working relationship of the workloads running in the clusters or on individual node pools. Následující příkazy vám pomůžou vyhodnotit, co a v případě, že chcete provozovat vaše kontejnerová prostředí.The following statements will help evaluate what and if you want to do to operate your container environments.

  • Pokud se velikost a oprava clusteru AKS doručí jako součást kanálu nasazení pro aplikaci nebo je závislá na architektuře nebo konfiguraci aplikace, je nejlepší ovládat provozní dodržování předpisů týmu pro úlohy podrobnějšího řízení.If the sizing and patching of the AKS cluster, node image or node OS is delivered as part of the deployment pipeline for the application or is dependent on application architecture/configuration, then it is best to shift operational compliance to the workload team for granular control. Vzhledem k tomu, že úlohy často využívají závislost na funkcích orchestrace, jedná se o Nejběžnější vzor, protože neočekávaná Změna verze AKS nebo změna image uzlu může být nezávažná pro úlohu nebo její běhové nástroje.Because workloads often take a dependency on orchestration features, this is the most common pattern as an unexpected AKS version change or node image change could be catastrophic to the workload or its runtime tooling.
  • V případě méně běžných centralizovaných clusterů, které podporují portfolio úloh a nejrůznějších aplikací, může být centralizovaný provozový tým stále zodpovědný za úlohy provozních předpisů. Následující příručky vám pomohou zajistit tyto úlohy v rámci svých clusterů.For the less common centralized clusters, supporting a portfolio of workloads and a variety of applications, the centralized operations team may still be responsible for operational compliance tasks, the following guides will help deliver those tasks across your clusters. Provádění těchto úloh na základě opakování nezůstane v provozu specifických pro konkrétní platformu.Executing these tasks on a recurring basis instills platform specific operations. Existuje významné riziko při přístupu k centrálním operacím a pečlivé testování upgradů v předprodukčních prostředích, jasné a ovlivněné plánované údržbě a pohotovostní plány pro úlohy, které nedodržují předpisy, musí být na místě.There is notable risk in a central operations approach, and careful testing of upgrades in pre-production environments, clear and adhered to scheduled maintenance, and contingency plans for noncompliant workloads all need to be in place. Jedním z chybných upgradu může být jediný bod selhání a podobně jedna úloha, která se nedá upgradovat, může způsobit, že cluster nebude mít podporu.One bad upgrade can be a single point of failure and likewise, one workload not able to upgrade can cause a cluster to fall out of support. Plánování a Správa víceklientské clusterů s nepečlivou opatrnostíPlan and manage multitenant clusters with due diligence.

U obou typů clusterů postupujte podle pokynů v části upgrady, image uzlů a aktualizace operačního systému Node, které najdete níže:For both cluster types, follow the guidance on upgrades, node images, and node OS updates found below:

Ochrana a zotaveníProtect and recover

AKS uzly jsou dočasné a v takovém případě se nezálohují způsobem, který je možné jednotlivě obnovit.AKS nodes are ephemeral in nature, and as such are not backed up in a way that can be individually restored. Obnova z incidentu může zahrnovat opětovné nasazení úloh do nového fondu uzlů nebo celého nového clusteru v závislosti na rozsahu incidentu.Recovering from an incident may involve redeploying workloads to a new node pool or a whole new cluster depending on the scope of the incident.

  • Vyberte, pokud chcete do clusteru přidat smlouvu SLA pro dobu provozu.Choose to add an uptime SLA to your cluster.
  • Pro vyšší SLA můžete také zvážit osvědčené postupy BCDR s více oblastmi k zajištění další ochrany.For higher SLAs, you may also want to consider multiregion BCDR best practices to provide additional protection.
  • Vzhledem k tomu, že clustery by neměly obsahovat stav, se obnovení externího stavu zpracovává pomocí stávajících pokynů pro základní operace.Since clusters should not contain state, external state restoration is handled using existing operations baseline guidance. Pokud jste přenesli stav do svých clusterů, zajistěte, aby následující operátory byly osvědčenými postupy pro úložiště, a měli byste mít k dispozici strategii pro zálohování a obnovení těchto dat pro danou úlohu.If you brought state into your clusters ensure your following the operators best practice on storage, and have a strategy to back and up restore this data for a given workload. Používání nástrojů, jako je Velero , je příkladem operací specifických pro platformu, které prodlužují základní operace.Use of tools like Velero is an example of platform specific operations, that extend your operations baseline.
    • Pokud vaše portfolio aplikací nekonzistentně používá stav, doporučuje se, aby se centrální provozní tým nepokoušel o údržbu obou řešení.If your portfolio of applications inconsistently applies state, it is advised that the central operations team not attempt to maintain both solutions. Místo toho se můžete standardizovat na základě požadovaného stavu sada nástrojů pro všechny kontejnery, ale přenesete zodpovědnost za alternativní řešení obnovení na provozní týmy úloh.Instead, standardize on the desired-state toolchain for all containers, but shift the responsibility for alternative recovery solutions to workload operations teams. Tento přístup umožňuje vývojářům navrhnout svobodu, udržuje střední náklady nižší a přináší motivaci snížení nákladů pro týmy úloh, aby odpovídaly standardu.This approach allows design freedom for the developers, keeps central costs lower, and provides a cost reduction incentive for workload teams to conform to the standard.

Provoz úlohWorkload operations

Výše uvedená část operace platformy ukazuje běžnou konverzaci při správě clusterů AKS.The platform operations section above illustrates a common conversation when managing AKS clusters. Mají Kubernetes clustery technologickou platformu spravovanou centrálně?Are Kubernetes clusters a technology platform to be managed centrally? Nebo se jedná o nástroj pro úlohy, který by měl spravovat týmy, které vlastní jednotlivé úlohy?Or are they a workload tool that should be managed by the teams who own each of the workloads? Tato otázka se liší od různých organizací.That question is different for different organizations. Ve většině organizací je to, že kontejnery a AKS jsou navržené tak, aby poskytovaly větší flexibilitu v tom, jak chtějí pracovat s jednotlivými úlohami, a poskytnout specifické funkce pro tyto úlohy, které se mají použít ve své architektuře pro zvýhodnění vlastníků a zákazníků aplikace.The constant seen across most organizations is that containers and AKS are designed to give the workload teams more flexibility in how they want to operate each workload, and provide specific features for those workloads to use in their architecture to benefit the application's owners and customers.

Operace s úlohou se můžou vytvářet na vašich stávajících standardních operacích a operacích specifických pro jednotlivé platformy.Workload operations can build on your existing operations baseline and platform-specific operations. Cluster AKS můžete také bezpečně provozovat pomocí zcela decentralizovaných operací úloh.You can also safely operate an AKS cluster using completely decentralized workload operations. V obou případech, pokud potřebujete zvýšit počet operací, abyste se mohli zaměřit na konkrétní výsledky konkrétního zatížení, můžete použít Azure Well-Architected Framework a Microsoft Azure Well-Architected recenze a získat tak velmi konkrétní typy provozních procesů a nástrojů, které se mají použít pro vaše úlohy.In either case, when you need to elevate operations to focus on specific outcomes for a specific workload, you can use the Azure Well-Architected Framework and Microsoft Azure Well-Architected Review to get very specific on the types of operational processes and tools to use for your workload.

Další krok: vaše další iterace migraceNext step: Your next migration iteration

Až se migrace moderních kontejnerů dokončí, může tým pro přijetí do cloudu zahájit další migraci specifickou pro konkrétní scénář.Once the modern containers migration is complete, the cloud adoption team can begin your next scenario-specific migration. Případně, pokud jsou k dispozici platformy, které se mají migrovat, můžete tuto řadu článků použít znovu a obsloužit vaše další migrace a nasazení moderních kontejnerů.Alternatively, if there are addition platforms to be migrated, this article series can be used again to guide your next modern containers migration or deployment.