Upprätta processer för driftshantering

När företaget börjar använda arbetsbelastningar i Azure är nästa steg att upprätta en process för driftshantering och lämplighet. Den här processen räknar upp, implementerar och iterativt granskar och optimerar drifttillståndet för dessa arbetsbelastningar.

En process för granskning av driftseffektivitet säkerställer att hela portföljen med arbetsbelastningar uppfyller företagets åtaganden vad gäller prestanda, tillförlitlighet och kostnad. Den här processen anpassar arbetet från centrala IT-avdelningen, molncenter för utmärkthet och arbetsbelastningsteam för att leverera driftseffektivitet i stor skala.

Upprätta en kärnprocess för granskning av driftseffektivitet

Skapa en process för granskning av driftseffektivitet för att få en fullständig förståelse för de problem som uppstår vid körning av arbetsbelastningar i en produktionsmiljö och hur du åtgärdar och löser dessa problem. Den här artikeln beskriver en övergripande process för driftseffektivitetsgranskning som företaget kan använda för att uppnå det här målet.

Operational fitness på Microsoft

Från början har många team på Microsoft varit involverade i utvecklingen av Azure-plattformen. Det är svårt att säkerställa kvalitet och konsekvens för ett projekt av sådan storlek och komplexitet. Du behöver en robust process för att räkna upp och implementera grundläggande icke-funktionella krav regelbundet.

De processer som Microsoft följer utgör grunden för de processer som beskrivs i den här artikeln.

Förstå roller och driftsmodeller

Driftshantering är ett brett område som omfattar flera roller i företaget. Beroende på organisationens driftsmodell kan dessa roller fungera i en matrisbaserad miljö med ett antal överlämningar mellan centraliserade och decentraliserade driftsteam.

  • Central IT/CCoE: Den här centraliserade teknikfunktionen ansvarar för konfiguration, drift, styrning och säkerhet för alla tekniktillgångar i teknikportföljen.
  • Molnåtgärder: Den här driftfunktionen är en funktion inom den centraliserade teknikorganisationen som hanterar teknikportföljens hälsa och drift. Det är deras ansvar att se till att processen fungerar smidigt, att varje angränsande roll i processen har de verktyg som krävs och att var och en av de efterföljande rollerna hålls ansvariga för förväntningarna på den här processen.
  • Molnstrategi: Ger kunskap om verksamheten för att identifiera och prioritera åtaganden för att upprätthålla driftskraven för olika arbetsbelastningar. Den här rollen jämför även riskreduceringskostnaden med påverkan på verksamheten och styr det slutliga beslutet om reparation.
  • Arbetsbelastningsteam: Ansvarig för utveckling och drift av diskreta arbetsbelastningar som mappar till specifika stödprogram, tjänster och infrastruktur, oavsett om de är lokala eller i molnet. Rollen kräver djup kunskap om arbetsbelastningsarkitekturen.

Varje organisations driftsmodell avgör ansvar och dagliga aktiviteter för rollerna ovan:

  • Centraliserade åtgärder: Central IT upprätthåller fullt ansvar för driften. Arbetsbelastningsägare kan ha indata för åtgärder och konfiguration, men de har inte åtkomst till att ändra produktionsmiljöer. Endast centrala IT- och molnåtgärder kan leverera operativa förändringar för att förbättra driftseffektiviteten.
  • Decentraliserade åtgärder: Arbetsbelastningsteam är fullt ansvariga för driften, vanligtvis via en mogen CI/CD-pipeline och DevOps-automatisering. I den här modellen finns det inget centralt stöd för konfiguration, åtgärder, styrning eller säkerhet. Den här metoden för åtgärder ligger utanför omfånget för Cloud Adoption Framework. Den här driftsmodellen bör se Azure Well-Architected Framework för driftsvägledning.
  • Företagsåtgärder: Molncentret för utmärkthet ansvarar för driften. Molndrifts- och arbetsbelastningsteamen delar alla ansvar för specifika aspekter av driftseffektivitet.

Syftet med granskningen

Driftsträning utvärderas i hela portföljen med hjälp av några mått: tillförlitlighet, prestanda och kostnad. Tillsammans möjliggör dessa egenskaper en snabb utvärdering av hälsotillståndet och lämpligheten för alla tillgångar i portföljen. Dessa mått utvärderas över de tre höjderna för driftshantering.

Utökade åtgärder

  • Baslinje för åtgärder (eller utökad baslinje): Utvärderar driftseffektivitet för alla distribuerade tillgångar oavsett funktion. Den här breda vyn av åtgärder möjliggör genomgripande ändringar och stora effekter, men begränsas av bristande insyn i arkitekturen för enskilda arbetsbelastningar. Alla resurser som distribueras i molnet bör omfattas av en baslinje för åtgärder med regelbundet stöd från molnåtgärder. Vissa miljöer kan kräva en högre grad av driftstöd för att uppfylla behoven i den förbättrade baslinjen.
  • Plattformsåtgärder: Utvärderar driftseffektivitet för centraliserade teknikplattformar. Den här driftsvyn är mer förfinad eftersom den tar hänsyn till plattformens arkitektur och hur ändringar i lösningen kommer att påverka driftseffektiviteten. Ändringar av centrala teknikplattformar kan ha en bred nedströmspåverkan på arbetsbelastningar som stöds. Alla verksamhetskritiska plattformar bör få dedikerad support från ett centralt IT-team.
  • Arbetsbelastningsåtgärder: Utvärderar driftseffektivitet för en enskild arbetsbelastning. Den här vyn av åtgärder är mest förfinad och bör övervägas när förbättringar av driftseffektiviteten kräver ändringar i arkitekturen för en arbetsbelastning. Arbetsbelastningsåtgärder bör följa principerna i Azure Well-Architected Framework. Alla verksamhetskritiska arbetsbelastningar med en aktiv DevOps-cykel bör få dedikerad support från ett arbetsbelastningsteam.

Syftet med översynen av driftseffektiviteten är att regelbundet utvärdera driftseffektiviteten på alla nivåer. Identifierade förbättringar kan sedan tillämpas på lämplig nivå för att informera om de ändringar som krävs för att hantera den övergripande portföljen.

Process för granskning av driftsträning

Nyckeln till att upprätthålla prestanda och kontinuitet i ett företags portfölj är att implementera en process för verksamhetsmässig lämplighetsgranskning.

En översikt över processen för driftsträningsgranskning

Processen har två faser på hög nivå. I förutsättningsfasen upprättas och mappas kraven till stödtjänster. Den här fasen inträffar sällan: kanske årligen eller när nya åtgärder introduceras. Utdata från förutsättningsfasen används i flödesfasen. Flödesfasen sker oftare, till exempel varje månad.

Förutsättningsfas

Stegen i den här fasen samlar in kraven för att utföra en regelbunden granskning av portföljen och eventuella verksamhetskritiska arbetsbelastningar.

  1. Identifiera kritiska affärsåtgärder. Identifiera företagets verksamhetskritiska verksamhet baserat på överenskomna affärsåtaganden. Affärsverksamheten är oberoende av alla stödfunktioner i tjänsten. Med andra ord representerar affärsverksamhet de faktiska aktiviteter som företaget behöver utföra och som stöds av en uppsättning IT-tjänster.

    Termen verksamhetskritisk (eller affärskritisk) återspeglar en allvarlig inverkan på verksamheten om åtgärden hindras. Till exempel kan en onlineåterförsäljare ha en affärsåtgärd, till exempel "göra det möjligt för en kund att lägga till en artikel i en kundvagn" eller "bearbeta en kreditkortsbetalning". Om någon av dessa åtgärder misslyckas kan en kund inte slutföra transaktionen och företaget misslyckas med att realisera försäljningen.

  2. Mappa åtgärder till tjänster. Mappa de kritiska affärsåtgärderna till de IT-tjänster (baslinje, plattform eller arbetsbelastningsåtgärder) som stöder dem. Alla teknikplattformar eller arbetsbelastningar som krävs för att stödja en kritisk affärsfunktion bör också identifieras för att mappa åtgärder och tjänster till ansvariga team.

  3. Analysera tjänstberoenden. De flesta affärsåtgärder kräver orkestrering mellan flera stödarbetsbelastningar och teknikplattformar. Det är viktigt att förstå beroendena mellan varje uppsättning stödjande tillgångar och flödet av verksamhetskritiska transaktioner via dessa tjänster.

    Överväg även beroenden mellan lokala tjänster och Azure-tjänster. I kundvagnsexemplet kan lagerhanteringstjänsten finnas lokalt och mata in data som angetts av anställda från ett fysiskt lager. Den kan dock lagra data lokalt i en Azure-tjänst, till exempel Azure Storage eller en databas, till exempel Azure Cosmos DB.

Utdata från dessa aktiviteter är en uppsättning styrkortsmått för driftshantering . Styrkortet mäter kriterier som tillförlitlighet, prestanda och kostnad. Styrkortsmått uttrycker de operativa kriterier som du förväntar dig att tjänsten ska uppfylla.

Styrkortet bör uttryckas i enkla termer för att underlätta meningsfull diskussion mellan företagsägare, molndrift och arbetsbelastningsteam. Ett styrkortsmått för tillförlitlighet kan till exempel färgkodas baserat på uppnåendet av det överenskomna serviceavtalet. Grönt innebär att uppfylla det definierade serviceavtalet, gult innebär att det inte uppfyller de definierade kriterierna men aktivt implementerar en planerad reparation och rött innebär att de inte uppfyller de definierade kriterierna utan plan eller åtgärd.

Det är viktigt att betona att dessa mått bör återspegla affärsåtaganden direkt.

Tjänstgranskningsfas

Tjänstgranskningsfasen är kärnan i den operativa lämplighetsgranskningen. Det omfattar följande steg:

  1. Mät tjänstmått. Använd styrkortsmåtten för att övervaka prestanda på varje nivå av drifthantering för att säkerställa att tjänsterna uppfyller affärsåtagandena. Inventerings- och synlighetstjänster inom driftsbaslinjen är avgörande. Om du inte kan övervaka en uppsättning resurser i förhållande till affärsåtagandena bör du betrakta motsvarande styrkortsmått som röda. I det här fallet är det första steget för reparation att implementera lämplig tjänstövervakning. Om företaget till exempel förväntar sig att en tjänst ska fungera med 99,99 procents tillgänglighet, men det inte finns någon produktionstelemetri på plats för att mäta tillgängligheten, antar du att du inte uppfyller kravet.

  2. Planera reparation. För varje affärsåtagande som måtten understiger ett acceptabelt tröskelvärde för ska du fastställa lämpligt driftsteam för att slutföra den nödvändiga reparationen. Teamet ansvarar för att beräkna kostnaden för att reparera tjänsten för att få driften till en acceptabel nivå. Om kostnaden för att åtgärda problemet är större än den budget som allokerats till den tjänsten bör central IT/CCoE granska med molnstrategiteamet för att utvärdera ytterligare investeringar.

  3. Implementera reparation. När molnåtgärderna eller arbetsbelastningsteamet har godkänt en plan för reparation implementerar du den. Rapportera status för implementeringen när du granskar styrkortsmått.

Den här processen är iterativ. Det centrala IT-/CCoE-teamet ansvarar för att hantera processen och rapportera om förloppet till molnstrategiteamet. Det här teamet bör träffas regelbundet för att granska befintliga reparationsprojekt, starta den grundläggande granskningen av nya arbetsbelastningar och spåra företagets övergripande styrkort. Teamet bör också ha behörighet att hålla reparationsteam (molnåtgärder eller arbetsbelastningsåtgärder) ansvariga om de är försenade eller inte uppfyller måtten.

Granska möte

Vi rekommenderar att din driftseffektivitet granskas regelbundet. Central IT/CCoE och molndriftsteamet krävs närvaro i granskningen. Teamen för molnstrategi och arbetsbelastningsåtgärder uppmuntras att delta men är i drift. Exempeltakt kan kärnteamet träffas varje månad för att anpassa sig till planerna och hålla olika driftsteam ansvariga. Varje kvartal kan molnstrategin och alla arbetsbelastningsteam ansluta sig för att förstå status och mått.

Anpassa informationen om processen och mötet efter dina specifika behov. Vi rekommenderar följande överväganden som utgångspunkt:

  • Centraliserade åtgärder: Arbetsbelastningsteam kommer sannolikt inte att delta aktivt i processen, men bör inkluderas i alla rapporter för synlighet.
  • Decentraliserade åtgärder: Molndriftsteamet bör dela metodtips som används för att förbättra driften av teknikplattformar med arbetsbelastningsteamen. Arbetsbelastningsteamen bör dela ändringar i sina respektive arbetsbelastningar för att identifiera förbättringar som kan tillämpas på teknikplattformar och driftbaslinjen.
  • Azure Automanage. Azure Automanage övervakar automatiskt driftseffektivitet i hela driftbaslinjen och automatiserar tillämpningen av olika reparationsstrategier i hela portföljen.
  • Azure Advisor. Azure Advisor ger anpassade rekommendationer baserat på din användning och dina konfigurationer för att optimera dina resurser. Som standard ger det här verktyget rekommendationer i en prenumeration för att förbättra driftbaslinjen. Den kan också användas mer detaljerat för att identifiera förbättringar av tekniska plattformar eller enskilda arbetsbelastningar.
  • Microsoft Azure Well-Architected Framework: Vägledning för att förbättra arbetsbelastningsåtgärder eller för att vägleda decentraliserade åtgärder.