Overzicht van de pijler betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Het ontwerpen van tolerantie in uw toepassingsraamwerk zorgt ervoor dat uw workloads beschikbaar zijn en op elke schaal kunnen worden hersteld van storingen.

Bouwen voor betrouwbaarheid omvat:

  • Zorgen voor een architectuur met hoge beschikbaarheid
  • Herstellen van fouten, zoals gegevensverlies, grote downtime of ransomware-incidenten

Als u de betrouwbaarheid van uw workload wilt beoordelen met behulp van de basaets in het Microsoft Azure Well-Architected Framework, verwijst u naar de Microsoft Azure Well-Architected Beoordeling.

Bekijk de volgende video over dieper ingaan op de betrouwbaarheid van Azure-workloads voor meer informatie:

Bij de traditionele manier om toepassingen te ontwikkelen werd altijd de nadruk gelegd op het verlengen van de gemiddelde tijd tussen storingen (MBTF). Er werd geprobeerd te voorkomen dat er fouten optraden in het systeem. Bij cloud-computing is een andere instelling vereist vanwege verschillende factoren:

  • Gedistribueerde systemen zijn complex en een storing in één punt kan mogelijk doorwerken in het hele systeem.
  • De kosten voor cloudomgevingen worden laag gehouden via basishardware, dus af en toe moeten hardwarefouten worden verwacht.
  • Toepassingen zijn vaak afhankelijk van externe services, die mogelijk tijdelijk niet beschikbaar zijn of kunnen vertragen bij grote aantallen gebruikers.
  • Hedendaagse gebruikers verwachten dat een toepassing 24/7 beschikbaar is zonder ooit offline te gaan.

Al deze factoren betekenen dat cloudtoepassingen zo moeten worden ontworpen dat incidentele fouten worden verwacht en dat ze daarvan herstellen. Azure biedt veel flexibiliteitsfuncties die zijn ingebouwd in het platform. Bijvoorbeeld:

  • Azure Storage, SQL Database en Cosmos DB bieden allemaal ingebouwde gegevensreplicatie tussen beschikbaarheidszones en regio's.
  • Azure Managed Disks worden automatisch in verschillende kasten geplaatst om de gevolgen van hardwarefouten te beperken.
  • Virtuele machines (VM's) in een beschikbaarheidsset worden verdeeld over verschillende foutdomeinen. Een foutdomein is een groep VM's die een gemeenschappelijke voedingsbron en netwerks switch delen. Doordat VM's over foutdomeinen zijn verdeeld, zijn de gevolgen van problemen met de fysieke hardware, netwerkstoringen of stroomonderbrekingen beperkt.
  • Beschikbaarheidszones fysiek gescheiden locaties binnen elke Azure-regio. Elke zone bestaat uit een of meer datacenters die zijn uitgerust met onafhankelijke stroomvoorziening, koeling en netwerkinfrastructuur. Met beschikbaarheidszones kunt u toepassingen en databases ontwerpen en gebruiken die automatisch zonder onderbreking tussen zones overstappen, wat zorgt voor tolerantie als één zone wordt beïnvloed. Voor meer informatie verwijzen we naar Regio's en Beschikbaarheidszones in Azure.

U moet echter nog steeds tolerantie in uw toepassing inbouwen. Strategieën voor flexibiliteit kunnen worden toegepast op alle niveaus van de architectuur. Sommige oplossingen zijn tactischer van aard, bijvoorbeeld het opnieuw proberen van een externe aanroep na een tijdelijke netwerkfout. Andere oplossingen zijn strategischer, zoals een failover van de gehele toepassing naar een secundaire regio. Tactische oplossingen kunnen een groot verschil maken. Hoewel het zelden voorkomt dat een hele regio te maken heeft met een onderbreking, komen tijdelijke problemen zoals netwerkcongestie vaker voor, dus richt u zich eerst op deze problemen. Het is ook belangrijk over de juiste controle en diagnose te beschikken, zowel om fouten te kunnen detecteren op het moment dat ze optreden als om de belangrijkste oorzaken te vinden.

Als u een toepassing ontwerpt die flexibel moet zijn, dient u de vereisten voor beschikbaarheid te kennen. Hoeveel downtime is nog aanvaardbaar? De hoeveelheid downtime is deels een functie van de kosten. Wat zijn de kosten voor uw bedrijf van potentiële downtime? Hoeveel moet u investeren om de toepassing een hoge mate van beschikbaarheid mee te geven?

Onderwerpen en best practices

De pijler betrouwbaarheid bevat de volgende onderwerpen en best practices om u te helpen een flexibele workload te bouwen:

Onderwerp over betrouwbaarheid Description
Betrouwbaarheidsprincipes Deze kritieke principes worden gebruikt als lenzen om de betrouwbaarheid te beoordelen van een toepassing die in Azure is geïmplementeerd.
Ontwerpen voor betrouwbaarheid Denk na over hoe systemen Beschikbaarheidszones, schaalbaarheid uitvoeren, reageren op fouten en andere strategieën die de betrouwbaarheid van het toepassingsontwerp optimaliseren.
Controlelijst voor tolerantie voor specifieke Azure-services Elke technologie heeft zijn eigen specifieke foutmodi, die u moet overwegen bij het ontwerpen en implementeren van uw toepassing. Gebruik deze controlelijst om de tolerantieoverwegingen voor specifieke Azure-services te controleren.
Doelvereisten en niet-functionele vereisten Met doelvereisten en niet-functionele vereisten, zoals beschikbaarheidsdoelen en hersteldoelen, kunt u de uptime en downtime van uw workloads meten. Het is van cruciaal belang om duidelijk gedefinieerde doelen te hebben om mee te werken en te meten.
Tolerantie en afhankelijkheden Het inbouwen van foutherstel in het systeem moet deel uitmaken van de architectuur- en ontwerpfasen vanaf het begin om het risico op fouten te voorkomen. Afhankelijkheden zijn vereist om de toepassing volledig te laten werken.
Beschikbaarheidszones Beschikbaarheidszones kunnen worden gebruikt om een oplossing te verdelen over meerdere zones binnen een regio, zodat een toepassing blijft functioneren wanneer één zone uitvalt.
Beschikbaarheid van services De beschikbaarheid van services in Azure-regio's is afhankelijk van het type van een regio. Het algemene beleid van Azure voor het implementeren van services in een bepaalde regio wordt voornamelijk aangestuurd door het type regio, de servicecategorieën en de vraag van de klant.
Terminologie van beschikbaarheidszone Om meer inzicht te krijgen in regio's en beschikbaarheidszones in Azure, helpt het om de belangrijkste termen of concepten te begrijpen.
Aanbevolen procedures Tijdens de architectuurfase richt u zich op implementatiemethoden die voldoen aan uw zakelijke behoeften, identificeert u zwakke punten en minimaliseert u het bereik van fouten.
Testen op betrouwbaarheid Regelmatige tests moeten worden uitgevoerd als onderdeel van elke belangrijke wijziging om bestaande drempelwaarden, doelen en veronderstellingen te valideren.
Controleren op betrouwbaarheid Krijg een algemeen beeld van de toepassingstoestand. Als er iets mislukt, moet u weten dat het is mislukt, wanneer het is mislukt en waarom.
Betrouwbaarheidspatronen Toepassingen moeten worden ontworpen en geïmplementeerd om de beschikbaarheid te maximaliseren.

Volgende stap