Co je Azure Chaos Studio?

Azure Chaos Studio je spravovaná služba, která využívá přípravu chaosu, která vám pomůže měřit, pochopit a zlepšit odolnost cloudových aplikací a služeb. Chaos engineering je metodologie, pomocí které do aplikace vložíte skutečné chyby, aby se spustily řízené experimenty injektáže chyb.

Odolnost je schopnost systému zpracovávat a zotavit se z přerušení. Přerušení aplikace může způsobit chyby a chyby, které mohou nepříznivě ovlivnit vaši firmu nebo misi. Bez ohledu na to, jestli vyvíjíte, migrujete nebo provozujete aplikace Azure, je důležité ověřit a zlepšit odolnost aplikace.

Chaos Studio pomáhá vyhnout se negativním důsledkům tím, že ověří, že vaše aplikace efektivně reaguje na přerušení a selhání. Chaos Studio můžete použít k otestování odolnosti proti incidentům z reálného světa, jako jsou výpadky nebo vysoké využití procesoru na virtuálních počítačích.

Následující video poskytuje další pozadí o Chaos Studiu:

Scénáře aplikace Chaos Studio

Chaos engineering můžete použít pro různé scénáře ověřování odolnosti, které zahrnují životní cyklus vývoje a provozu služeb. Existují dva typy scénářů:

  • Posun doprava: Tyto scénáře používají produkční nebo předprodukční prostředí. Obvykle se scénáře posunu doprava se skutečným provozem zákazníků nebo simulovaným zatížením.
  • Posun doleva: Tyto scénáře můžou používat vývojové nebo sdílené testovací prostředí. Scénáře posunu doleva můžete provádět bez skutečného provozu zákazníků.

Chaos Studio můžete použít pro následující běžné scénáře chaosu:

  • Reprodukujte incident, který ovlivnil vaši aplikaci, aby lépe porozuměla selhání. Ujistěte se, že oprava po incidentu zabrání opakovanému opakování incidentu.
  • Připravte se na hlavní událost nebo sezónu s využitím "herního dne", škálování, výkonu a ověření odolnosti.
  • Proveďte postupy provozní kontinuity a zotavení po havárii, abyste zajistili, že vaše aplikace dokáže rychle obnovit a zachovat důležitá data v havárii.
  • Spuštěním podrobných podrobností vysoké dostupnosti otestujte odolnost aplikace proti výpadkům oblastí, chybám konfigurace sítě, událostem s vysokým zatížením nebo problémům s hlučným sousedem.
  • Vývoj srovnávacích testů výkonu aplikací
  • Plánování potřeb kapacity pro produkční prostředí
  • Spusťte zátěžové testy nebo zátěžové testy.
  • Zajistěte, aby služby migrované z místního nebo jiného cloudového prostředí zůstaly odolné vůči známým selháním.
  • Vytvářejte důvěru ve služby založené na architekturách nativních pro cloud.
  • Ověřte, že živé nástroje webu, data pozorovatelnosti a procesy volání stále fungují v neočekávaných podmínkách.

V mnoha těchto scénářích nejprve vytvoříte odolnost pomocí ad hoc experimentů s chaosem. Pak nepřetržitě ověříte, že nová nasazení nezpochybní odolnost. Pokud to chcete zkontrolovat, spustíte chaos experimenty jako brány nasazení v kanálech průběžné integrace nebo průběžného nasazování.

Jak Chaos Studio funguje

Pomocí nástroje Chaos Studio můžete orchestrovat bezpečné a řízené injektáže chyb na prostředky Azure. Experimenty chaosu jsou jádrem Chaos Studia. Experiment chaosu popisuje chyby, které se mají spustit, a prostředky, které se mají spustit. V závislosti na vašich potřebách můžete uspořádat chyby tak, aby běžely paralelně nebo sekvencovat.

Chaos Studio podporuje dva typy chyb:

  • Přímé služby: Tyto chyby běží přímo proti prostředku Azure bez jakékoli instalace nebo instrumentace. Mezi příklady patří restartování clusteru Azure Cache for Redis nebo přidání latence sítě do podů Azure Kubernetes Service.
  • Na základě agenta: Tyto chyby se spouštějí ve virtuálních počítačích nebo škálovacích sadách virtuálních počítačů, které umožňují provádět selhání v hostech. Mezi příklady patří použití tlaku virtuální paměti nebo zabíjení procesu.

Každá chyba má specifické parametry, které můžete nakonfigurovat, například jaký proces se má zabít nebo kolik paměti se má vygenerovat.

Při vytváření experimentu chaosu definujete jeden nebo více kroků , které se spouštějí postupně. Každý krok obsahuje jednu nebo více větví , které se spouští paralelně v rámci kroku. Každá větev obsahuje jednu nebo více akcí, například vložení chyby nebo čekání na určitou dobu.

Cíle prostředků uspořádáte tak, aby se chyby spouštěly do skupin označovaných jako selektory, abyste mohli snadno odkazovat na skupinu prostředků v každé akci.

Následující diagram znázorňuje rozložení experimentu chaosu v Chaos Studiu:

Diagram that shows the layout of a chaos experiment.

Experiment chaosu je prostředek Azure v předplatném a skupině prostředků. K vytvoření, aktualizaci, spuštění, zrušení a zobrazení stavu experimentů můžete použít Azure Portal nebo rozhraní REST API chaos Studia.

Další kroky

Teď, když rozumíte tomu, jak používat chaosové inženýrství, jste připraveni: