ミッションクリティカルなワークロードに関するアプリケーションプラットフォームの考慮事項

[アーティクル]
07/11/2023

ミッションクリティカルなアーキテクチャの重要な設計領域は、アプリケーションプラットフォームです。プラットフォームとは、アプリケーションをサポートするためにプロビジョニングする必要があるインフラストラクチャコンポーネントと Azure サービスを指します。以下に、包括的な推奨事項をいくつか示します。

レイヤーでのデザイン。適切なサービスセット、それらの構成、アプリケーション固有の依存関係の選択。この階層化アプローチは、論理および物理セグメント化の作成に役立ちます。ロールと機能を定義し、適切な特権とデプロイ戦略を割り当てる場合に便利です。このアプローチにより、最終的にシステムの信頼性が向上します。
ミッションクリティカルなアプリケーションは、信頼性が高く、データセンターや地域の障害に対する耐性を持っている必要があります。アクティブ/アクティブ構成でゾーンとリージョンの冗長性を構築することが主な戦略です。アプリケーションのプラットフォーム用に Azure サービスを選択するときは、複数の Azure リージョンを使用するために、Availability Zones のサポート、デプロイ、運用パターンを検討してください。
スケールユニット ベースのアーキテクチャを使用して、負荷の増加に対処します。スケールユニットを使用すると、リソースを論理的にグループ化できます。ユニットは、アーキテクチャ内の他のユニットやサービスとは無関係にスケーリングできます。容量モデルと予想されるパフォーマンスを使用して、各ユニットの境界、数、ベースラインスケールを定義します。

このアーキテクチャでは、アプリケーションプラットフォームはグローバル、デプロイスタンプ、リージョンのリソースで構成されます。リージョンリソースは、デプロイスタンプの一部としてプロビジョニングされます。各スタンプはスケールユニットに相当し、異常になった場合は完全に置き換えることができます。

各レイヤーのリソースには、それぞれ異なる特性があります。詳細については、一般的なミッションクリティカルなワークロードのアーキテクチャパターンに関する記事を参照してください。

特性	考慮事項
有効期間	ソリューション内の他のリソースと比較して、リソースの予想される有効期間はどれくらいですか? リソースの有効期間をシステムまたはリージョン全体よりも長くするか、共有する必要はありますか。または一時的にする必要がありますか?
State	このレイヤーでの永続化状態が信頼性または管理容易性にどのような影響を与えますか?
リーチ	リソースはグローバルに分散する必要がありますか? リソースは、グローバルまたはリージョン内の他のリソースと通信できますか?
依存関係	グローバルまたは他のリージョンの他のリソースへの依存関係は何ですか?
スケールの上限	そのレイヤーでのそのリソースの予想スループットは何ですか? その需要に合わせてリソースによって提供されるスケールはどのくらいですか?
可用性とディザスターリカバリー	このレイヤーでの可用性または災害への影響は何ですか? システム停止が発生するか、ローカライズされた容量または可用性の問題のみが発生しますか?

グローバルリソース

このアーキテクチャの特定のリソースは、リージョンにデプロイされたリソースによって共有されます。このアーキテクチャでは、トラフィックを複数のリージョンに分散し、アプリケーション全体の永続的状態を格納し、グローバル静的データをキャッシュするために使用されます。

特性	レイヤーに関する考慮事項
有効期間	これらのリソースは長期に存続することが予想されます。その有効期間は、システムの有効期間以上に及びます。ダウンタイムなしの更新操作がサポートされていると仮定すると、多くの場合、リソースはインプレースデータとコントロールプレーンの更新で管理されます。
State	これらのリソースは少なくともシステムの有効期間中に存在するため、このレイヤーは多くの場合、グローバルな geo レプリケート状態を格納する役割を担います。
リーチ	リソースはグローバルに分散する必要があります。これらのリソースは、待機時間が短く、必要な一貫性を持つリージョンまたは他のリソースと通信することをお勧めします。
依存関係	リソースが使用できないのはグローバル障害の原因になる可能性があるため、リソースではリージョンリソースへの依存関係を回避する必要があります。たとえば、1 つのコンテナーに保持されている証明書やシークレットは、コンテナーが配置されているリージョンで障害が発生した場合、グローバルに影響を与える可能性があります。
スケールの上限	多くの場合、これらのリソースはシステム内のシングルトンインスタンスであるため、システム全体のスループットを処理できるようにスケーリングできる必要があります。
可用性とディザスターリカバリー	リージョンおよびスタンプリソースはグローバルリソースを消費したり、グローバルリソースからアクセスされることがあるため、システム全体の正常性のために高可用性とディザスターリカバリーを使用してグローバルリソースを構成することが重要です。

このアーキテクチャでは、グローバルレイヤーリソースは、他のグローバルレイヤーリソースからログとメトリックを格納するための Azure Front Door、Azure Cosmos DB、Azure Container Registry、Azure Log Analytics です。

この設計には、Microsoft Entra ID や Azure DNS など、他にも基本的なリソースがあります。簡潔にするために、この画像では省略されています。

Diagram of the global resources used in this architecture.

グローバルロードバランサー

Azure Front Door は、ユーザートラフィックの唯一のエントリポイントとして使用されます。 Azure では、Azure Front Door が要求されたコンテンツを 99.99% エラーなしで配信することを保証します。詳細については、Front Door サービスの制限に関するページを参照してください。 Front Door が使用できなくなった場合、エンドユーザーはシステムがダウンしていることがわかります。

Front Door インスタンスから、API とフロントエンド SPA をホストするコンピューティングクラスターなど、構成されたバックエンドサービスにトラフィックが送信されます。 Front Door のバックエンドの構成ミスにより、障害が発生する可能性があります。構成ミスによる障害を回避するには、Front Door の設定を広範囲にテストする必要があります。

もう 1 つの一般的なエラーは、TLS 証明書が正しく構成されていないか不足していることが原因で、ユーザーがフロントエンドまたは Front Door を使用してバックエンドと通信できなくなることです。軽減策には手動による介入が必要な場合があります。たとえば、可能であれば、前の構成にロールバックし、証明書を再発行することを選択できます。いずれにせよ、変更が有効になる間は使用できなくなることを想定してください。 Front door によって提供されるマネージド証明書を使用して、有効期限の処理などの運用上のオーバーヘッドを軽減することをお勧めします。

Front Door には、グローバルトラフィックルーティング以外にも多くの追加機能が用意されています。 Front Door では通過しているトラフィックを検査できるため、重要な機能は Web Application Firewall (WAF) です。防止モードで構成すると、バックエンドに到達する前に疑わしいトラフィックがブロックされます。

Front Door の機能の詳細については、Azure Front Door に関してよく寄せられる質問を参照してください。

トラフィックのグローバル分散に関するその他の考慮事項については、適切に設計されたフレームワーク: グローバルルーティングに関するページのミッションクリティカルガイダンスを参照してください。

Container Registry

Azure Container Registry は、Open Container Initiative (OCI) 成果物、特に Helm チャートとコンテナーイメージを格納するために使用されます。要求フローには参加せず、定期的にのみアクセスされます。スタンプリソースがデプロイされる前にコンテナーレジストリが存在する必要があり、リージョンレイヤーリソースへの依存関係を持つべきではありません。

イメージへのランタイムアクセスが高速で障害に対する回復性を備えるように、レジストリのゾーン冗長性と geo レプリケーションを有効にします。使用できない場合、インスタンスはレプリカリージョンにフェールオーバーでき、要求は自動的に別のリージョンに再ルーティングされます。フェールオーバーが完了するまで、イメージをプルする場合は、一時的なエラーが発生することを想定してください。

また、イメージが誤って削除された場合にもエラーが発生する可能性があります。新しいコンピューティングノードはイメージをプルできませんが、既存のノードではキャッシュされたイメージを引き続き使用できます。 ディザスターリカバリーの主な戦略は、再デプロイです。コンテナーレジストリ内の成果物は、パイプラインから再生成できます。コンテナーレジストリは、すべてのデプロイをサポートするために、多数のコンカレント接続に耐えられる必要があります。

Premium SKU を使用して geo レプリケーションを有効にすることをお勧めします。ゾーン冗長性機能により、特定のリージョン内の回復性と高可用性が確保されます。リージョンの障害が発生した場合でも、他のリージョンのレプリカは引き続きデータプレーン操作に使用できます。この SKU を使用すると、プライベートエンドポイントを介したイメージへのアクセスを制限できます。

詳細については、「Azure Container Registry のベストプラクティス」を参照してください。

データベース

すべての状態は、リージョンスタンプから分離されたデータベースにグローバルに格納することをお勧めします。リージョン間でデータベースをデプロイして冗長性を構築します。ミッションクリティカルなワークロードの場合、リージョン間でのデータの同期が主な関心事である必要があります。また、障害が発生した場合でも、データベースへの書き込み要求は引き続き機能している必要があります。

アクティブ/アクティブ構成でのデータレプリケーションを強くお勧めします。アプリケーションは、別のリージョンとすぐに接続できる必要があります。すべてのインスタンスは、読み取り "および" 書き込みの要求を処理できる必要があります。

詳細については、「ミッションクリティカルなワークロードのデータプラットフォーム」を参照してください。

グローバル監視

Azure Log Analytics は、すべてのグローバルリソースからの診断ログを格納するために使用されます。特にロードテストに使用される環境では、ストレージに対する 1 日あたりのクォータを制限することをお勧めします。また、保持ポリシーも設定します。これらの制限により、制限を超えて必要とされないデータを格納することによって発生する過剰使用が防止されます。

基本サービスに関する考慮事項

システムは、Azure DNS や Microsoft Entra ID など、システム全体が危険にさらされる可能性がある他の重要なプラットフォームサービスを使う可能性があります。 Azure DNS では、有効な DNS 要求に対して 100% の可用性 SLA が保証されます。 Microsoft Entra では、99.99% 以上のアップタイムが保証されます。それでも、障害が発生した場合の影響を認識しておく必要があります。

多くの Azure サービスは基本サービスに依存しているため、重い依存関係を取ることは避けられません。システムが使用できない場合は、中断が予想されます。次に例を示します。

Azure Front Door では、Azure DNS を使用してバックエンドやその他のグローバルサービスに到達します。
Azure Container Registry では、Azure DNS を使用して、要求を別のリージョンにフェールオーバーします。

どちらの場合も、Azure DNS が使用できない場合、両方の Azure サービスが影響を受けます。 Front Door からのユーザー要求の名前解決は失敗します。Docker イメージはレジストリからプルされません。外部 DNS サービスをバックアップとして使用しても、多くの Azure サービスではこのような構成が許可されておらず、内部 DNS に依存しているため、リスクは軽減されません。完全な停止が予想されます。

同様に、Microsoft Entra ID は、新しい AKS ノードの作成、Container Registry からのイメージのプル、ポッドの起動時の Key Vault へのアクセスなどのコントロールプレーン操作に使われます。 Microsoft Entra ID を使用できない場合は、既存のコンポーネントは影響を受けないと考えられますが、全体的なパフォーマンスが低下する可能性があります。新しいポッドまたは AKS ノードは機能しません。そのため、この期間中にスケールアウト操作が必要な場合は、ユーザーエクスペリエンスの低下が予想されます。

リージョンデプロイスタンプリソース

このアーキテクチャでは、デプロイスタンプによってワークロードがデプロイされ、ビジネストランザクションの完了に関与するリソースがプロビジョニングされます。スタンプは通常、Azure リージョンへのデプロイに対応します。しかし、リージョンは複数のスタンプを持つことができません。

特性	考慮事項
有効期間	スタンプ外のリージョンリソースが引き続き保持されている間、リソースの追加と削除を動的に行うことができるようにすることを意図して、リソースは短い存続期間 (一時的) が予想されます。一時的な性質は、ユーザーにより多くの回復性、スケール、近接性を提供するために必要です。
State	スタンプは一時的であり、いつでも破棄できるため、スタンプはできるだけステートレスにする必要があります。
リーチ	リージョンおよびグローバルリソースと通信できます。ただし、他のリージョンや他のスタンプとの通信は避ける必要があります。このアーキテクチャでは、これらのリソースをグローバルに分散する必要はありません。
依存関係	スタンプリソースは独立している必要があります。つまり、他のリージョンの他のスタンプやコンポーネントに依存するべきではありません。リージョンとグローバルの依存関係が必要です。主な共有コンポーネントは、データベースレイヤーとコンテナーレジストリです。このコンポーネントでは、実行時に同期が必要です。
スケールの上限	スループットはテストによって確立されます。スタンプ全体のスループットは、最もパフォーマンスの低いリソースに制限されます。スタンプのスループットは、リージョン内の別のスタンプが使用できなくなった結果として、予想される高レベルの需要とフェールオーバーを考慮する必要があります。
可用性とディザスターリカバリー	スタンプの一時的な性質のため、ディザスターリカバリーはスタンプを再デプロイすることによって行われます。リソースが異常な状態にある場合は、スタンプ全体を破棄して再デプロイできます。

このアーキテクチャでは、スタンプリソースは Azure Kubernetes Service、Azure Event Hubs、Azure Key Vault、Azure Blob Storage です。

Diagram that depicts the resources in the ephemeral stamp for this architecture.

スケールユニット

スタンプはスケールユニット (SU) と見なすこともできます。特定のスタンプ内のすべてのコンポーネントとサービスは、特定の範囲内で要求を処理するように構成され、テストされます。実装で使用されるスケールユニットの例を次に示します。

Diagram that shows stamp resources in a scale unit.

各スケールユニットは Azure リージョンにデプロイされるため、主にその特定の領域からのトラフィックを処理します (ただし、必要に応じて他のリージョンからのトラフィックを引き継ぐ可能性があります)。この地理的な広がりにより、ロードパターンと営業時間が地域によって異なる可能性があるため、すべての SU はアイドル時にスケールインまたはスケールダウンするように設計されます。

スケーリングする新しいスタンプをデプロイできます。スタンプ内では、個々のリソースをスケールの単位にすることもできます。

1 つのユニットで Azure サービスを選択する場合のスケーリングと可用性に関する考慮事項を次に示します。

スケールユニット内のすべてのリソース間の容量関係を評価します。たとえば、100 個の受信要求を処理するには、5 つのイングレスコントローラーポッド、3 つのカタログサービスポッド、Azure Cosmos DB で 1000 RU が必要です。そのため、イングレスポッドを自動スケールする場合は、その範囲に応じたカタログサービスと Azure Cosmos DB RU のスケーリングを想定します。
サービスをロードテストして、要求が処理される範囲を決定します。結果に基づいて、最小インスタンスと最大インスタンスとターゲットメトリックを構成します。ターゲットに到達したら、ユニット全体のスケーリングを自動化することを選択できます。
Azure サブスクリプションのスケール制限とクォータを確認して、ビジネス要件によって設定された容量とコストモデルをサポートします。また、考慮に入れる個々のサービスの制限も確認してください。ユニットは一緒にデプロイされるのが一般的であるため、カナリアデプロイに必要なサブスクリプションリソースの制限を考慮します。詳細については、Azure サービスの制限に関するページを参照してください。
可用性ゾーンをサポートするサービスを選択して、冗長性を構築します。これにより、テクノロジの選択肢が制限される可能性があります。詳細については、Availability Zones に関するページを参照してください。

ユニットのサイズとリソースの組み合わせに関するその他の考慮事項については、適切に設計されたフレームワーク: スケールユニットアーキテクチャに関するページのミッションクリティカルガイダンスを参照してください。

コンピューティングクラスター

ワークロードをコンテナー化するには、各スタンプでコンピューティングクラスターを実行する必要があります。このアーキテクチャでは、Kubernetes が最新のコンテナー化されたアプリケーションで最も一般的なコンピューティングプラットフォームであるため、Azure Kubernetes Service (AKS) が選択されています。

AKS クラスターの有効期間は、スタンプの一時的な性質にバインドされます。 クラスターはステートレスであり、永続ボリュームがありません。マネージドディスクの代わりにエフェメラル OS ディスクが使用されます。これは、アプリケーションまたはシステムレベルのメンテナンスを受けることが想定されていないためです。

信頼性を高めるために、クラスターは、特定のリージョンの 3 つの可用性ゾーンをすべて使用するように構成されています。これにより、AKS コントロールプレーンの 99.95% の SLA 可用性を保証する AKS アップタイム SLA をクラスターで使用できるようになります。

スケール制限、コンピューティング容量、サブスクリプションクォータなどのその他の要因も、信頼性に影響を与える可能性があります。十分な容量がない場合、または制限に達した場合、スケールアウト操作とスケールアップ操作は失敗しますが、既存のコンピューティングが機能することが期待されます。

クラスターでは自動スケールが有効になっており、必要に応じてノードプールが自動的にスケールアウトされるため、信頼性が向上します。複数のノードプールを使用する場合は、すべてのノードプールを自動スケールする必要があります。

ポッドレベルでは、ポッドの水平オートスケーラー (HPA) によって、構成された CPU、メモリ、またはカスタムメトリックに基づいてポッドがスケーリングされます。ワークロードのコンポーネントをロードテストして、自動スケーラーと HPA 値のベースラインを確立します。

また、クラスターは、ノードイメージの自動アップグレードと、それらのアップグレード中に適切にスケーリングするように構成されます。このスケーリングにより、アップグレードの実行中にダウンタイムをゼロにできます。アップグレード中に 1 つのスタンプ内のクラスターが失敗した場合、他のスタンプ内の他のクラスターは影響を受けませんが、可用性を維持するために、スタンプ間のアップグレードは異なる時点で行われる必要があります。また、クラスターのアップグレードは、同時に使用できないように、ノード間で自動的にロールされます。

cert-manager や ingress-nginx などの一部のコンポーネントでは、外部コンテナーレジストリからのコンテナーイメージが必要です。これらのリポジトリまたはイメージが使用できない場合は、新しいノード (イメージがキャッシュされていない) 上の新しいインスタンスを開始できない可能性があります。これらのイメージを環境の Azure Container Registry にインポートすることで、このリスクを軽減できます。

スタンプは一時的であるため、このアーキテクチャでは可観測性が重要です。診断設定は、すべてのログとメトリックデータをリージョンの Log Analytics ワークスペースに格納するように構成されます。また、AKS Container Insights は、クラスター内 OMS エージェントを介して有効になります。このエージェントを使用すると、クラスターから Log Analytics ワークスペースに監視データを送信できます。

コンピューティングクラスターに関するその他の考慮事項については、適切に設計されたフレームワーク: コンテナーオーケストレーションと Kubernetes に関するページのミッションクリティカルのガイダンスを参照してください。

Key Vault

Azure Key Vault は、データベースへの接続文字列や Event Hubs 接続文字列などのスタンプシークレットといったグローバルシークレットを格納するために使用されます。

このアーキテクチャでは、コンピューティングクラスター内のシークレットストア CSI ドライバーを使用して、Key Vault からシークレットを取得します。シークレットは、新しいポッドが生成されるときに必要です。 Key Vault が使用できない場合は、新しいポッドが開始されない可能性があります。その結果、中断が発生する可能性があります。スケールアウト操作が影響を受け、更新が失敗すし、新しいデプロイを実行することができない可能性があります。

Key Vault では、操作の数に制限があります。シークレットの自動更新により、ポッドが多数ある場合は制限に達する可能性があります。この状況を回避するために、更新の頻度を減らすことができます。

シークレット管理に関するその他の考慮事項については、適切に設計されたフレームワーク: データ整合性保護に関するページのミッションクリティカルのガイダンスを参照してください。

Event Hubs

スタンプ内の唯一のステートフルサービスは、短期間要求を格納するメッセージブローカー (Azure Event Hubs) です。ブローカーは、バッファリングと信頼性の高いメッセージングの必要性に対応します。処理された要求はグローバルデータベースに保持されます。

このアーキテクチャでは、Standard SKU が使用され、高可用性のためにゾーン冗長性が有効になっています。

Event Hubs の正常性は、コンピューティングクラスターで実行されている HealthService コンポーネントによって検証されます。さまざまなリソースに対して定期的なチェックを実行します。これは、異常な状態を検出する場合に役立ちます。たとえば、メッセージをイベントハブに送信できない場合、スタンプはどの書き込み操作でも使用できなくなります。 HealthService は、この状態を自動的に検出し、異常な状態を Front Door に報告する必要があります。これにより、スタンプがローテーションから除外されます。

スケーラビリティのためには、自動インフレを有効にすることをお勧めします。

詳細については、「ミッションクリティカルなワークロードのメッセージングサービス」を参照してください。

メッセージングに関するその他の考慮事項については、適切に設計されたフレームワーク: 非同期メッセージングに関するページのミッションクリティカルのガイダンスを参照してください。

ストレージアカウント

このアーキテクチャでは、2 つのストレージアカウントがプロビジョニングされます。どちらのアカウントもゾーン冗長モード (ZRS) でデプロイされます。

Event Hubs のチェックポイント処理に、1 つのアカウントが使用されます。このアカウントが応答しない場合、スタンプは Event Hubs からのメッセージを処理できず、スタンプ内の他のサービスにも影響を与える可能性があります。この条件は、コンピューティングクラスターで実行されているアプリケーションコンポーネントの 1 つである HealthService によって定期的にチェックされます。

もう 1 つは、UI シングルページアプリケーションをホストするために使用されます。静的 Web サイトのサービスに問題がある場合、Front Door は問題を検出し、このストレージアカウントにトラフィックが送信されません。この間、Front Door ではキャッシュされたコンテンツを使用できます。

復旧の詳細については、「ディザスターリカバリーとストレージアカウントのフェールオーバー」を参照してください。

リージョンリソース

システムは、リージョンにデプロイされているが、スタンプリソースよりも長く存在するリソースを持つことができます。このアーキテクチャでは、スタンプリソースの可観測データがリージョンのデータストアに格納されます。

特性	考慮事項
有効期間	リソースはリージョンの有効期間を共有し、スタンプリソースをライブで公開します。
State	リージョンに格納されている状態は、リージョンの有効期間を超えて存続することはできません。リージョン間で状態を共有する必要がある場合は、グローバルデータストアの使用を検討してください。
リーチ	リソースをグローバルに分散する必要はありません。他のリージョンとの直接通信は、必ず回避する必要があります。
依存関係	スタンプは有効期間が短いため、リソースはグローバルリソースに依存できますが、スタンプリソースには依存しません。
スケールの上限	リージョン内のすべてのスタンプを組み合わせて、リージョンリソースのスケール制限を決定します。

スタンプリソースのデータの監視

監視リソースのデプロイは、リージョンリソースの一般的な例です。このアーキテクチャでは、各リージョンには、スタンプリソースから出力されたすべてのログとメトリックデータを格納するように個別の Log Analytics ワークスペースが構成されています。リージョンリソースはスタンプリソースよりも長く存続するため、スタンプが削除された場合でもデータを使用できます。

Azure Log Analytics と Azure Application Insights は、プラットフォームからのログとメトリックを格納するために使用されます。特にロードテストに使用される環境では、ストレージに対する 1 日あたりのクォータを制限することをお勧めします。また、すべてのデータを格納するアイテム保持ポリシーを設定します。これらの制限により、制限を超えて必要とされないデータを格納することによって発生する過剰使用が防止されます。

同様に、Application Insights も、すべてのアプリケーション監視データを収集するリージョンリソースとしてデプロイされます。

監視に関する設計上の推奨事項については、適切に設計されたフレームワーク: 正常性モデリングに関するページのミッションクリティカルのガイダンスを参照してください。

次のステップ

参照実装をデプロイして、このアーキテクチャで使用されているリソースとその構成を完全に理解します。

実装: Mission-Critical Online

Share via

ミッションクリティカルなワークロードに関するアプリケーションプラットフォームの考慮事項

グローバルリソース

グローバルロードバランサー

Container Registry

データベース

グローバル監視

基本サービスに関する考慮事項

リージョンデプロイスタンプリソース

スケールユニット

コンピューティングクラスター

Key Vault

Event Hubs

ストレージアカウント

リージョンリソース

スタンプリソースのデータの監視

次のステップ

フィードバック

フィードバック

その他のリソース

Share via

ミッション クリティカルなワークロードに関するアプリケーション プラットフォームの考慮事項

グローバル リソース

グローバル ロード バランサー

Container Registry

データベース

グローバル監視

基本サービスに関する考慮事項

リージョン デプロイ スタンプ リソース

スケール ユニット

コンピューティング クラスター

Key Vault

Event Hubs

ストレージ アカウント

リージョン リソース

スタンプ リソースのデータの監視

次のステップ

フィードバック

フィードバック

その他のリソース

ミッションクリティカルなワークロードに関するアプリケーションプラットフォームの考慮事項

グローバルリソース

グローバルロードバランサー

リージョンデプロイスタンプリソース

スケールユニット

コンピューティングクラスター

ストレージアカウント

リージョンリソース

スタンプリソースのデータの監視