Azure SQL Database を使用して世界規模の可用性を備えたサービスを設計する

[アーティクル]
03/23/2023

Azure SQL データベースを使用してクラウドサービスを構築してデプロイするときは、アクティブ geo レプリケーションまたはフェールオーバーグループを使用して、局地的な機能停止や致命的な障害に対する回復力を用意します。同じ機能を使用して、データへのローカルアクセス向けに最適化された、世界規模で分散されたアプリケーションを作成することができます。この記事では一般的なアプリケーションパターンについて説明したうえで、それぞれの選択肢の利点とトレードオフについて説明します。

Note

Premium または Business Critical データベースとエラスティックプールを使用している場合、これらをゾーン冗長デプロイ構成に変換することで、リージョン障害に対する回復性を与えることができます。「ゾーン冗長データベース」をご覧ください。

シナリオ 1:最小限のダウンタイムでのビジネス継続性のための 2 つの Azure リージョンの使用

このシナリオのアプリケーションには次のような特徴があります。

アプリケーションは 1 つの Azure リージョンでアクティブです
すべてのデータベースセッションで、データの読み取りおよび書き込みアクセス (RW) が必要です
待機時間とトラフィックコストを減らすため、Web 層とデータ層を併置する必要があります
基本的に、このようなアプリケーションに対するビジネスリスクは、データの損失よりダウンタイムの方が高くなります

このケースでは、すべてのアプリケーションコンポーネントをまとめてフェールオーバーする必要があるとき、地域ごとの障害に対処するようにアプリケーションのデプロイトポロジが最適化されます。次の図にこのトポロジを示します。地理的な冗長性の場合は、アプリケーションのリソースをリージョン A とリージョン B にデプロイします。ただし、リージョン B のリソースは、リージョン A で障害が発生するまで使われません。データベース接続、レプリケーション、フェールオーバーを管理するため、2 つのリージョンの間にフェールオーバーグループを構成します。両方のリージョンの Web サービスを、読み取り/書き込みリスナー <フェールオーバーグループ名>.database.windows.net を介してデータベースにアクセスするように構成します (1)。優先順位によるルーティング方法を使うように Azure Traffic Manager を設定します (2)。

Note

Azure Traffic Manager は、あくまで例として使用しています。優先順位によるルーティング方法に対応していればどのような負荷分散ソリューションを使ってもかまいません。

この構成の機能停止前の状態を示したのが次の図です。

Scenario 1. Configuration before the outage.

プライマリリージョンで障害が発生すると、SQL Database によりプライマリデータベースにアクセスできないことが検出され、自動フェールオーバーポリシーのパラメーターに基づいてセカンダリリージョンへのフェールオーバーがトリガーされます (1)。アプリケーションの SLA によっては、障害の検出からフェールオーバー発生までの時間を制御する猶予期間を構成できます。フェールオーバーグループがデータベースのフェールオーバーをトリガーする前に、Azure Traffic Manager がエンドポイントのフェールオーバーを開始する可能性があります。その場合、Web アプリケーションはデータベースにすぐに再接続できません。ただし、データベースのフェールオーバーが完了すると、再接続は自動的に成功します。障害が発生したリージョンは復元されてオンラインに戻り、古いプライマリは新しいセカンダリとして自動的に再接続します。次の図では、フェールオーバー後の構成を示します。

Note

フェールオーバー後にコミットされたすべてのトランザクションは、再接続の間に失われます。フェールオーバーが完了した後、リージョン B にアプリケーションは、再接続し、ユーザー要求の処理を再開できます。 Web アプリケーションとプライマリデータベースはどちらもリージョン B に存在するようになり、併置が維持されます。

Scenario 1. Configuration after failover

リージョン B の機能が停止した場合は、プライマリデータベースとセカンダリデータベースの間のレプリケーションプロセスは中断されますが、両者の間のリンクは維持されます (1)。 Traffic Manager でリージョン B への接続が失われたことが検出され、エンドポイントの Web アプリ 2 が "低下" とマークされます (2)。このケースではアプリケーションのパフォーマンスは影響を受けませんが、データベースは保護されていない状態になり、続けてリージョン A で障害が発生するとデータ損失が起こる高いリスクがあります。

Note

ディザスターリカバリーのため、アプリケーションのデプロイ先を 2 つのリージョンに限定する構成にすることをお勧めします。これは、Azure で地理的に割り当てられるリージョンがほとんどの場合 2 つだけであるからです。この構成では、両方のリージョンで同時発生した致命的な障害からアプリケーションは保護されません。万一そのような障害が発生した場合は、geo リストア操作を使って、第 3 のリージョンのデータベースを復元することができます。詳しくは、「Azure SQL Database のディザスターリカバリーガイダンス」をご覧ください。

停止していた機能が復旧すると、セカンダリデータベースがプライマリデータベースと自動的に再同期されます。同期の間に、プライマリデータベースのパフォーマンスが低下することがあります。具体的な影響は、フェールオーバー以降に新しいプライマリが取得したデータの量に依存します。

Note

機能停止が対処されると、Traffic Manager は、優先度が高いエンドポイントとしての、リージョン A にあるアプリケーションへの接続のルーティングを開始します。プライマリをしばらくリージョン B のままにする場合は、それに応じて Traffic Manager プロファイルの優先順位テーブルを変更する必要があります。

次の図は、セカンダリリージョンの機能が停止した場合の例です。

Scenario 1. Configuration after an outage in the secondary region.

この設計パターンの主な利点は次のとおりです。

同じ Web アプリケーションがリージョン固有の構成なしで両方のリージョンにデプロイされ、フェールオーバーを管理するための追加ロジックは必要ありません。
アプリケーションとデータベースが常に併置されるので、フェールオーバーが Web アプリケーションのパフォーマンスに影響することはありません。

主なトレードオフは、ほとんどの期間、リージョン B のアプリケーションリソースの使用率が低いことです。

シナリオ 2: データが最大限に保存されるビジネス継続性のための Azure リージョン

この設計パターンは、以下の特性を持ったアプリケーションに最適な選択肢です。

少しのデータ損失も多大なビジネスリスクを招く。データベースのフェールオーバーはあくまで、機能停止が致命的な障害によるものである場合の最終手段です。
アプリケーションは操作の読み取り専用または読み取り/書き込みモードをサポートし、一定時間は「読み取り専用モード」で機能します。

このパターンでは、読み取り/書き込み接続がタイムアウトエラーを受け取るようになったときにアプリケーションが読み取り専用モードに切り替わります。 Web アプリケーションは両方のリージョンにデプロイされ、読み取りおよび書き込みリスナーエンドポイントへの接続と、読み取り専用リスナーエンドポイントへの別の接続が含まれます (1)。 Traffic Manager プロファイルには、優先順位によるルーティングを使う必要があります。各リージョンのアプリケーションエンドポイントで、エンドポイントの監視を有効にする必要があります (2)。

この構成の機能停止前の状態を示したのが次の図です。

Scenario 2. Configuration before the outage.

Traffic Manager でリージョン A への接続障害が検出されると、ユーザーのトラフィックはリージョン B のアプリケーションインスタンスに自動的に切り替えられます。このパターンでは、データ消失の猶予期間を十分に高い値 (24 時間など) に設定することが重要です。これにより、機能の停止がその期間内に対処された場合にデータ消失を防ぐことができます。リージョン B の Web アプリケーションがアクティブになると、読み取りおよび書き込み操作が失敗するようになります。その時点で、読み取り専用モードに切り替える必要があります (1)。このモードでは、要求が自動的にセカンダリデータベースにルーティングされます。停止の原因が致命的な障害である場合は、通常、猶予期間内に軽減することはできません。期限が切れると、フェールオーバーグループはフェールオーバーをトリガーします。その後、読み取り/書き込みリスナーが使用できるようになり、リスナーに対する接続は失敗しなくなります (2)。次の図は、復旧プロセスの 2 つのステージを示したものです。

Note

プライマリリージョンの停止していた機能が猶予期間内に対処された場合、プライマリリージョンの接続の復旧で Traffic Manager で検出され、ユーザートラフィックがリージョン A のアプリケーションインスタンスに戻されます。そのアプリケーションインスタンスはリージョン A のプライマリデータベースを使って読み取りおよび書き込みモードで再開され、運用されます (前の図を参照)。

Scenario 2. Disaster recovery stages.

リージョン B が停止した場合、Traffic Manager でリージョン B のエンドポイント web-app-2 の障害が検出され、"低下" とマークされます (1)。その間、フェールオーバーグループは読み取り専用リスナーをリージョン A に切り替えます (2)。この停止はエンドユーザーエクスペリエンスに影響を与えませんが、停止中にプライマリデータベースが公開されます。次の図は、セカンダリリージョンで障害が発生した場合の例です。

Scenario 2. Outage of the secondary region.

機能停止が対処されると、セカンダリデータベースが即時にプライマリと同期され、読み取り専用リスナーがリージョン B のセカンダリデータベースに切り戻されます。同期対象のデータの量によっては、プライマリのパフォーマンスが同期中やや低下する場合があります。

この設計パターンには次のようにいくつかの利点があります。

一時的な機能停止の間、データ損失を防ぐことができる。
ダウンタイムを左右するのは、Traffic Manager が接続障害を検出するのにかかる時間のみであり、その時間は設定によって変更可能。

トレードオフは、アプリケーションは読み取り専用モードで動作できなければならないことです。

ビジネス継続性計画:クラウド障害復旧用のアプリケーション設計を選択する

実際のクラウドディザスターリカバリー戦略では、対象アプリケーションのニーズに合わせて、これらの設計パターンを組み合わせたり拡張したりすることができます。既に述べたように、選択すべき戦略は、利用者に提供する SLA とアプリケーションのデプロイトポロジによって異なります。以下の表では、意思決定の目安として、復旧ポイントの目標 (RPO) と推定復旧時間 (ERT) に基づいてそれぞれの選択肢を比較しています。

Pattern	RPO	ERT
アクティブ/パッシブデプロイとデータベース併置によるディザスターリカバリー	読み取り/書き込みアクセス < 5 秒	障害検出時間 + DNS TLL
アクティブ/アクティブデプロイによるアプリケーション負荷分散	読み取り/書き込みアクセス < 5 秒	障害検出時間 + DNS TLL
アクティブ/パッシブデプロイによるデータ保存	読み取り専用アクセス < 5 秒	読み取り専用アクセス = 0
	読み取り/書き込みアクセス = 0	読み取り/書き込みアクセス = 障害検出時間 + データ消失の猶予期間

次のステップ

ビジネス継続性の概要およびシナリオについては、ビジネス継続性の概要を参照してください。
アクティブ geo レプリケーションについては、アクティブ geo レプリケーションに関するページを参照してください。
フェールオーバーグループについては、フェールオーバーグループに関するページを参照してください。
エラスティックプールでのアクティブ geo レプリケーションについては、Elastic Pool のディザスターリカバリー戦略に関するページを参照してください。

Azure SQL Database を使用して世界規模の可用性を備えたサービスを設計する

シナリオ 1:最小限のダウンタイムでのビジネス継続性のための 2 つの Azure リージョンの使用

シナリオ 2: データが最大限に保存されるビジネス継続性のための Azure リージョン

ビジネス継続性計画:クラウド障害復旧用のアプリケーション設計を選択する

次のステップ

フィードバック

フィードバック

その他のリソース