Azure SQL Database エラスティックプールを使用したアプリケーションのディザスターリカバリー戦略

[アーティクル]
04/26/2023

Azure SQL Database には、壊滅的な状況が発生した場合にアプリケーションのビジネス継続性を提供するための機能がいくつかあります。エラスティックプールと Single Database は、同様のディザスターリカバリー (DR) 機能をサポートしています。この記事では、Azure SQL Database のこれらのビジネス継続性機能を活用する、エラスティックプールのいくつかの DR 戦略について説明します。

この記事では、次のような標準的な SaaS ISV アプリケーションパターンを使用します。

最新のクラウドベースの Web アプリケーションが、エンドユーザーごとに 1 つのデータベースをプロビジョニングします。 ISV は多数の顧客を抱えており、テナントデータベースと呼ばれる多数のデータベースを使用します。通常、テナントデータベースのアクティビティパターンは予測できないため、ISV はエラスティックプールを使用して、長期間にわたるデータベースコストを予測可能にします。エラスティックプールは、ユーザーアクティビティが急増した場合のパフォーマンスの管理も簡略化します。アプリケーションは、テナントデータベースだけでなく、ユーザープロファイルの管理、セキュリティの確保、使用パターンの収集などのためのデータベースもいくつか使用します。個々のテナントの可用性は、アプリケーションの可用性全体には影響しません。ただし、管理データベースの可用性とパフォーマンスは、アプリケーションの機能にとって重要であり、管理データベースがオフラインになると、アプリケーション全体がオフラインになります。

この記事では、費用重視型スタートアップアプリケーションから、厳しい可用性要件があるアプリケーションまで、さまざまなシナリオを対象とした DR 戦略について説明します。

Note

Premium または Business Critical データベースとエラスティックプールを使用している場合、これらをゾーン冗長デプロイ構成に変換することで、リージョン障害に対する回復性を与えることができます。「ゾーン冗長データベース」をご覧ください。

シナリオ 1. 費用重視型スタートアップ

新規事業を立ち上げたところであり、コストに非常に敏感になっています。アプリケーションのデプロイと管理は簡略化する一方で、個々の顧客に対する SLA は制限付きでもよいと思っています。ただし、全体的には、アプリケーションがオフラインになることがないようにしたいと考えています。

簡素化の要件を満たすために、すべてのテナントデータベースを選択した Azure リージョンの 1 つのエラスティックプールにデプロイし、管理データベースを geo レプリケートされる Single Database としてデプロイする必要があります。テナントのディザスターリカバリーには、geo リストアを使用します。この機能は、追加コストなしで利用できます。管理データベースの可用性を確保するには、フェールオーバーグループを使用して管理データベースを別のリージョンに geo レプリケートする必要があります (手順 1)。このシナリオでのディザスターリカバリー構成の継続的なコストは、セカンダリデータベースの合計コストと等しくなります。この構成を次の図に示します。

プライマリリージョンで障害が発生した場合にアプリケーションをオンラインにするための復旧手順を、次の図に示します。

フェールオーバーグループが DR リージョンへの管理データベースの自動フェールオーバーを開始します。アプリケーションは新しいプライマリに自動的に再接続され、新しいアカウントとテナントデータベースがすべて DR リージョンに作成されるようになります。既存の顧客は、データが一時的に使用不可になります。
元のプールと同じ構成で、エラスティックプールを作成します (2)。
geo リストアを使用して、テナントデータベースのコピーを作成します (3)。エンドユーザー接続ごとに個々の復元をトリガーすることを検討してもよいほか、その他のアプリケーション固有の優先度スキームを使用することもできます。

この時点で、アプリケーションは DR リージョンでオンラインに戻りますが、一部の顧客がデータにアクセスするときに遅延が発生します。

障害が一時的であった場合は、DR リージョンですべてのデータベースの復元が完了する前に、プライマリリージョンが Azure によって復旧されることがあります。その場合は、プライマリリージョンへのアプリケーションの移動を調整する必要があります。この処理の手順は、次の図のようになります。

未処理のすべての geo リストア要求を取り消します。
管理データベースをプライマリリージョンにフェールオーバーします (5)。リージョンの復旧後、古いプライマリは自動的にセカンダリになります。ここで、もう一度役割を切り替えます。
アプリケーションの接続文字列を、元のプライマリリージョンを示す文字列に変更します。これで、新しいアカウントとテナントデータベースがすべてプライマリリージョンに作成されるようになります。一部の既存の顧客は、データが一時的に使用不可になります。
DR プール内のすべてのデータベースを読み取り専用に設定して、DR リージョンで変更できないようにします (6)。
復旧後に変更された DR プール内のデータベースごとに、プライマリプール内の対応するデータベースの名前を変更するか、そのデータベースを削除します (7)。
更新されたデータベースを DR プールからプライマリプールにコピーします (8)。
DR プールを削除します (9)。

この時点で、アプリケーションはプライマリリージョンでオンラインになり、プライマリプールですべてのテナントデータベースが使用可能になります。

長所

この戦略の主なメリットは、データ層の冗長性を確保するための継続的なコストが低いことです。 Azure SQL Database を使用すると、アプリケーションを書き換えることなく、追加コストなしでデータベースを自動的にバックアップすることができます。コストは、エラスティックデータベースが復元されるときにのみ発生します。

トレードオフ

トレードオフは、すべてのテナントデータベースの完全な復旧に長時間かかることです。必要な時間は、DR リージョンで開始する復元の合計数と、テナントデータベース全体のサイズによって決まります。一部のテナントの復元を他より優先する場合でも、同じリージョンで開始される他のすべての復元との競合が発生します。これは、既存の顧客のデータベースへの全体的な影響を最小限にするために、サービスが調停および調整されるためです。また、テナントデータベースの復旧は、DR リージョンで新しいエラスティックプールが作成されるまで開始できません。

シナリオ 2. 階層化されたサービスを備えた成熟したアプリケーション

階層化されたサービスプランを備え、試用版を利用している顧客と有料の顧客とで異なる SLA を持つ、成熟した SaaS アプリケーションがあります。試用版の顧客については、できるだけコストを削減する必要があります。試用版の顧客にはダウンタイムが生じてもかまいませんが、その可能性は低くします。有料の顧客には、ダウンタイムは契約を失いかねないリスクです。そのため、有料の顧客は常にデータにアクセスできるようにします。

このシナリオを実現するには、試用版のテナントを別のエラスティックプールに置くことによって、試用版のテナントと有料のテナントを分離する必要があります。試用版の顧客は、テナントあたりの eDTU または仮想コアが低く、SLA が低レベルで、復旧時間が長くなります。有料の顧客は、テナントあたりの eDTU または仮想コアが高いプールに配置され、SLA が高レベルになります。最短の復旧時間を保証するために、有料の顧客のテナントデータベースは geo レプリケートする必要があります。この構成を次の図に示します。

Diagram shows a primary region and a D R region which employ geo-replication between the management database and paid customers primary pool and secondary pool with no replication for the trial customers pool.

最初のシナリオと同様に、管理データベースはかなりアクティブに使用されるので、geo レプリケートされる Single Database を使用します (1)。そうすることで、新しい顧客サブスクリプションやプロファイルの更新などの管理操作について、予測可能なパフォーマンスが保証されます。管理データベースのプライマリが存在するリージョンがプライマリリージョンになり、管理データベースのセカンダリが存在するリージョンが DR リージョンになります。

有料の顧客のテナントデータベースについては、プライマリリージョンにプロビジョニングされた "有料" プール内にアクティブなデータベースが配置されます。 DR リージョン内に、同じ名前のセカンダリプールをプロビジョニングしてください。各テナントは、セカンダリプールに geo レプリケートされます (2)。そうすることで、フェールオーバーを使用して、すべてのテナントデータベースを迅速に復旧することができます。

プライマリリージョンで障害が発生した場合にアプリケーションをオンラインにするための復旧手順を、次の図に示します。

Diagram shows an outage for the primary region, with failover to the management database, paid customer secondary pool, and creation and restore for trial customers.

すぐに管理データベースを DR リージョンにフェールオーバーします (3)。
アプリケーションの接続文字列を、DR リージョンを指すように変更します。これで、新しいアカウントとテナントデータベースがすべて DR リージョンに作成されるようになります。既存の試用版の顧客は、一時的にデータを使用できなくなります。
可用性をすぐに回復させるために、有料のテナントのデータベースを DR リージョンのプールにフェールオーバーします (4)。フェールオーバーは、迅速なメタデータレベルの変更であるため、エンドユーザー接続ごとにオンデマンドで個々のフェールオーバーがトリガーされる最適化を検討してください。
セカンダリデータベースがセカンダリである間は変更ログを処理する容量しか必要ないため、セカンダリプールの eDTU サイズまたは仮想コアの値がプライマリよりも小さかった場合は、すぐにプールの容量を増やして、すべてのテナントのワークロードに完全に対応できるようにする必要があります (5)。
試用版の顧客のデータベース用に、DR リージョンに同じ名前と構成で新しいエラスティックプールを作成します (6)。
試用版の顧客のプールが作成されたら、geo リストアを使用して、新しいプールに個々の試用テナントデータベースを復元します (7)。エンドユーザー接続ごとに個々の復元をトリガーすることを検討するか、その他のアプリケーション固有の優先度スキームを使用してください。

この時点で、アプリケーションは DR リージョンでオンラインに戻ります。有料の顧客はいずれもデータにアクセスできますが、試用版の顧客はデータにアクセスするときに遅延が発生します。

DR リージョンでアプリケーションを復元した後で、Azure によってプライマリリージョンが復旧される場合は、DR リージョンでアプリケーションを実行し続けることも、プライマリリージョンにフェールバックすることもできます。フェールオーバー処理が完了する "前" に、プライマリリージョンが復旧される場合は、直ちにフェールバックすることを考慮する必要があります。フェールバックの手順は、次の図のようになります。

Diagram shows failback steps to implement after restoring the primary region.

未処理のすべての geo リストア要求を取り消します。
管理データベースをフェールオーバーします (8)。リージョンの復旧後、古いプライマリは自動的にセカンダリになります。これが再びプライマリになります。
有料テナントデータベースをフェールオーバーします (9)。同様に、リージョンの復旧後、古いプライマリは自動的にセカンダリになります。これらが再びプライマリになります。
DR リージョンで変更された、復元された試用データベースを、読み取り専用に設定します (10)。
復旧後に変更された、試用版の顧客の DR プール内のデータベースごとに、試用版の顧客のプライマリプール内にある対応するデータベースの名前を変更するか、そのデータベースを削除します (11)。
更新されたデータベースを DR プールからプライマリプールにコピーします (12)。
DR プールを削除します (13)。

注意

フェールオーバー操作は非同期です。復旧時間を最小限に抑えるには、少なくとも 20 個のデータベースをひとまとめにして、テナントデータベースのフェールオーバーコマンドを実行することが重要です。

長所

この戦略の主なメリットは、有料の顧客に最高の SLA を提供できることです。また、試用 DR プールが作成されしだい、新たな試用がブロックされなくなることも保証できます。

トレードオフ

トレードオフは、このセットアップでは、有料顧客用のセカンダリ DR プールのコストによって、テナントデータベースの総コストが増加することです。さらに、セカンダリプールのサイズが異なる場合は、フェールオーバー後、DR リージョンでプールのアップグレードが完了するまで、有料の顧客に対するパフォーマンスが低下します。

シナリオ 3. 階層化されたサービスを備え、地理的に分散したアプリケーション

階層化したサービスプランを備えた、成熟した SaaS アプリケーションがあります。有料の顧客に極めて高い SLA を提供し、障害発生時の影響のリスクを最小限に抑えたいと考えています。短い中断でも、顧客は不満に感じるためです。有料の顧客が常にデータにアクセスできることが重要です。試用版は無料であり、試用期間中は SLA は提供されません。

このシナリオをサポートするには、3 つの個別のエラスティックプールを使用します。有料の顧客のテナントデータベースを格納するには、データベースあたりの eDTU または仮想コアが高い 2 つの同じサイズのプールを、2 つの異なるリージョンにプロビジョニングしてください。試用版のテナントを含む 3 つ目のプールは、データベースあたりの eDTU または仮想コアは低くなり、2 つのリージョンのいずれかにプロビジョニングされます。

障害時に最短の復旧時間を保証するために、有料の顧客のテナントデータベースは、プライマリデータベースを 50% ずつという割合で、2 つのリージョンそれぞれに geo レプリケートします。同様に、各リージョンにセカンダリデータベースを 50% ずつ配置します。こうすることで、リージョンがオフラインになった場合、有料の顧客のデータベースの 50% だけが影響を受け、フェールオーバーされることになります。他のデータベースは影響を受けず、そのまま残ります。この構成を示したのが次の図です。

Diagram shows a primary region called Region A and secondary region called Region B which employ geo-replication between the management database and paid customers primary pool and secondary pool with no replication for the trial customers pool.

前のシナリオと同様に、管理データベースはかなりアクティブに使用されるので、geo レプリケートされる Single Database として構成する必要があります (1)。そうすることで、新しい顧客サブスクリプションやプロファイルの更新などの管理操作について、予測可能なパフォーマンスが保証されます。リージョン A は管理データベースのプライマリリージョンになり、リージョン B は管理データベースの復旧のために使用されます。

有料の顧客のテナントデータベースも geo レプリケートされますが、プライマリとセカンダリがリージョン A とリージョン B に分割されます (2)。こうすることで、障害の影響を受けたテナントプライマリデータベースを他のリージョンにフェールオーバーし、使用可能にすることができます。残りの半分のテナントデータベースはまったく影響を受けません。

次の図は、リージョン A で障害が発生した場合に実行する復旧手順を示しています。

Diagram shows an outage for the primary region, with failover to the management database, paid customer secondary pool, and creation and restore for trial customers to region B.

すぐに管理データベースをリージョン B にフェールオーバーします (3)。
アプリケーションの接続文字列を、リージョン B 内の管理データベースを指すように変更します。管理データベースを変更し、新しいアカウントとテナントデータベースがリージョン B に作成されるようにすると共に、既存のテナントデータベースもそこで見つかるようにします。既存の試用版の顧客は、一時的にデータを使用できなくなります。
可用性をすぐに回復させるために、有料のテナントのデータベースをリージョン B のプール 2 にフェールオーバーします (4)。フェールオーバーは、迅速なメタデータレベルの変更であるため、エンドユーザー接続ごとにオンデマンドで個々のフェールオーバーがトリガーされる最適化を検討することもできます。
これで、プール 2 にはプライマリデータベースだけが含まれるようになり、プールの総ワークロードが増えるため、すぐに eDTU サイズまたは仮想コア数を増やすことができます (5)。
試用版の顧客のデータベース用に、リージョン B に同じ名前と構成で新しいエラスティックプールを作成します (6)。
プールが作成されたら、geo リストアを使用して、プールに個々の試用テナントデータベースを復元します (7)。エンドユーザー接続ごとに個々の復元をトリガーすることを検討してもよいほか、その他のアプリケーション固有の優先度スキームを使用することもできます。

注意

この時点で、アプリケーションはリージョン B でオンラインに戻ります。有料の顧客はいずれもデータにアクセスできますが、試用版の顧客はデータにアクセスするときに遅延が発生します。

リージョン A が復旧するときに、試用版の顧客のためにリージョン B を使用するか、試用版の顧客のリージョン A のプールを使用してフェールバックするかを判断する必要があります。判断条件の 1 つは、復旧以降に変更された試用テナントデータベースの割合です。判断に関係なく 2 つのプール間で有料のテナントを再調整する必要があります。次の図は、試用版のテナントデータベースがリージョン A にフェールバックするときの処理を示しています。

Diagram shows failback steps to implement after restoring Region A.

試用 DR プールへの未処理のすべての geo リストア要求を取り消します。
管理データベースをフェールオーバーします (8)。リージョンの復旧後、古いプライマリは自動的にセカンダリになっています。これが再びプライマリになります。
どの有料テナントデータベースをプール 1 にフェールバックするかを選択し、セカンダリへのフェールオーバーを開始します (9)。リージョンの復旧後に、プール 1 のすべてのデータベースは自動的にセカンダリになっています。これで、それらの 50% が再びプライマリになります。
プール 2 のサイズを元の eDTU または仮想コア数に戻します (10)。
リージョン B 内の復元されたすべての試用データベースを読み取り専用に設定します (11)。
復旧後に変更された試用 DR プール内のデータベースごとに、試用プライマリプール内の対応するデータベースの名前を変更するか、そのデータベースを削除します (12)。
更新されたデータベースを DR プールからプライマリプールにコピーします (13)。
DR プールを削除します (14)。

長所

この戦略の主なメリットは、次のとおりです。

障害が 50% を超えるテナントデータベースに影響することはないため、有料の顧客のために最高レベルの SLA をサポートできます。
復旧中に試用 DR プールが作成されしだい、新たな試用がブロックされなくなることを保証できます。
プール 1 とプール 2 のセカンダリデータベースの 50% はプライマリデータベースよりもアクティブに使用されなくなるため、プールの容量をより効率的に使用できます。

トレードオフ

主なトレードオフは、次のとおりです。

管理データベースに対する CRUD 操作の遅延は、リージョン A に接続しているエンドユーザーの方がリージョン B に接続しているエンドユーザーよりも短くなります。この操作は、管理データベースのプライマリに対して実行されるためです。
管理データベースに、より複雑な設計が必要になります。たとえば、各テナントレコードには、フェールオーバーとフェールバック時に変更する必要がある場所タグが必要です。
リージョン B のプールのアップグレードが完了するまで、有料の顧客に対するパフォーマンスが通常よりも低下することがあります。

まとめ

この記事では、SaaS ISV マルチテナントアプリケーションで使用されるデータベース層のディザスターリカバリー戦略に焦点を当てています。戦略は、ビジネスモデル、顧客に提供する SLA、予算の制約など、アプリケーションのニーズに基づいて選択する必要があります。各戦略のメリットとトレードオフの概要が説明されているため、それを参考にして判断できます。また、アプリケーションによっては、他の Azure コンポーネントが含まれることがあります。したがって、ビジネス継続性ガイダンスを確認し、こうしたコンポーネントとデータベース層の復旧を調整する必要があります。 Azure でデータベースアプリケーションの復旧を管理する方法の詳細については、ディザスターリカバリーのためのクラウドソリューションの設計に関するページをご覧ください。

次のステップ

Azure SQL Database 自動バックアップの詳細については、Azure SQL Database の自動バックアップに関するページを参照してください。
ビジネス継続性の概要およびシナリオについては、ビジネス継続性の概要に関する記事を参照してください。
自動バックアップを使用して復旧する方法については、サービス主導のバックアップからのデータベース復元に関するページをご覧ください
より迅速な復旧オプションについては、アクティブ geo レプリケーションとフェールオーバーグループに関する記事を参照してください。
自動バックアップを使用したアーカイブについては、データベースのコピーに関する記事を参照してください。

Azure SQL Database エラスティックプールを使用したアプリケーションのディザスターリカバリー戦略

シナリオ 1. 費用重視型スタートアップ

長所

トレードオフ

シナリオ 2. 階層化されたサービスを備えた成熟したアプリケーション

長所

トレードオフ

シナリオ 3. 階層化されたサービスを備え、地理的に分散したアプリケーション

長所

トレードオフ

まとめ

次のステップ

フィードバック

フィードバック

その他のリソース

Azure SQL Database エラスティック プールを使用したアプリケーションのディザスター リカバリー戦略

シナリオ 1. 費用重視型スタートアップ

長所

トレードオフ

シナリオ 2. 階層化されたサービスを備えた成熟したアプリケーション

長所

トレードオフ

シナリオ 3. 階層化されたサービスを備え、地理的に分散したアプリケーション

長所

トレードオフ

まとめ

次のステップ

フィードバック

フィードバック

その他のリソース

Azure SQL Database エラスティックプールを使用したアプリケーションのディザスターリカバリー戦略