高可用性とディザスターリカバリーのオプションを考察する

15 分

仮想マシン (VM) 向けのソリューションの構想を練るには、まず、IaaS ベースのデプロイで選択できる可用性オプションを把握しておく必要があります。

サービスとしてのインフラストラクチャとサービスとしてのプラットフォームの比較

可用性に関しては、IaaS と PaaS のどちらを選ぶかで違いが出てきます。 IaaS では仮想マシンが提供されます。つまり、SQL Server をインストールしたオペレーティングシステムが存在します。 SQL Server を担当するグループや管理者が、高可用性とディザスターリカバリー (HADR) ソリューションを選択でき、その構成を細かく制御することができます。

Azure SQL Database などの PaaS ベースのデプロイでは、HADR ソリューションは機能に組み込まれており、多くの場合、必要な作業は、それを有効にすることだけです。構成できるオプションはごく限られています。

こうした違いから、IaaS と PaaS のどちらを選択するかで、HADR ソリューションの最終的な設計が大きく変わる場合があります。

Azure 仮想マシンにおける SQL Server の HADR 機能

IaaS を使用している場合は、SQL Server に備わっている機能を使用して可用性を高めることができます。一部のケースでは、Azure レベルの機能と組み合わせて、可用性をさらに高めることができます。

SQL Server に用意されている機能を次の表に示します。

機能名	保護
Always On フェールオーバークラスターインスタンス (FCI)	インスタンス
Always On 可用性グループ (AG)	データベース
ログ配布	データベース

SQL Server のインスタンスとは、SQL Server のインストール全体をいいます。バイナリのほか、ログイン、SQL Server エージェントジョブ、データベースなど、インスタンス内のすべてのオブジェクトが該当します。インスタンスレベルの保護とは、インスタンス全体が可用性機能で考慮されることを意味します。

SQL Server のデータベースには、エンドユーザーとアプリケーションによって使用されるデータが含まれています。 SQL Server が使用するシステムデータベースのほか、エンドユーザーが使用するデータベース、アプリケーションが使用するデータベースもあります。 SQL Server のインスタンスは常に、それ自身のシステムデータベースを保有します。データベースレベルの保護とは、そのデータベースに存在するあらゆるデータ、またはユーザーデータベースとアプリケーションデータベースのトランザクションログにキャプチャされるものすべてが、可用性機能の対象として考慮されることを意味します。データベースの外部に存在するものや、トランザクションログにキャプチャされないもの (SQL Server エージェントジョブ、リンクサーバーなど) は、計画フェールオーバーや計画外のフェールオーバーイベントが発生した場合に宛先サーバーがプライマリのように機能できるよう手動で扱う必要があります。

FCI と AG はどちらも、基になるクラスターのメカニズムを必要とします。 Windows Server 上で実行される SQL Server 環境では Windows Server フェールオーバークラスター (WSFC) が、また Linux では Pacemaker がそれに該当します。

AlwaysOn フェールオーバークラスターインスタンス

FCI は、SQL Server のインストール時に構成されます。 SQL Server のスタンドアロンインスタンスを FCI に変換することはできません。 FCI には、クラスターに参加する基になるサーバー (ノード) とは異なる IP アドレスと一意の名前が割り当てられます。名前と IP アドレスは、基になるクラスターのメカニズムとも異なっている必要があります。アプリケーションとエンドユーザーは、FCI の一意の名前を使用してアクセスすることになります。このように抽象化されているので、インスタンスがどこで実行されているかをアプリケーションが意識する必要はありません。 Azure ベースの FCI とオンプレミスの FCI の大きな違いの 1 つは、Azure では、内部ロードバランサー (ILB) が必要である点です。アプリケーションとエンドユーザーが FCI の一意の名前に対して確実に接続できるようにするために ILB が使用されます。

FCI がクラスター内の別のノードにフェールオーバーすると、それが手動により開始されたものであれ、何かの問題が原因で発生したものであれ、インスタンス全体が別のノードで再起動されます。つまり、このフェールオーバープロセスでは SQL Server が完全に停止されてから起動されます。 FCI に接続されているアプリケーションとエンドユーザーはフェールオーバー中に切断され、その中断を処理して回復する能力を備えたアプリケーションだけが自動的に再接続できます。

別のノードでの起動時に、インスタンスには回復プロセスが適用されます。 FCI は障害発生時点まで整合性が確保されるため、厳密にはデータの損失は発生しませんが、ロールバックを必要とするトランザクションがあれば、回復の過程でロールバックを実行する必要があります。前述のように、これはインスタンスレベルの保護であるため、必要なものはすべて (ログイン、SQL Server エージェントジョブなど) 復元されます。データベースの準備が整ったら、通常どおりに業務を継続することができます。

FCI はデータベースのコピーを 1 つ必要としますが、それが単一障害点にもなります。別のノードからデータベースにアクセスできるようにするには、なんらかの形態の共有記憶域が必要となります。 Windows Server ベースのアーキテクチャでは、Azure Premium ファイル共有、iSCSI、Azure 共有ディスク、記憶域スペースダイレクト (S2D) のほか、サポートされるサードパーティのソリューション (SIOS DataKeeper など) を用いてそれを実現できます。 Standard Edition の SQL Server を使用した FCI で使用できるノードは 2 つまでとなります。 FCI では、他にも Active Directory Domain Services (AD DS) とドメインネームサービス (DNS) を使用する必要があります。つまり、FCI が機能するためには、Azure 内のどこかに AD DS と DNS が導入されている必要があります。

Windows Server 2016 以降を使用している場合、FCI から記憶域レプリカを使用して、FCI 用のネイティブのディザスターリカバリーソリューションを作成できます。ログ配布や AG といった他の機能を使用する必要はありません。

Always On 可用性グループ

AG は SQL Server 2012 Enterprise Edition で導入されましたが、SQL Server 2016 以降では、Standard Edition でも導入されています。 Standard Edition では、AG に含めることのできるデータベースが 1 つであるのに対し、Enterprise Edition では、複数のデータベースを AG に含めることができます。 AG はいくつか FCI と似ている部分もありますが、多くの点で両者は異なります。

FCI と AG の最大の違いは、AG で提供されるのはデータベースレベルの保護であるという点です。プライマリレプリカは、AG に参加しているインスタンスのうち、読み取り/書き込みデータベースを含んでいるインスタンスです。セカンダリレプリカは、プライマリが同期状態を維持するためにログの転送を通じてトランザクションを送信する際の宛先となる場所です。プライマリレプリカからのデータ移動は、同期または非同期で行うことができます。セカンダリレプリカ上のデータベースは "読み込み中" 状態になっています。つまり、トランザクションを受信することはできますが、レプリカがプライマリに切り替わるまでは、完全に書き込み可能なコピーになることはできません。 Standard Edition の AG に含めることができるレプリカは最大 2 つ (プライマリ × 1、セカンダリ × 1) であるのに対し、Enterprise Edition では最大 9 つのレプリカがサポートされます (プライマリ × 1、セカンダリ × 8)。セカンダリレプリカは、データベースのバックアップから初期化されるほか、SQL Server 2016 以降では、"自動シード処理" という機能を使用できるようになりました。自動シード処理は、ログストリームの転送を使用した処理です。構成済みのエンドポイントを使用して、可用性グループの各データベースのセカンダリレプリカにバックアップがストリーム配信されます。

AG は、リスナーを使用して抽象化を実現します。リスナーは、FCI に割り当てられた一意の名前のように機能します。他のどの要素 (WSFC、ノードなど) とも異なる固有の名前と IP アドレスがリスナーには割り当てられます。また、リスナーは ILB を必要とし、停止と起動はリスナーを介して行われます。アプリケーションとエンドユーザーは接続にリスナーを使用できますが、FCI とは異なり、リスナーの使用は任意であり、必ずしも使用する必要はありません。インスタンスに直接接続することもできます。 Enterprise Edition では、必要に応じて読み取り専用アクセスで使用するようにセカンダリレプリカを構成したり、データベース整合性確認 (DBCC) やバックアップなど、他の機能にセカンダリレプリカを使用したりすることができます。

AG は、FCI と比べてフェールオーバー時間が短くて済むため、それがユーザーの関心を引く理由の 1 つとなっています。 AG は共有記憶域を必要としませんが、レプリカごとにデータのコピーが 1 つ存在するため、データベースのコピーの総数が増え、全体的なストレージコストが大きくなります。ストレージは、各レプリカのローカルに存在します。たとえば、プライマリレプリカにおけるデータベースのデータ占有領域が 1 TB である場合、各レプリカも同じだけの領域を占有します。レプリカが 5 つあれば、当然、5 TB の領域が必要になります。

他の SQL Server インスタンスを新しいプライマリレプリカにする必要が生じた場合には、データベースの外部に存在するオブジェクトや、データベースのトランザクションログにキャプチャされないオブジェクトは、そのインスタンスに手動で作成し、その構成要素とする必要があります。手動対応することになるオブジェクトとしては、SQL Server エージェントジョブ、インスタンスレベルのログイン、リンクサーバーなどがあります。 AG で包含データベースを使用できる場合、または Windows 認証を使用できる場合、アクセスが簡素化されます。

高可用性アーキテクチャの導入に際して課題に直面する組織は少なくありませんが、Azure プラットフォームに備わっている高可用性や、Azure SQL Managed Instance などの PaaS ソリューションで得られる高可用性で済む場合もあります。 Azure プラットフォームソリューションに注目する前に、知っておくべき SQL Server 機能がもう 1 つあります。それはログ配布です。

ログ配布

ログ配布は、SQL Server の黎明期から存在していた機能です。バックアップ、コピー、復元に基づく機能であり、SQL Server の HADR を実現する最も単純な方法です。ログ配布は主にディザスターリカバリーに使用されますが、ローカルの可用性を高めるために使用することもできます。

AG と同様、ログ配布によって得られるのはデータベースレベルの保護です。つまり、SQL Server エージェントジョブ、リンクサーバー、インスタンスレベルのログインなどは自分で対応する必要があります。ネイティブでは抽象化が提供されないため、ログ配布に参加する別のサーバーへの切り替えは、名前の変更に耐えられることが求められます。それが不可能である場合でも、DNS エイリアスなどの方法があります。ネットワーク層で DNS エイリアスを構成することによって、名前変更の問題の軽減を図ることができます。

ログ配布メカニズムは単純です。まず、プライマリサーバーにあるソースデータベースの完全バックアップを作成し、別のインスタンス (セカンダリサーバーまたはウォームスタンバイと呼ばれます) 上で、それを "読み込み中" 状態 (STANDBY または NORECOVERY) で復元します。このデータベースの新しいコピーは、セカンダリデータベースと呼ばれます。その後、SQL Server に組み込まれた自動のプロセスによって、プライマリデータベースのトランザクションログが自動的にバックアップされ、そのバックアップがスタンバイサーバーにコピーされて、最後にそこで復元されます。

SQL Server の HADR 機能が、IaaS の可用性を向上させる唯一の方法ではありません。 Azure には、他にも検討すべきいくつかの機能があります。

続行

高可用性とディザスター リカバリーのオプションを考察する

サービスとしてのインフラストラクチャとサービスとしてのプラットフォームの比較

Azure 仮想マシンにおける SQL Server の HADR 機能

AlwaysOn フェールオーバー クラスター インスタンス

Always On 可用性グループ

ログ配布

フィードバック

AlwaysOn フェールオーバークラスターインスタンス