ダウンタイムとデータ損失を最小限に抑えた可用性グループサーバーのアップグレードおよび更新

[アーティクル]
03/06/2017

SQL Server 2012 のサーバーインスタンスをサービスパックで更新するとき、または新しいバージョンにアップグレードするときに、順次更新または順次アップグレードを実行することにより、可用性グループのダウンタイムを手動フェールオーバー 1 回分のみに抑えることができます。 SQL Server のバージョンをアップグレードする場合、この操作をローリングアップグレードと呼びます。現在のバージョンの SQL Server に修正プログラムまたはサービスパックを適用して更新する場合、この操作をローリングアップデートと呼びます。

ここでは、SQL Server のアップグレードまたは更新についてのみ説明します。高可用性SQL Server インスタンスが実行されているオペレーティングシステム関連のアップグレード/更新については、「オペレーティングシステムアップグレードのための AlwaysOn 可用性グループのクロスクラスター移行」を参照してください。

AlwaysOn 可用性グループのローリングアップグレードおよびローリングアップデートのベストプラクティス

サーバーのアップグレードまたは更新の際に可用性グループのダウンタイムとデータ損失を最小限に抑えるには、次のベストプラクティスに従ってください。

ローリングアップグレードまたはローリングアップデートを開始する前に、次の操作を実行します。
- 少なくとも 1 つの同期コミットレプリカで試験的に手動フェールオーバーを実行する。
- すべての可用性データベースを対象にデータベースの完全バックアップを実行し、データを保護する。
- すべての可用性データベースに対して DBCC CHECKDB コマンドを実行する。
常に、最初はリモートのセカンダリレプリカノード、次にローカルのセカンダリレプリカノード、最後にプライマリレプリカノードという順序でアップグレードまたは更新してください。
アップグレード中のデータベースでバックアップを実行することはできません。セカンダリレプリカをアップグレードする前に、プライマリレプリカでのみバックアップを実行するように自動バックアップ設定を構成します。プライマリレプリカをアップグレードする前に、この設定を変更してセカンダリレプリカでのみバックアップを実行するようにします。
アップグレードプロセスまたは更新プロセスの間に可用性グループが誤ってフェールオーバーされることを防ぐために、作業開始前にすべての同期コミットレプリカから可用性フェールオーバーを削除してください。
最初にセカンダリレプリカを使用して可用性グループをアップグレード済みノードにフェールオーバーした後で、プライマリレプリカノードをアップグレードするようにしてください。このベストプラクティスに従わなかった場合、プライマリレプリカでのアップグレードまたは更新の際にクライアントアプリケーションで長時間のダウンタイムが発生する可能性があります。
可用性グループは常に同期コミットセカンダリレプリカノードにフェールオーバーしてください。非同期コミットセカンダリレプリカにフェールオーバーした場合、データベースでデータ損失が発生し、データ移動が自動的に中断されます。データ移動を再開するには、手動で操作する必要があります。
他のセカンダリレプリカノードをアップグレードまたは更新する前に、プライマリレプリカノードをアップグレードまたは更新しないでください。アップグレードされたプライマリレプリカから、同じバージョンにまだアップグレードされていないセカンダリレプリカにログを送信できなくなります。セカンダリレプリカへのデータ移動が中断されているときには、そのレプリカに対する自動フェールオーバーは実行されず、可用性データベースでデータ損失が発生する危険性が高まります。
可用性グループをフェールオーバーする前に、フェールオーバーターゲットの同期状態が SYNCHRONIZED であることを確認してください。

ローリングアップグレードおよびローリングアップデートのプロセス

実際のプロセスは、可用性グループの配置トポロジや各レプリカのコミットモードなどの要因によって変わります。ただし、最も単純なシナリオにおけるローリングアップグレードおよびローリングアップデートは、次の手順で構成される単純な複数段階のプロセスになります。

HADR シナリオでの可用性グループのアップグレード HADR シナリオ

すべての同期コミットレプリカの自動フェールオーバーを削除する。
非同期コミットセカンダリレプリカを実行しているリモートサーバーインスタンスをすべてアップグレードまたは更新する。
プライマリレプリカを現在実行していないローカルサーバーインスタンスをすべてアップグレードまたは更新する。
可用性グループを手動で同期コミットセカンダリレプリカにフェールオーバーする。
それまでプライマリレプリカをホストしていたサーバーインスタンスをアップグレードまたは更新する。
必要に応じて自動フェールオーバーパートナーを構成する。

必要であれば、さらに手動でフェールオーバーを実行して、可用性グループを元の構成に戻すこともできます。

1 つのリモートセカンダリレプリカを含む可用性グループ

災害復旧のみを目的として可用性グループを配置していた場合、可用性グループを非同期コミットセカンダリレプリカにフェールオーバーする必要がある場合があります。次の図に、そのような構成の例を示します。

DR シナリオでの可用性グループのアップグレード DR シナリオ

この場合には、ローリングアップグレードまたはローリングアップデートの際に可用性グループを非同期コミットセカンダリレプリカにフェールオーバーする必要があります。データ損失を防ぐために、コミットモードを同期コミットに変更し、セカンダリレプリカが同期されるまで待ってから、可用性グループをフェールオーバーします。そのため、ローリングアップグレードまたはローリングアップデートのプロセスは次のようになります。

リモートサーバーをアップグレードまたは更新する。
コミットモードを同期コミットに変更する。
同期状態が SYNCHRONIZED になるまで待機する。
可用性グループをリモートサイトにフェールオーバーする。
ローカル (プライマリサイト) サーバーをアップグレードまたは更新する。
可用性グループをプライマリサイトにフェールオーバーする。
コミットモードを非同期コミットに変更する。

同期コミットモードはリモートサイトとのデータ同期には推奨されない設定であるため、設定の変更後、クライアントアプリケーションでデータベース待機時間が急増する可能性があります。さらに、フェールオーバーを実行すると未確認のログメッセージがすべて破棄されます。 2 つのサイト間のネットワーク待機時間が長い場合、破棄されるログメッセージの数が膨大になり、クライアントで大量のトランザクションエラーが発生する可能性があります。クライアントアプリケーションへの影響を最小限に抑えるには、次の操作を行います。

クライアントトラフィックが少ない時間帯にメンテナンス予定を設定する。
プライマリサイトの SQL Server をアップグレードまたは更新する際に可用性モードを非同期コミットに戻し、プライマリサイトへの再フェールオーバーの準備が完了したときに、同期コミットに戻す。

フェールオーバークラスターインスタンスノードを含む可用性グループ

可用性グループにフェールオーバークラスターインスタンス (FCI) ノードが含まれている場合、非アクティブなノードをアップグレードまたは更新した後で、アクティブなノードをアップグレードまたは更新する必要があります。次の図では、ローカルでの可用性を高めるために FCI を使用し、リモートのディザスターリカバリーのために FCI 間の非同期コミットを使用する、一般的な可用性グループのシナリオを示します。さらに、アップグレード手順も示しています。

FCIs を使用した可用性グループのアップグレード FCI を

REMOTE2 のアップグレード/更新
FCI2 を REMOTE2 にフェールオーバーする。
REMOTE1 のアップグレード/更新
PRIMARY2 のアップグレード/更新
FCI1 を PRIMARY2 にフェールオーバーする。
PRIMARY1 のアップグレード/更新

複数の可用性グループを含む SQL Server インスタンスのアップグレードまたは更新

プライマリレプリカが別々のサーバーノードに存在する (アクティブ/アクティブ構成) 可用性グループが複数実行されている場合、アップグレードまたは更新の際には高可用性を維持するためのフェールオーバー手順を追加で実行する必要があります。次の表に示すように、3 つのサーバーノードで 3 つの可用性グループが実行され、すべてのセカンダリレプリカが同期コミットモードで実行されているとします。

可用性グループ	Node1	Node2	Node3
AG1	プライマリ
AG2		プライマリ
AG3			プライマリ

この状況では、次の順序で負荷分散ローリングアップグレードまたはローリングアップデートを実行することが適切であると考えられます。

AG2 を Node3 にフェールオーバーする (Node2 を解放)。
Node2 をアップグレードまたは更新する。
AG1 を Node2 にフェールオーバーする (Node1 を解放)。
Node1 をアップグレードまたは更新する。
AG2 および AG3 を Node1 にフェールオーバーする (Node3 を解放)。
Node3 のアップグレード/更新
AG3 を Node3 にフェールオーバーする。

この順序でアップグレードまたは更新を実行した場合、1 つの可用性グループに対して 2 回のフェールオーバーを実行するよりも平均ダウンタイムが小さくなります。実行後の構成は、次の表のようになります。

可用性グループ	Node1	Node2	Node3
AG1		プライマリ
AG2	プライマリ
AG3			プライマリ

実際の実装方法に応じて、アップグレードまたは更新の手順が変わる可能性があります。また、クライアントアプリケーションで発生するダウンタイムも変わります。

Share via

ダウンタイムとデータ損失を最小限に抑えた可用性グループサーバーのアップグレードおよび更新

AlwaysOn 可用性グループのローリングアップグレードおよびローリングアップデートのベストプラクティス

ローリングアップグレードおよびローリングアップデートのプロセス

1 つのリモートセカンダリレプリカを含む可用性グループ

フェールオーバークラスターインスタンスノードを含む可用性グループ

複数の可用性グループを含む SQL Server インスタンスのアップグレードまたは更新

その他のリソース

Share via

ダウンタイムとデータ損失を最小限に抑えた可用性グループ サーバーのアップグレードおよび更新

AlwaysOn 可用性グループのローリング アップグレードおよびローリング アップデートのベスト プラクティス

ローリング アップグレードおよびローリング アップデートのプロセス

1 つのリモート セカンダリ レプリカを含む可用性グループ

フェールオーバー クラスター インスタンス ノードを含む可用性グループ

複数の可用性グループを含む SQL Server インスタンスのアップグレードまたは更新

その他のリソース

ダウンタイムとデータ損失を最小限に抑えた可用性グループサーバーのアップグレードおよび更新

AlwaysOn 可用性グループのローリングアップグレードおよびローリングアップデートのベストプラクティス

ローリングアップグレードおよびローリングアップデートのプロセス

1 つのリモートセカンダリレプリカを含む可用性グループ

フェールオーバークラスターインスタンスノードを含む可用性グループ