可用性グループでセカンダリレプリカにプライマリレプリカの変更が反映されない理由を判断する

[アーティクル]
04/26/2023

適用対象:SQL Server

クライアントアプリケーションは、プライマリレプリカの更新を正常に完了しますが、セカンダリレプリカのクエリを実行すると、変更が反映されていないことが示されます。この場合、可用性の同期状態は正常であると仮定します。ほとんどの場合、この動作は、数分後に解決します。

変更が数分後にセカンダリレプリカでまだ反映されていない場合、同期ワークフローにボトルネックがある可能性があります。ボトルネックの場所は、セカンダリレプリカが同期コミットまたは非同期コミットのどちらに設定されているかどうかによって異なります。

[同期コミット]

プライマリレプリカでの正常な更新がセカンダリレプリカに既に同期されているか、またはログレコードがセカンダリレプリカでセキュリティ強化のためにフラッシュされています。そのため、ボトルネックは、セカンダリレプリカでログがフラッシュされた後に発生する再実行プロセスにあります。

ただし、再実行の確認後、セカンダリレプリカ上のすべての読み取りワークロードは、スナップショット分離になります。

プライマリレプリカでの実行時間の長いトランザクション
セカンダリレプリケーションでの再実行

[非同期コミット]

非同期コミットでは、トランザクションがローカルディスクにフラッシュされるとすぐに確認をコミットするため、ボトルネックは、その後のどこかの場所で発生する可能性があります。

プライマリレプリカでの実行時間の長いトランザクション
ネットワークの遅延またはスループット
セカンダリレプリカでログの強化
セカンダリレプリカで再実行

以下のセクションでは、プライマリレプリカで変更が読み取り専用クエリでセカンダリレプリカに反映されていない一般的な原因について説明します。

実行時間の長いアクティブなトランザクション

プライマリレプリカでの実行時間の長いトランザクションは、更新がセカンダリレプリカで読み取られることを妨げます。

説明

セカンダリレプリカ上のすべての読み取りワークロードは、スナップショット分離クエリです。スナップショット分離では、読み取り専用のクライアントは、再実行ログ内の最も古いアクティブなトランザクションの開始時点でセカンダリレプリカの可用性データベースを参照します。トランザクションが数時間コミットされていない場合、未完了のトランザクションが、新しい更新を表示できないようにすべての読み取り専用クエリをブロックします。

診断と解決

プライマリレプリカで、DBCC OPENTRAN (Transact-SQL) を使用して、最も古いアクティブなトランザクションを表示し、それらをロールバックできるかどうかを確認します。最も古いアクティブなトランザクションがロールバックされ、セカンダリレプリカに同期された後、セカンダリレプリカ上の読み取りワークロードは、次に古いアクティブなトランザクションの先頭までの可用性データベース内の更新を確認できます。

長いネットワーク遅延またはスループットが低いネットワークは、プライマリレプリカでログの構築の原因になります。

長いネットワーク遅延または低いスループットは、セカンダリレプリカに十分な速さでログが送信されることを妨げます。

説明

プライマリレプリカは、セカンダリレプリカに送信される未確認メッセージの許可される最大数を超えたときにログ送信のフロー制御をアクティブにします。これらのメッセージの一部が確認されるまで、セカンダリレプリカにそれ以上のログブロックを送信できません。このような状況は、データ損失の可能性に重要な影響があり、場合によって、回復ポイントの目標 (RPO) を損なうことがあります。

診断と解決

高い DMV 値 log_send_queue_size は、プライマリレプリカでログが保持されていることを示す可能性があります。この値を log_send_rate で除算すると、セカンダリレプリカでデータがキャッチされるまでの時間の大まかな推定値を得ることができます。

また、2 つのパフォーマンスオブジェクト SQL Server: 可用性レプリカ > フロー制御時間 (ミリ秒/秒) と SQL Server: 可用性レプリカ > フロー制御/秒を確認することも役に立ちます。これら 2 つの値を乗算すると、最後の秒で、フロー制御がクリアされるのを待っていた時間が示されます。長いフロー制御待機時間、小さい送信レート。

以下に、ネットワーク遅延とスループットの診断に役立つメトリックの一覧を示します。 ping.exe などの他の Windows ツールを使用して、ネットワーク使用率を評価できます。

DMV log_send_queue_size
DMV log_send_rate
パフォーマンスカウンターSQL Server:Database > Log Bytes Flushed/sec
パフォーマンスカウンターSQL Server:Database Mirroring > Send/Receive Ack Time
パフォーマンスカウンターSQL Server:Availability Replica > Bytes Sent to Replica/sec
パフォーマンスカウンターSQL Server:Availability Replica > Bytes Sent to Transport/sec
パフォーマンスカウンターSQL Server:Availability Replica > Flow Control Time (ms/sec)
パフォーマンスカウンターSQL Server:Availability Replica > Flow Control/sec
パフォーマンスカウンターSQL Server:Availability Replica > Resent Messages/sec

この問題を解決するには、ネットワーク帯域幅をアップグレードするか、不要なネットワークトラフィックを削除するか減らしてみてください。

別のレポートワークロードが再実行スレッドの実行をブロックする

セカンダリレプリカの再実行スレッドが、実行時間の長い読み取り専用クエリによるデータ定義言語 (DDL) の変更をブロックしています。再実行スレッドが読み取りワークロードで利用できるように追加の更新を提供するには、その前に再実行スレッドがブロック解除される必要があります。

説明

セカンダリレプリカで、読み取り専用のクエリが、スキーマ安定度 (Sch-S) ロックを取得します。これらの Sch-S ロックは、DDL の変更を実行するためのスキーマ変更 (Sch-M) ロックを再実行スレッドが取得できないようにブロックします。ブロックされた再実行スレッドは、ブロック解除されるまで、ログレコードを適用できません。

診断と解決

再実行スレッドがブロックされると、sqlserver.lock_redo_blocked と呼ばれる拡張イベントが生成されます。さらに、DMV sys.dm_exec_request をクエリして、どのセッションが再実行スレッドをブロックしているかを調べ、是正措置を行うことができます。次のクエリでは、再実行スレッドをブロックしているレポートのワークロードのセッション ID を返します。

select session_id, command, blocking_session_id, wait_time, wait_type, wait_resource   
from sys.dm_exec_requests where command = 'DB STARTUP'

レポートワークロードを完了させて、その時点で再実行スレッドをブロック解除させるか、ブロックしているセッション ID で KILL (Transact-SQL) コマンドを実行して直ちに再実行スレッドをブロック解除することができます。

リソースの競合のために再実行スレッドが遅れる

セカンダリレプリカでの大量のレポートワークロードのために、セカンダリレプリカのパフォーマンスが低下し、再実行スレッドが遅れています。

説明

セカンダリレプリカでログレコードを適用しているときに、再実行スレッドがログディスクからログレコードを読み取り、各ログレコードについて、ログレコードを適用するために、データページにアクセスします。ページがバッファープールにまだ存在しない場合、ページアクセスは I/O バウンド (物理ディスクへのアクセス) になる可能性があります。 I/O バウンドのレポートワークロードがある場合、レポートワークロードは、再実行スレッドと I/O リソースを競合し、再実行スレッドの速度が低下することがあります。このような状況は、更新されたデータを読み取るその他のレポートワークロードに影響するだけでなく、RTO にも影響します。

診断と解決

次の DMV クエリを使用して、last_redone_lsn と last_received_lsn の間の違いを測定することで、再実行スレッドがどの程度遅れているかを確認できます。

select recovery_lsn, truncation_lsn, last_hardened_lsn, last_received_lsn,   
   last_redone_lsn, last_redone_time  
from sys.dm_hadr_database_replica_states

再実行スレッドが実際に遅れている場合、セカンダリレプリカのパフォーマンスの低下の根本原因を調査する必要があります。レポートワークロードとの I/O の競合がある場合、リソースガバナーを使用して、レポートワークロードによって使用される CPU サイクルを制御し、取得される I/O サイクルを間接的にある程度制御することができます。たとえば、レポートワークロードが CPU の 10% を消費していても、ワークロードが I/O バウンドになっている場合は、リソースガバナーを使用して、CPU リソースの使用率を 5% に制限し、読み取りワークロードを制限して、I/O への影響を最小限に抑えることができます。

次のステップ

SQL Server 2008 のパフォーマンスに関する問題のトラブルシューティング

可用性グループでセカンダリレプリカにプライマリレプリカの変更が反映されない理由を判断する

実行時間の長いアクティブなトランザクション

説明

診断と解決

長いネットワーク遅延またはスループットが低いネットワークは、プライマリレプリカでログの構築の原因になります。

説明

診断と解決

別のレポートワークロードが再実行スレッドの実行をブロックする

説明

診断と解決

リソースの競合のために再実行スレッドが遅れる

説明

診断と解決

次のステップ

フィードバック

フィードバック

その他のリソース

可用性グループでセカンダリ レプリカにプライマリ レプリカの変更が反映されない理由を判断する

実行時間の長いアクティブなトランザクション

説明

診断と解決

長いネットワーク遅延またはスループットが低いネットワークは、プライマリ レプリカでログの構築の原因になります。

説明

診断と解決

別のレポート ワークロードが再実行スレッドの実行をブロックする

説明

診断と解決

リソースの競合のために再実行スレッドが遅れる

説明

診断と解決

次のステップ

フィードバック

フィードバック

その他のリソース

可用性グループでセカンダリレプリカにプライマリレプリカの変更が反映されない理由を判断する

長いネットワーク遅延またはスループットが低いネットワークは、プライマリレプリカでログの構築の原因になります。

別のレポートワークロードが再実行スレッドの実行をブロックする