Microsoft 365 でのデータ回復性のExchange Online

重要

メールボックス のコンテンツを保持するさまざまな方法に投資し続ける中で、Exchange Onlineの Exchange 管理センター (EAC) でのIn-Place保留の廃止を発表します。 2020 年 7 月 1 日から、新しいIn-Place保留を作成することはできません。 ただし、EAC でIn-Place保留を管理したり、PowerShell で Set-MailboxSearch コマンドレットExchange Online使用したりすることはできます。 ただし、2020 年 10 月 1 日以降は、In-Place保留を管理することはできません。 EAC または Remove-MailboxSearch コマンドレットを使用してのみ削除できます。 Exchange Serverおよび Exchange ハイブリッド展開でのIn-Place保留の使用は引き続きサポートされます。 Exchange OnlineでのIn-Place保留の廃止の詳細については、「従来の電子情報開示ツールの廃止」を参照してください。

インプレース保持では、削除済みアイテムと変更されたアイテムの元のバージョンを含む、すべてのメールボックスのコンテンツが保持されます。 In-Place eDiscovery 検索で、このようなメールボックスのすべてのアイテムが返されます。 ユーザーのメールボックスにIn-Place保留を配置すると、対応するアーカイブ メールボックスの内容 (有効になっている場合) も保留状態になり、電子情報開示検索で返されます。

Exchange データベースに影響を与える可能性がある破損には、通常、ハードウェア (特にストレージ ハードウェア) の問題によって引き起こされる物理的な破損と、他の要因が原因で発生する論理的な破損の 2 種類があります。 一般に、Exchange データベース内で発生する可能性がある論理破損には、次の 2 種類があります。

  • データベース論理破損 - データベース ページチェックサムは一致しますが、ページ上のデータが論理的に正しくありません。 これは、データベース エンジン (拡張可能記憶域エンジン (ESE)) がデータベース ページを書き込もうとしたときに、オペレーティング システムが成功メッセージを返しても、データがディスクに書き込まれなかったり、間違った場所に書き込まれたりしたときに発生する可能性があります。 これは、ロスト フラッシュと呼ばれます。 ESE には、データベースやその他のデータ損失シナリオの物理的な破損を防ぐために設計された多数の機能とセーフガードが含まれています。 失われたフラッシュがデータを失うのを防ぐために、ESE には、データベースに失われたフラッシュ検出メカニズムと、それを修正するための機能 (単一ページの復元) が含まれています。
  • 論理的な破損を格納する - データは、ユーザーが期待しない方法で追加、削除、または操作されます。 これらのケースは、サード パーティ製のアプリケーションによって発生します。 通常は、ユーザーが破損と見なすという意味で破損します。 Exchange ストアは、論理的破損を引き起こすトランザクションを一連の有効な MAPI 操作として見なします。 Exchange Onlineのインプレースホールド機能は、ストアの論理的な破損からの保護を提供します (コンテンツがユーザーまたはアプリケーションによって完全に削除されないようにするため)。

Exchange Onlineは、ログ検査とログ再生の両方で、レプリケートされたログ ファイルに対していくつかの整合性チェックを実行します。 これらの整合性チェックにより、システムによって物理的な破損がレプリケートされるのを防ぎます。 たとえば、ログ検査中に、ログ ファイルを検証し、ログ ファイルに記録されたチェックサムがメモリで生成されたチェックサムと一致することを検証する物理整合性チェックがあります。 さらに、ログ ファイル ヘッダーを調べて、ログ ヘッダーに記録されたログ ファイル署名がログ ファイルの署名と一致することを確認します。 ログ再生中、ログ ファイルはさらなる調査を受ける。 たとえば、データベース ヘッダーには、ログ ファイルの署名と比較して一致するようにログ署名も含まれます。

Exchange Onlineのメールボックス データの破損に対する保護は、Exchange Native Data Protection を使用して実現されます。これは、複数のサーバーや複数のデータセンター間のアプリケーション レベルのレプリケーションと、破損やその他の理由でデータが失われるのを防ぐ他の機能を活用する回復戦略です。 これらの機能には、Microsoft またはExchange Online アプリケーション自体によって管理される次のようなネイティブ機能が含まれます。

  • データ可用性グループ
  • 単一ビット修正
  • オンライン データベース スキャン
  • 失われたフラッシュ検出
  • 単一ページの復元
  • メールボックス レプリケーション サービス
  • ログ ファイルのチェック
  • 回復性の高いファイル システムへのデプロイ

前に示したネイティブ機能の詳細については、ハイパーリンクを選択し、ハイパーリンクのないアイテムの追加情報と詳細については、次を参照してください。 これらのネイティブ機能に加えて、Exchange Onlineには、次のようなお客様が管理できるデータ回復機能も含まれています。

データベース可用性グループ

Microsoft 365 のすべてのメールボックス データベースは、 データベース可用性グループ (DAG) でホストされ、同じリージョン内の地理的に分離されたデータセンターにレプリケートされます。 最も一般的な構成は、4 つのデータセンター内の 4 つのデータベース コピーです。ただし、一部のリージョンではデータセンターが少なくなります (データベースはインドの 3 つのデータセンターにレプリケートされ、オーストラリアと日本では 2 つのデータセンターにレプリケートされます)。 ただし、いずれの場合も、すべてのメールボックス データベースには、複数のデータセンターに分散される 4 つのコピーがあり、これにより、メールボックス データがソフトウェア、ハードウェア、データセンターの障害から確実に保護されます。

これら 4 つのコピーのうち、3 部は高可用性として構成されています。 4 番目のコピーは 、ラグド データベース コピーとして構成されます。 ラグド データベース のコピーは、個々のメールボックスの回復またはメールボックス アイテムの回復を目的としていません。 その目的は、システム全体で致命的な論理的破損が発生するまれなイベントに対する回復メカニズムを提供することです。

Exchange Onlineのラグド データベース コピーは、7 日間のログ ファイル再生ラグタイムで構成されます。 さらに、Exchange Replay Lag Manager を有効にすると、ラグド コピーに対して動的ログ ファイルを再生して、ラグされたデータベース コピーを自己修復し、ログ ファイルの増加を管理できます。 ラグド データベース コピーはExchange Onlineで使用されますが、保証されたポイントインタイム バックアップではない点を理解しておくことが重要です。 Exchange Onlineのラグド データベース コピーの可用性のしきい値は、通常は約 90% です。これは、ディスク障害が原因でラグド コピーを含むディスクが失われる期間、(自動再生が原因で) 可用性の高いコピーになるラグド コピー、およびラグド データベース コピーがログ再生キューを再構築している期間です。

トランスポートの回復性

Exchange Onlineには、シャドウ冗長性とセーフティ ネットという 2 つの主要なトランスポート回復性機能が含まれています。 シャドウ冗長は、転送中にメッセージの冗長コピーを保持します。 Safety Net は、メッセージが正常に配信された後、メッセージの冗長コピーを保持します。

シャドウ冗長を使用すると、各Exchange Online トランスポート サーバーは、受信した各メッセージのコピーを作成してから、送信側サーバーにメッセージを正常に受信したことを確認します。 これにより、転送中にトランスポート パイプライン内のすべてのメッセージが冗長になります。 転送中に元のメッセージが失われたと判断Exchange Online場合は、メッセージの冗長コピーが再配信されます。

Safety Net は、メールボックス サーバー上のトランスポート サービスに関連付けられているトランスポート キューです。 このキューにより、サーバーによって正常に処理されたメッセージのコピーが保存されます。 メールボックス データベースまたはサーバーエラーでメールボックス データベースの古いコピーをアクティブ化する必要がある場合、セーフティ ネット キュー内のメッセージは、メールボックス データベースの新しいアクティブなコピーに自動的に再送信されます。 セーフティ ネットも冗長であるため、単一障害点としてのトランスポートが排除されます。 プライマリ セーフティ ネットとシャドウ セーフティ ネットの概念を使用します。プライマリ セーフティ ネットが 12 時間以上使用できない場合、再送信要求はシャドウ再送信要求になり、メッセージはシャドウ セーフティ ネットから再配信されます。

Safety Net からのメッセージ再送信は、DAG とメールボックス データベースのコピーを管理する Microsoft Exchange レプリケーション サービスの Active Manager コンポーネントによって自動的に開始されます。 Safety Net からメッセージを再送信するための手動操作は必要ありません。

単一ビット修正

ESE には、ハードウェア エラー (および物理的な破損を表す) の結果であるシングルビット CRC エラー (シングルビット フリップとも呼ばれます) を検出して解決するメカニズムが含まれています。 これらのエラーが発生すると、ESE によって自動的に修正され、イベント ログにイベントが記録されます。

オンライン データベース スキャン

オンライン データベース スキャン ( データベース チェックの合計とも呼ばれます) は、ESE がデータベース整合性チェッカーを使用して各ページを読み取り、ページの破損を確認するプロセスです。 主な目的は、トランザクション操作によって検出されない可能性がある物理的な破損と失われたフラッシュを検出することです。 データベース スキャンでは、ストア後のクラッシュ操作も実行されます。 クラッシュが原因で領域が漏洩する可能性があり、オンライン データベース スキャンによって失われた領域が検出され、回復されます。 このシステムは、すべてのデータベースが 7 日に 1 回完全にスキャンされることを想定して設計されています。

失われたフラッシュ検出

失われたフラッシュは、ディスク サブシステム/オペレーティング システムが完了したときに返されたデータベース書き込み操作が実際にディスクに書き込まれなかったり、間違った場所に書き込まれたりしたときに発生します。 失われたフラッシュ インシデントはデータベースの論理的な破損を招く可能性があるため、失われたフラッシュがデータを失うのを防ぐために、ESE には失われたフラッシュ検出メカニズムが含まれます。 データベース ページがパッシブ コピーに書き込まれると、アクティブ コピーで失われたフラッシュのチェックが実行されます。 失われたフラッシュが検出された場合、ESE はページ修正プロセスを使用してプロセスを修復できます。

単一ページの復元

単一ページの復元 ( ページ 修正プログラムとも呼ばれます) は、破損したデータベース ページを正常なレプリカからの正常なコピーに置き換える自動プロセスです。 破損したページの修復プロセスは、データベース コピーがアクティブであるかパッシブであるかによって異なります。 アクティブなデータベース コピーで破損したページが検出されると、コピーするページが最新の状態である場合、そのレプリカの 1 つからページをコピーできます。 このプロセスは、メールボックス データベースレプリケーションの基礎となるログ ストリームにページの要求を入れることによって実現されます。 レプリカがページ要求を検出するとすぐに、要求元のデータベース コピーにページのコピーを送信して応答します。 単一ページ復元では、レプリカが現在オフラインになっている場合でも、アクティブなユーザーがレプリカからページを要求するための非同期通信メカニズムも提供されます。

パッシブ データベース コピー (ラグド データベース コピーを含む) で破損が発生した場合、これらのコピーは常にアクティブ コピーの背後にあるため、アクティブ コピーからパッシブ コピーにページをコピーしても常に安全です。 パッシブ データベース コピーは本質的に高可用性であるため、ページ修正プロセス中はログ再生は中断されますが、ログのコピーは続行されます。 パッシブ データベース コピーは、破損したページのコピーをアクティブ なコピーから取得し、必要なログ生成の最大要件を満たすログ ファイルがコピーされて検査されるまで待機し、破損したページに修正プログラムを適用します。 ページに修正プログラムが適用されると、ログ再生が再開されます。 このプロセスは、ラグド データベースのコピーでも同じですが、ラグデータベースでは、修正可能な状態を実現するために必要なすべてのログ ファイルが最初に再生されます。

メールボックス レプリケーション サービス

メールボックスの移動は、大規模な電子メール サービスを管理する上で重要な部分です。 常に更新されたテクノロジとハードウェアとバージョンのアップグレードが行われるため、エンジニアはこの作業を実行できる堅牢で調整されたシステムを持ち、ユーザーに対してメールボックスの移動を透過的に保つことができます (プロセス全体を通じてオンラインに保つことによって) 重要であり、メールボックスが大きくなるにつれてプロセスが正常にスケールアップされることを確認します。

Exchange メールボックス レプリケーション サービス (MRS) は、データベース間でメールボックスを移動する役割を担います。 移動中、MRS はメールボックス内のすべてのアイテムに対して整合性チェックを実行します。 整合性の問題が見つかった場合、MRS は問題を修正するか、破損したアイテムをスキップしてメールボックスから破損を削除します。

MRS はExchange Onlineのコンポーネントであるため、コードを変更して、将来検出される新しい形式の破損に対処できます。 たとえば、MRS で修正できない一貫性の問題が検出された場合は、破損を分析し、MRS コードを変更し、不整合を修正できます (方法を理解している場合)。

ログ ファイルのチェック

Exchange データベースによって生成されるすべてのトランザクション ログ ファイルには、いくつかの形式の整合性チェックが行われます。 ログ ファイルが作成されると、最初に行われるのはビット パターンが書き込まれた後、一連のログ書き込みが実行されます。 この構造により、Exchange Onlineは一連のチェック (失われたフラッシュ、CRC、およびその他のチェック) を実行して、書き込まれた各ログ ファイルを検証し、レプリケートされると再び検証できます。

回復性の高いファイル システムへのデプロイ

ファイル システム レベルで破損が発生しないようにするために、回復性の高いファイル システム (ReFS) パーティションにExchange Onlineを展開し、回復機能を強化しています。 ReFS は、Windows Server 2012 以降のファイル システムであり、データの破損に対する回復性を高め、データの可用性と整合性を最大化するように設計されています。 具体的には、ReFS では、メタデータの更新方法が改善され、データの保護が強化され、データ破損のケースが減ります。 また、チェックサムを使用してファイル データとメタデータの整合性を検証し、データの破損が簡単に見つかり、修復されるようにします。

Exchange Onlineは、いくつかの ReFS の利点を利用します。

  • データ整合性の回復性が高いほど、データ破損インシデントが少なくなります。 破損インシデントの数を減らすと、不要なデータベースの再発行が減ります。
  • メタデータで実行されるチェックサムにより、破損ケースの検出が早く、より決定論的に可能になり、データ ボリュームで灰色のエラーが発生する前に顧客データの破損を修正できます。
  • パフォーマンスに影響を与えることなく、大規模なデータ セット (ペタバイト以上) で適切に動作するように設計されています
  • BitLocker 暗号化など、Exchange Onlineで使用されるその他の機能のサポート。

Exchange Online他の ReFS 機能の利点もあります。

  • 整合性 (整合性ストリーム) - ReFS は、通常データ損失を引き起こす可能性がある多くの一般的なエラーからデータを保護する方法でデータを格納します。 Microsoft 365 Search では、整合性ストリームを使用して、ファイル コンテンツの早期ディスク破損検出とチェックサムを支援します。 また、"Torn Writes" (電源障害などで書き込み操作が完了しない場合) によって引き起こされる破損インシデントも軽減されます。
  • 可用性 (Salvage) - ReFS はデータの可用性に優先順位を付けます。 従来、ファイル システムは、修復のためにシステムをオフラインにする必要があるデータ破損の影響を受けやすいことがよくあります。 破損が発生した場合はまれですが、ReFS では、ライブ ボリューム上の名前空間から破損したデータを削除し、修復不可能な破損データによって適切なデータが悪影響を受けないようにする機能であるサルベージが実装されます。 Salvage 機能を適用し、データ破損をExchange Onlineデータベース ボリュームに分離することは、破損時と修復アクションの間、破損したボリューム上の影響を受けないデータベースを正常に維持できることを意味します。 この構造により、通常はこのようなディスク破損の問題の影響を受けるデータベースの可用性が向上します。