電子情報開示検索結果の重複除去

この記事では、電子情報開示検索結果の重複除去のしくみについて説明し、重複除去アルゴリズムの制限事項について説明します。

電子情報開示ツールを使用して電子情報開示検索の結果をエクスポートする場合は、エクスポートされた結果を重複除去するオプションがあります。 これはどういう意味ですか? 重複除去を有効にすると (既定では重複除去は有効になっていません)、検索されたメールボックスに同じメッセージの複数のインスタンスが見つかった場合でも、電子メール メッセージのコピーは 1 つだけエクスポートされます。 重複除去は、検索結果のエクスポート後に確認および分析する必要がある項目の数を減らすことで、時間を節約するのに役立ちます。 ただし、重複除去のしくみを理解し、エクスポート プロセス中に一意の項目が重複としてマークされる可能性があるアルゴリズムには制限があることに注意することが重要です。

この記事の情報は、次のいずれかの電子情報開示ツールを使用して検索結果をエクスポートするときに適用されます。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンス ポータルのトライアル ハブで今すぐ開始してください。 サインアップと試用期間の詳細については、こちらをご覧ください。

重複するメッセージの識別方法

電子情報開示ツールでは、次の電子メール プロパティの組み合わせを使用して、メッセージが重複しているかどうかを判断します。

  • InternetMessageId - このプロパティは、電子メール メッセージのインターネット メッセージ識別子を指定します。これは、特定のメッセージの特定のバージョンを参照するグローバルに一意の識別子です。 この ID は、メッセージを送信する送信者の電子メール クライアント プログラムまたはホスト電子メール システムによって生成されます。 ユーザーが複数の受信者にメッセージを送信する場合、インターネット メッセージ ID はメッセージのインスタンスごとに同じです。 元のメッセージの後続のリビジョンは、別のメッセージ識別子を受け取ります。
  • ConversationTopic - このプロパティは、メッセージ交換スレッドの件名を指定します。 ConversationTopic プロパティの値は、会話の記事全体を説明する文字列です。 会話は、最初のメッセージと、最初のメッセージに応答して送信されたすべてのメッセージで構成されます。 同じ会話内のメッセージの ConversationTopic プロパティの値は同じです。 このプロパティの値は、通常、会話を生成した最初のメッセージの Subject 行です。
  • BodyTagInfo - これは Exchange ストアの内部プロパティです。 このプロパティの値は、メッセージの本文でさまざまな属性をチェックすることによって計算されます。 このプロパティは、メッセージ本文の違いを識別するために使用されます。

電子情報開示のエクスポート プロセス中に、検索条件に一致するすべてのメッセージについて、これら 3 つのプロパティが比較されます。 これらのプロパティが 2 つ以上のメッセージで同一である場合、それらのメッセージは重複していると判断され、重複除去が有効になっている場合、メッセージのコピーは 1 つだけエクスポートされます。 エクスポートされるメッセージは、"ソース項目" と呼ばれます。 重複するメッセージに関する情報は、エクスポートされた検索結果に含まれる Results.csv レポートと Manifest.xml レポートに含まれます。 Results.csv ファイルでは、[アイテムに複製] 列の値を持つことで、重複するメッセージが識別されます。 この列の値は、エクスポートされたメッセージの [項目 ID] 列の値と一致します。

次の図は、検索結果と共にエクスポートされた Results.csv レポートと Manifest.xml レポートに重複するメッセージがどのように表示されるかを示しています。 これらのレポートには、前述の電子メール プロパティは含まれません。これは重複除去アルゴリズムで使用されます。 代わりに、レポートには、Exchange ストアによってアイテムに割り当てられる Item Identity プロパティが含まれます。

Results.csv レポート (Excel で表示)

Results.csv レポートでの重複アイテムに関する情報の表示。

Manifest.xml レポート (Excel で表示)

Manifest.xml レポートでの重複アイテムに関する情報の表示。

また、重複するメッセージの他のプロパティもエクスポート レポートに含まれます。 これには、重複するメッセージが配置されているメールボックス、メッセージが配布グループに送信されたかどうか、およびメッセージが別のユーザーに Cc'd または Bcc'd であったかどうかが含まれます。

重複除去アルゴリズムの制限事項

重複除去アルゴリズムにはいくつかの既知の制限があり、一意の項目が重複としてマークされる可能性があります。 オプションの重複除去機能を使用するかどうかを決定できるように、これらの制限事項を理解することが重要です。

重複除去機能によってメッセージが誤って重複として識別され、エクスポートされない場合があります (ただし、エクスポート レポートでは重複として引用します)。 これらは、ユーザーが編集したが送信しないメッセージです。 たとえば、ユーザーが Outlook でメッセージを選択し、メッセージの内容をコピーして、新しいメッセージに貼り付けるとします。 その後、ユーザーは添付ファイルを削除または追加するか、件名行または本文自体を変更して、コピーの 1 つを変更します。 これら 2 つのメッセージが電子情報開示検索のクエリと一致する場合、検索結果のエクスポート時に重複除去が有効になっている場合、メッセージの 1 つだけがエクスポートされます。 そのため、元のメッセージまたはコピーしたメッセージが変更された場合でも、変更されたメッセージはどちらも送信されないため、 InternetMessageIdConversationTopicBodyTagInfo プロパティの値は更新されませんでした。 ただし、前に説明したように、両方のメッセージがエクスポート レポートに一覧表示されます

一意のメッセージは、メールボックスが訴訟ホールドまたは In-Place ホールドにある場合と同様に、コピーオンライト ページ保護機能が有効になっている場合にも重複としてマークできます。 書き込み時のコピー機能は、元のアイテムへのリビジョンが保存される前に、元のメッセージをコピーします (および、ユーザーの回復可能なアイテム フォルダーのバージョン フォルダーに保存します)。 この場合、変更されたコピーと元のメッセージ ([回復可能なアイテム] フォルダー内) が重複メッセージと見なされる可能性があるため、そのうちの 1 つだけがエクスポートされます。

重要

重複除去アルゴリズムの制限が検索結果の品質に影響する可能性がある場合は、アイテムをエクスポートするときに重複除去を有効にしないでください。 このセクションで説明する状況が検索結果の要因になる可能性が低く、重複する可能性が最も高い項目の数を減らす場合は、重複除去を有効にすることを検討する必要があります。

詳細

検索結果のエクスポートの詳細については、次を参照してください。