Дедупликация результатов поиска, выполненного с помощью функции обнаружения электронных данныхDe-duplication in eDiscovery search results

В этой статье описывается, как работает дублирование результатов поиска по электронным данным, и объясняется ограниченность алгоритма де дубликатации.This article describes how de-duplication of eDiscovery search results works and explains the limitations of the de-duplication algorithm.

При использовании средств электронного поиска для экспорта результатов поиска электронных данных у вас есть возможность де дублировать экспортированные результаты.When using eDiscovery tools to export the results of an eDiscovery search, you have the option to de-duplicate the results that are exported. Что это означает?What does this mean? При включаем дублирование (по умолчанию не включено дублирование), экспортируется только одна копия сообщения электронной почты, несмотря на то, что несколько экземпляров одного и того же сообщения можно было найти в почтовых ящиках, которые искали.When you enable de-duplication (by default, de-duplication isn't enabled), only one copy of an email message is exported even though multiple instances of the same message might have been found in the mailboxes that were searched. Дублирование позволяет сэкономить время, уменьшая количество элементов, которые необходимо просмотреть и проанализировать после экспорта результатов поиска.De-duplication helps you save time by reducing the number of items that you have to review and analyze after the search results are exported. Но важно понимать, как работает де дубликация, и знать, что алгоритму существуют ограничения, которые могут привести к тому, что уникальный элемент будет помечен как дубликат во время процесса экспорта.But it's important to understand how de-duplication works and be aware that there are limitations to the algorithm that might cause a unique item to be marked as a duplicate during the export process.

Как выявляются дубликаты сообщенийHow duplicate messages are identified

Средства eDiscovery используют сочетание следующих свойств электронной почты, чтобы определить, является ли сообщение дубликатом:eDiscovery tools use a combination of the following email properties to determine whether a message is a duplicate:

  • InternetMessageId . Это свойство указывает идентификатор сообщения электронной почты в Интернете, который является уникальным идентификатором глобального масштаба, который ссылается на определенную версию определенного сообщения.InternetMessageId - This property specifies the Internet message identifier of an email message, which is a globally unique identifier that refers to a specific version of a specific message. Этот ID создается клиентской программой электронной почты отправитель или принимающей системой электронной почты, которая отправляет сообщение.This ID is generated by the sender's email client program or host email system that sends the message. Если человек отправляет сообщение более чем одному получателю, его ID будет одинаковым для каждого экземпляра сообщения.If a person sends a message to more than one recipient, the Internet message ID will be the same for each instance of the message. Последующие изменения исходного сообщения получат другой идентификатор сообщения.Subsequent revisions to the original message will receive a different message identifier.

  • ConversationTopic . Это свойство указывает тему потока беседы сообщения.ConversationTopic - This property specifies the subject of the conversation thread of a message. Значение свойства ConversationTopic — это строка, которая описывает общую тему беседы.The value of the ConversationTopic property is the string that describes the overall topic of the conversation. Сохранение состоит из начального сообщения и всех сообщений, отправленных в ответ на исходное сообщение.A conservation consists of an initial message and all messages sent in reply to the initial message. Сообщения в одном разговоре имеют одинаковое значение для свойства ConversationTopic.Messages within the same conversation have the same value for the ConversationTopic property. Как правило, значение этого свойства — строка Subject из исходного сообщения, которое породило беседу.The value of this property is typically the Subject line from the initial message that spawned the conversation.

  • BodyTagInfo — это внутреннее свойство Exchange хранения.BodyTagInfo - This is an internal Exchange store property. Значение этого свойства вычисляется путем проверки различных атрибутов в теле сообщения.The value of this property is calculated by checking various attributes in the body of the message. Это свойство используется для определения различий в теле сообщений.This property is used to identify differences in the body of messages.

В процессе экспорта электронных данных эти три свойства сравниваются для каждого сообщения, которое соответствует критериям поиска.During the eDiscovery export process, these three properties are compared for every message that matches the search criteria. Если эти свойства идентичны для двух (или более) сообщений, эти сообщения будут дублироваться, и в результате будет экспортирована только одна копия сообщения при включенной депликации.If these properties are identical for two (or more) messages, those messages are determined to be duplicates and the result is that only one copy of the message will be exported if de-duplication is enabled. Экспортируемая сообщение называется "исходным элементом".The message that is exported is known as the "source item". Сведения о дублирующихся сообщениях включаются вResults.csvи Manifest.xml отчеты, включенные в экспортированные результаты поиска.Information about duplicate messages is included in the Results.csv and Manifest.xml reports that are included with the exported search results. В файлеResults.csv, дублирующее сообщение идентифицировано с помощью значения в столбце Дубликат к элементу.In the Results.csv file, a duplicate message is identified by having a value in the Duplicate to Item column. Значение в этом столбце соответствует значению в столбце Идентификатор элемента для экспортируемого сообщения.The value in this column matches the value in the Item Identity column for the message that was exported.

На следующих графиках покажите, как дублирующиеся сообщения отображаются в отчетахResults.csvи Manifest.xml, экспортирующихся с результатами поиска.The following graphics show how duplicate messages are displayed in the Results.csv and Manifest.xml reports that are exported with the search results. Эти отчеты не включают описанные ранее свойства электронной почты, которые используются в алгоритме де дубликатации.These reports don't include the email properties previously described, which are used in the de-duplication algorithm. Вместо этого отчеты включают свойство Identity item, назначенное элементам Exchange магазине.Instead, the reports include the Item Identity property that is assigned to items by the Exchange store.

Results.csv отчет (см. в Excel)Results.csv report (viewed in Excel)

Просмотр информации о дублировании элементов в Results.csv отчете

Manifest.xml отчет (см. в Excel)Manifest.xml report (viewed in Excel)

Просмотр информации о дублировании элементов в Manifest.xml отчете

Кроме того, в отчеты об экспорте включены другие свойства из дублирующих сообщений.Additionally, other properties from duplicate messages are included in the export reports. Это включает почтовый ящик, в который находится дублирующее сообщение, независимо от того, было ли сообщение отправлено группе рассылки и было ли сообщение Cc'd или Bcc'd другому пользователю.This includes the mailbox the duplicate message is located in, whether the message was sent to a distribution group, and whether the message was Cc'd or Bcc'd to another user.

Ограничения алгоритма де дублированияLimitations of the de-duplication algorithm

Существует ряд известных ограничений алгоритма де дубликатов, которые могут привести к тому, что уникальные элементы будут помечены как дубликаты.There are some known limitations of the de-duplication algorithm that might cause unique items to get marked as duplicates. Важно понимать эти ограничения, чтобы можно было решить, следует ли использовать необязательный элемент de-duplication.It's important to understand these limitations so you can decide whether or not to use the optional de-duplication feature.

Существует одна ситуация, когда функция де дубликатирования может ошибочно идентифицировать сообщение как дубликат, а не экспортировать его (но при этом ссылаться на него как дубликат в отчетах по экспорту).There's one situation where the de-duplication feature might mistakenly identify a message as a duplicate and not export it (but still cite it as a duplicate in the export reports). Это сообщения, которые пользователь редактирует, но не отправляет.These are messages that a user edits but doesn't send. Например, предположим, что пользователь выбирает сообщение в Outlook, копирует содержимое сообщения, а затем вклеит его в новое сообщение.For example, let's say a user selects a message in Outlook, copies the contents of the message, and then pastes it in a new message. Затем пользователь изменяет одну из копий, удаляя или добавляя вложение или изменяя строку субъекта или само тело.Then the user changes one of the copies by removing or adding an attachment, or changing the subject line or the body itself. Если эти два сообщения соответствуют запросу поиска об обнаружении электронных данных, только одно из этих сообщений будет экспортироваться, если при экспорте результатов поиска будет включена де-дублирование.If these two messages match the query of an eDiscovery search, only one of the messages will be exported if de-duplication is enabled when the search results are exported. Несмотря на то, что исходное сообщение или скопированные сообщения были изменены, ни одно из пересмотренных сообщений не было отправлено, и поэтому значения свойств InternetMessageId, ConversationTopic и BodyTagInfo не обновлялись.So even though the original message or the copied message was changed, neither of the revised messages were sent and therefore the values of InternetMessageId, ConversationTopic and BodyTagInfo properties weren't updated. Но, как уже объяснялось ранее, оба сообщения будут перечислены в отчетах по экспортуBut as previously explained, both messages will be listed in the export reports

Уникальные сообщения также могут быть помечены как дубликаты при включенной функции защиты страниц copy-on-Write, как в случае почтового ящика, на удержании судебного разбирательства или In-Place Удержание.Unique messages can also be marked as duplicates when the Copy-on-Write page protection feature is enabled, as in the case of a mailbox being on Litigation Hold or In-Place Hold. Функция Copy-on-Write копирует исходное сообщение (и сохраняет его в папке Версии папки восстанавливаемых элементов пользователя) до сохранения изменения исходного элемента.The Copy-on-Write feature copies the original message (and saves it in the Versions folder of the user's Recoverable Items folder) before the revision to original item is saved. В этом случае пересмотренная копия и исходное сообщение (в папке "Извлекаемые элементы") могут рассматриваться как дублирующиеся сообщения, поэтому экспортируется только одно из них.In this case, the revised copy and the original message (in the Recoverable Items folder) might be considered as duplicate messages and therefore only one of them would be exported.

Важно!

Если ограничения алгоритма де-дублирования могут повлиять на качество результатов поиска, то при экспорте элементов не следует включать дублирование.If the limitations of the de-duplication algorithm might impact the quality of your search results, then you shouldn't enable de-duplication when you export items. Если описанные в этом разделе ситуации вряд ли будут фактором в результатах поиска, и вы хотите уменьшить число элементов, которые, скорее всего, будут дублироваться, следует рассмотреть возможность дублирования.If the situations described in this section are unlikely to be a factor in your search results, and you want to reduce the number of items most likely to be duplicates, then you should consider enabling de-duplication.

Дополнительные сведенияMore information