Eliminação de duplicação nos resultados da pesquisa de descoberta eletrônica

Este artigo descreve como a eliminação de eliminação dos resultados da pesquisa de descoberta eletrônica funciona e explica as limitações do algoritmo de eliminação de eliminação.

Ao usar ferramentas de descoberta eletrônica para exportar os resultados de uma pesquisa de descoberta eletrônica, você tem a opção de deduplicar os resultados exportados. O que isso significa? Quando você habilita a eliminação de eliminação (por padrão, a eliminação de duplicação não está habilitada), apenas uma cópia de uma mensagem de email é exportada, embora várias instâncias da mesma mensagem possam ter sido encontradas nas caixas de correio pesquisadas. A eliminação de eliminação ajuda você a economizar tempo reduzindo o número de itens que você precisa examinar e analisar depois que os resultados da pesquisa são exportados. Mas é importante entender como a eliminação de duplicação funciona e estar ciente de que há limitações para o algoritmo que podem fazer com que um item exclusivo seja marcado como duplicado durante o processo de exportação.

As informações neste artigo são aplicáveis ao exportar resultados de pesquisa usando uma das seguintes ferramentas de descoberta eletrônica:

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

Como as mensagens duplicadas são identificadas

As ferramentas de descoberta eletrônica usam uma combinação das seguintes propriedades de email para determinar se uma mensagem é duplicada:

  • InternetMessageId - Essa propriedade especifica o identificador de mensagens da Internet de uma mensagem de email, que é um identificador globalmente exclusivo que se refere a uma versão específica de uma mensagem específica. Essa ID é gerada pelo programa cliente de email do remetente ou pelo sistema de email de host que envia a mensagem. Se uma pessoa enviar uma mensagem para mais de um destinatário, a ID da mensagem da Internet será a mesma para cada instância da mensagem. As revisões subsequentes para a mensagem original recebem um identificador de mensagem diferente.
  • ConversationTopic – Essa propriedade especifica o assunto do thread de conversa de uma mensagem. O valor da propriedade ConversationTopic é a cadeia de caracteres que descreve o artigo geral da conversa. Uma conversa consiste em uma mensagem inicial e todas as mensagens enviadas em resposta à mensagem inicial. As mensagens na mesma conversa têm o mesmo valor para a propriedade ConversationTopic . O valor dessa propriedade normalmente é a linha Assunto da mensagem inicial que gerou a conversa.
  • BodyTagInfo – Esta é uma propriedade interna do Exchange Store. O valor dessa propriedade é calculado verificando vários atributos no corpo da mensagem. Essa propriedade é usada para identificar diferenças no corpo das mensagens.

Durante o processo de exportação de descoberta eletrônica, essas três propriedades são comparadas a cada mensagem que corresponda aos critérios de pesquisa. Se essas propriedades forem idênticas a duas (ou mais) mensagens, essas mensagens serão determinadas como duplicatas e o resultado é que apenas uma cópia da mensagem será exportada se a eliminação estiver habilitada. A mensagem exportada é conhecida como "item de origem". As informações sobre mensagens duplicadas são incluídas nos relatórios Results.csv e Manifest.xml incluídos nos resultados da pesquisa exportada. No arquivo Results.csv , uma mensagem duplicada é identificada por ter um valor na coluna Duplicar para Item . O valor nesta coluna corresponde ao valor na coluna Identidade do Item para a mensagem que foi exportada.

Os gráficos a seguir mostram como as mensagens duplicadas são exibidas nos relatórios Results.csv e Manifest.xml exportados com os resultados da pesquisa. Esses relatórios não incluem as propriedades de email descritas anteriormente, que são usadas no algoritmo de eliminação de duplicação. Em vez disso, os relatórios incluem a propriedade Identidade do Item atribuída a itens pelo repositório Exchange.

Results.csv relatório (exibido no Excel)

Exibindo informações sobre itens duplicados no relatório Results.csv.

Manifest.xml relatório (exibido no Excel)

Exibindo informações sobre itens duplicados no relatório Manifest.xml.

Além disso, outras propriedades de mensagens duplicadas são incluídas nos relatórios de exportação. Isso inclui a caixa de correio em que a mensagem duplicada está localizada, se a mensagem foi enviada a um grupo de distribuição e se a mensagem era Cc'd ou Bcc'd para outro usuário.

Limitações do algoritmo de eliminação de duplicação

Há algumas limitações conhecidas do algoritmo de eliminação de duplicação que podem fazer com que itens exclusivos sejam marcados como duplicatas. É importante entender essas limitações para que você possa decidir se deve ou não usar o recurso de eliminação opcional.

Há uma situação em que o recurso de eliminação de duplicação pode identificar erroneamente uma mensagem como duplicada e não exportá-la (mas ainda assim citá-la como duplicata nos relatórios de exportação). São mensagens que um usuário edita, mas não envia. Por exemplo, digamos que um usuário selecione uma mensagem no Outlook, copie o conteúdo da mensagem e cole-a em uma nova mensagem. Em seguida, o usuário altera uma das cópias removendo ou adicionando um anexo ou alterando a linha de assunto ou o próprio corpo. Se essas duas mensagens corresponderem à consulta de uma pesquisa de descoberta eletrônica, apenas uma das mensagens será exportada se a eliminação de eliminação for habilitada quando os resultados da pesquisa forem exportados. Portanto, mesmo que a mensagem original ou a mensagem copiada tenha sido alterada, nenhuma das mensagens revisadas foi enviada e, portanto, os valores das propriedades InternetMessageId, ConversationTopic e BodyTagInfo não foram atualizados. Mas, como explicado anteriormente, ambas as mensagens são listadas nos relatórios de exportação

Mensagens exclusivas também podem ser marcadas como duplicatas quando o recurso de proteção de página Copiar em Gravação está habilitado, como no caso de uma caixa de correio estar em Contencioso Ou In-Place Hold. O recurso Copiar em Gravação copia a mensagem original (e a salva na pasta Versões da pasta Itens Recuperáveis do usuário) antes que a revisão para o item original seja salva. Nesse caso, a cópia revisada e a mensagem original (na pasta Itens Recuperáveis) podem ser consideradas como mensagens duplicadas e, portanto, apenas uma delas seria exportada.

Importante

Se as limitações do algoritmo de eliminação de eliminação podem afetar a qualidade dos resultados da pesquisa, você não deverá habilitar a eliminação de eliminação quando exportar itens. Se as situações descritas nesta seção forem improváveis de serem um fator nos resultados da pesquisa e você quiser reduzir o número de itens mais propensos a serem duplicados, então você deverá considerar habilitar a eliminação de duplicação.

Mais informações

Para obter mais informações sobre como exportar resultados de pesquisa, confira: