Configurar configurações de pesquisa e análise para casos de descoberta eletrônica (Premium)

Artigo
08/11/2023

Você pode configurar configurações para cada caso de Descoberta Eletrônica do Microsoft Purview (Premium) para controlar a seguinte funcionalidade:

Duplicatas próximas e threading de email
Temas
Consulta de conjunto de revisão autogerada
Ignorar texto
Reconhecimento óptico de caracteres

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

Configurar configurações de análise para um caso

Para definir as configurações de pesquisa e análise de um caso:

Na página Descoberta Eletrônica (Premium), selecione o caso.
Na guia Configurações , em Pesquisa & análise, escolha Selecionar. A página de configurações de caso é exibida. Essas configurações são aplicadas a todos os conjuntos de revisão em um caso.

As seções a seguir neste artigo descrevem as configurações de análise que você pode configurar para um caso.

Duplicatas próximas e threading de email

Nesta seção, você pode definir parâmetros para detecção duplicada, detecção quase duplicada e threading de email. Para obter mais informações, consulte Detecção de duplicatas próximas e Email threading.

Threading de duplicatas/email próximos: Quando ativada, a detecção duplicada, a detecção próxima de duplicatas e o threading de email são incluídos como parte do fluxo de trabalho quando você executa a análise nos dados em um conjunto de revisão.
Limite de similaridade de documento e email: Se o nível de similaridade de dois documentos estiver acima do limite, ambos os documentos serão colocados no mesmo conjunto quase duplicado.
Número mínimo/máximo de palavras: Essas configurações especificam que quase duplicatas e análises de threading de email são executadas apenas em documentos que têm pelo menos o número mínimo de palavras e, no máximo, o número máximo de palavras.

Temas

Nesta seção, você pode definir parâmetros para temas. Para obter mais informações, confira Temas.

Temas: Quando ativados, os temas clustering são executados como parte do fluxo de trabalho quando você executa análises nos dados em um conjunto de revisão.
Número máximo de temas: Especifica o número máximo de temas que podem ser gerados ao executar análises nos dados em um conjunto de revisão.
Incluir números em temas: Quando ativados, os números (que identificam um tema) são incluídos ao gerar temas.
Ajuste o número máximo de temas dinamicamente: Em determinadas situações, pode não haver documentos suficientes em um conjunto de revisão para produzir o número desejado de temas. Quando esta configuração está habilitada, a Descoberta Eletrônica (Premium) ajusta de forma dinâmica o número máximo de temas em vez de tentar impor.

Resumo do conjunto de consulta

Se você selecionar a consulta de revisão salva Para Revisão automaticamente após a caixa de seleção análise , a análise eletrônica (Premium) analisará automaticamente a consulta de conjunto chamada Para Revisão.

A consulta para revisão automática.

Essa consulta basicamente filtra itens duplicados do conjunto de revisão. Isso permite que você examine os itens exclusivos no conjunto de revisão. Essa consulta é criada apenas quando você executa uma análise de um conjunto de revisão no caso. Para obter mais informações sobre consultas de conjunto de revisão, consulte Consultar os dados em um conjunto de revisão.

Ignorar texto

Há situações em que determinado texto diminuirá a qualidade da análise, como responsabilidades longas que são adicionadas às mensagens de email, independentemente do conteúdo do email. Se conhece texto que deve ser ignorado, você pode excluí-lo da análise ao especificar a cadeia de texto e a funcionalidade de análise (duplicadas próximas, threading de email, Temas e Relevância) que o texto deve ser excluído. Também há suporte para usar expressões regulares (RegEx) como texto ignorado.

Reconhecimento óptico de caracteres (OCR)

Quando essa configuração estiver ativada, o processamento do OCR será executado em arquivos de imagem. O processamento OCR é executado nas seguintes situações:

Quando os custodiantes e fontes de dados não custodiais são adicionados a um caso. Quando o OCR é aplicado a arquivos de imagem, o texto nesses arquivos será pesquisável durante uma coleção. O processamento OCR é realizado durante o processo de indexação avançada . O OCR é executado apenas em itens que são processados durante a indexação avançada. Por exemplo, se um arquivo PDF grande parcialmente indexado ou tiver outros erros de indexação for processado durante a indexação avançada, o arquivo também terá o OCR aplicado. Em outras palavras, o processamento de OCR ocorre apenas em arquivos que são reindexados durante o processo de indexação avançada. Isso significa que pode haver situações em que os custodiantes são adicionados a um caso, mas alguns anexos de email não serão processados para OCR porque esses arquivos não são processados durante a indexação avançada.
Quando o conteúdo de outras fontes de dados (que não estão associados a um custodiante e adicionado ao caso em uma fonte de dados não custodiada) é adicionado a um conjunto de revisão.

Depois que os dados são adicionados a um conjunto de revisão, o texto da imagem pode ser revisado, pesquisado, marcado e analisado. Você pode exibir o texto extraído no visualizador de texto do arquivo de imagem selecionado no conjunto de revisão. Para saber mais, confira: