Criar um dicionário de palavras-chaveCreate a keyword dictionary

A DLP (prevenção contra perda de dados) pode identificar, monitorar e proteger seus itens confidenciais.Data loss prevention (DLP) can identify, monitor, and protect your sensitive items. Às vezes, a identificação de itens confidenciais requer a procura de palavras-chave, principalmente ao identificar conteúdos genéricos (como comunicações relacionadas à assistência médica), ou linguagem inadequada ou explícita.Identifying sensitive items sometimes requires looking for keywords, particularly when identifying generic content (such as healthcare-related communication), or inappropriate or explicit language. Embora seja possível criar listas de palavras-chave em tipos de informações confidenciais, as listas de palavras-chave têm tamanho limitado e exigem a modificação do XML para criá-las ou editá-las.Although you can create keyword lists in sensitive information types, keyword lists are limited in size and require modifying XML to create or edit them. Os dicionários de palavras-chave fornecem gerenciamento mais simples de palavras-chave e em uma escala muito maior, suportando até 1 MB de termos (pós-compressão) no dicionário e suportam qualquer idioma.Keyword dictionaries provide simpler management of keywords and at a much larger scale, supporting up to 1 MB of terms (post compression) in the dictionary and support any language. O limite do locatário também é 1 MB após a compactação.The tenant limit is also 1 MB after compression. 1 MB de limite de pós-compactação significa que todos os dicionários combinados em um locatário podem ter cerca de 1 milhão de caracteres.1 MB of post compression limit means that all dictionaries combined across a tenant can have close to 1 million characters.

Limites do dicionário de palavras-chaveKeyword dictionary limits

Há um limite de 50 tipos de informações confidenciais baseadas em dicionário de palavras-chave que podem ser criados por locatário.There is a limit of 50 keyword dictionary based sensitive information types that can be created per tenant. Para descobrir quantos dicionários de palavras-chave você tem em seu inquilino, conecte-se usando os procedimentos do Connect to the Security & Compliance Center PowerShell para conectar-se ao seu inquilino e executar este script PowerShell.To find out how many keyword dictionaries you have in your tenant, connect using the procedures in Connect to the Security & Compliance Center PowerShell to connect to your tenant and run this PowerShell script.

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
Set-Content -path $rawFile -Encoding Byte -Value $ruleCollections.SerializedClassificationRuleCollection
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Etapas básicas para criar um dicionário de palavra-chaveBasic steps to creating a keyword dictionary

As palavras-chave para o seu dicionário podem vir de várias fontes, mais comumente de um arquivo (como uma lista .csv ou .txt), importada no serviço ou pelo cmdlet do PowerShell de uma lista que você insere diretamente no cmdlet do PowerShell ou de um dicionário existente. Quando você cria um dicionário de palavras-chave, siga as mesmas etapas principais:The keywords for your dictionary could come from various sources, most commonly from a file (such as a .csv or .txt list) imported in the service or by PowerShell cmdlet, from a list you enter directly in the PowerShell cmdlet, or from an existing dictionary. When you create a keyword dictionary, you follow the same core steps:

  1. Use o Centro de Conformidade e Segurança (https://protection.office.com) ou conecte-se ao Centro & de Conformidade e Segurança do PowerShell.Use the Security & Compliance Center (https://protection.office.com) or connect to Security & Compliance Center PowerShell.

  2. Defina ou carregue suas palavras-chave da fonte pretendida.Define or load your keywords from your intended source. O assistente e o cmdlet aceitam uma lista separada por vírgulas de palavras-chave para criar um dicionário de palavras-chave personalizado, de modo que esta etapa irá variar um pouco dependendo da origem das palavras-chave.The wizard and the cmdlet both accept a comma-separated list of keywords to create a custom keyword dictionary, so this step will vary slightly depending on where your keywords come from. Uma vez carregadas, elas são codificadas e convertidas em uma matriz bytes antes de serem importadas.Once loaded, they're encoded and converted to a byte array before they're imported.

  3. Crie seu dicionário.Create your dictionary. Escolha um nome e uma descrição, e crie seu dicionário.Choose a name and description and create your dictionary.

Criar um dicionário de palavras-chave usando o Centro de Conformidade e SegurançaCreate a keyword dictionary using the Security & Compliance Center

Use as etapas a seguir para criar e importar palavras-chave para um dicionário personalizado:Use the following steps to create and import keywords for a custom dictionary:

  1. Conectar-se ao Centro de Conformidade e Segurança (https://protection.office.com).Connect to the Security & Compliance Center (https://protection.office.com).

  2. Navegue até Classificações > Tipos de informações confidenciais.Navigate to Classifications > Sensitive info types.

  3. Selecione Criar e insira Nome e Descrição para o tipo de informações confidenciais, em seguida, selecione AvançarSelect Create and enter a Name and Description for your sensitive info type, then select Next

  4. Selecione Adicionar um elemento e selecione Dicionário (Palavras-chave grandes) na lista suspensa Detectar conteúdo que tenha.Select Add an element, then select Dictionary (Large keywords) in the Detect content containing drop-down list.

  5. Selecione Adicionar um dicionárioSelect Add a dictionary

  6. Sob o controle da pesquisa, selecione Você pode criar novos dicionários de palavras-chave.Under the Search control, select You can create new keyword dictionaries here.

  7. Insira um Nome para o dicionário personalizado.Enter a Name for your custom dictionary.

  8. Selecione Importação e selecione a partir do texto ou a partir do csv dependendo do tipo de arquivo de palavra-chave.Select Import, and select either From text or From csv depending on your keyword file type.

  9. Na caixa de diálogo arquivo, selecione o arquivo de palavra-chave no compartilhamento de arquivos do computador ou rede local e selecione Abrir.In the file dialog, select the keyword file from your local PC or network file share, then select Open.

  10. Selecione Salvar, em seguida selecione o dicionário personalizado da lista Dicionários de palavras-chave.Select Save, then select your custom dictionary from the Keyword dictionaries list.

  11. Selecione Próximo, e em seguida Avançar.Select Add, then select Next.

  12. Revise e finalize as seleções de tipo de informações confidenciais e selecione Terminar.Review and finalize your sensitive info type selections, then select Finish.

Criar um dicionário de palavras-chave de um arquivo usando o Power ShellCreate a keyword dictionary from a file using PowerShell

Frequentemente, quando você precisa criar um dicionário grande, é para usar palavras-chave de um arquivo ou lista exportada de alguma outra fonte.Often when you need to create a large dictionary, it's to use keywords from a file or a list exported from some other source. Nesse caso, você criará um dicionário de palavras-chave contendo uma lista de linguagem imprópria para exibir em email externo.In this case, you'll create a keyword dictionary containing a list of inappropriate language to screen in external email. Primeiro você deve Conectar-se ao Centro & de Conformidade e Segurança do PowerShell.You must first Connect to Security & Compliance Center PowerShell.

  1. Copie as palavras-chave para um arquivo de texto e verifique se cada palavra-chave está em uma linha separada.Copy the keywords into a text file and make sure that each keyword is on a separate line.

  2. Salve o arquivo de texto com codificação Unicode. No Bloco de Notas > Salvar como > Codificação > Unicode.Save the text file with Unicode encoding. In Notepad > Save As > Encoding > Unicode.

  3. Leia o arquivo em uma variável executando este cmdlet:Read the file into a variable by running this cmdlet:

    $fileData = Get-Content <filename> -Encoding Byte -ReadCount 0
    
  4. Crie o dicionário executando este cmdlet:Create the dictionary by running this cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Usar dicionários de palavras-chave em tipos de informação confidencial personalizados e as políticas DLPUsing keyword dictionaries in custom sensitive information types and DLP policies

Os dicionários de palavras-chave podem ser usados como parte dos requisitos de correspondência para um tipo de informação confidencial personalizado ou como um tipo de informação confidencial próprio.Keyword dictionaries can be used as part of the match requirements for a custom sensitive information type, or as a sensitive information type themselves. Ambos exigem que você crie um tipo de informação confidencial personalizado.Both require you to create a custom sensitive information type. Siga as instruções no artigo vinculado para criar um tipo de informação confidencial.Follow the instructions in the linked article to create a sensitive information type. Assim que tiver o XML, você precisará do identificador de GUID do dicionário para usá-lo.Once you have the XML, you'll need the GUID identifier for the dictionary to use it.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Para obter a identidade do seu dicionário, execute este comando e copie o valor da propriedade Identity:To get the identity of your dictionary, run this command and copy the Identity property value:

Get-DlpKeywordDictionary -Name "Diseases"

A saída do comando será parecida com o seguinte:The output of the command looks like this:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255 Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f Name : Diseases Description : Names of diseases and injuries from ICD-10-CM lexicon KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania,RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255 Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f Name : Diseases Description : Names of diseases and injuries from ICD-10-CM lexicon KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo IsValid : True ObjectState : Unchanged

Cole a identidade no XML do seu tipo de informação confidencial personalizado e carregue-a. Agora seu dicionário aparecerá na sua lista de tipos de informação confidencial e você poderá usá-lo direto em sua política, especificando o número de palavras-chave necessário para corresponder.Paste the identity into your custom sensitive information type's XML and upload it. Now your dictionary will appear in your list of sensitive information types and you can use it right in your policy, specifying how many keywords are required to match.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Observação

A Proteção de Informações do Microsoft 365 oferece suporte, em visualização, a idiomas de conjunto de caracteres de byte duplo para:Microsoft 365 Information Protection supports in preview double byte character set languages for:

  • Chinês (simplificado)Chinese (simplified)
  • Chinês (tradicional)Chinese (traditional)
  • CoreanoKorean
  • JaponêsJapanese

Este suporte está disponível para tipos de informações confidenciais.This support is available for sensitive information types. Para obter mais informações, confira Suporte à proteção de informações para notas de versão de conjuntos de caracteres de byte duplo (visualização).See, Information protection support for double byte character sets release notes (preview) for more information.