建立關鍵字字典

Microsoft Purview 可以識別、監視及保護您的敏感性專案。 識別敏感性項目有時需要尋找關鍵字,特別是在識別一般內容 (例如醫療保健相關通訊),或是不適當或偏激的言語。 雖然您可以在 建立自定義敏感性資訊類型時建立關鍵詞清單,但關鍵詞清單的大小有限,而且如果您要 在PowerShell中建立關鍵詞清單,則需要修改 XML 來建立或編輯它們。

相反地,關鍵詞字典提供更簡單的關鍵詞管理,而且規模更大,在字典中支援最多 1 MB 的字詞 (壓縮后) 。 此外,關鍵詞字典可以支援任何語言。 壓縮後的租用戶限制也是 1 MB。 壓縮后限製為 1 MB,表示在租使用者之間合併的所有字典都可以有接近一百萬個字元。

提示

如果您不是 E5 客戶,請使用 90 天的 Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站 試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據

關鍵字字典限制

每個用於關鍵詞字典的租使用者 (SIT) 最多可以建立 50 種敏感性資訊類型。 若要瞭解您的租使用者中有多少關鍵詞字典,請遵循 連線到安全性 & 合規性 PowerShell 中的程式連線到您的租用戶,然後執行此 PowerShell 腳本:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

建立關鍵字字典的基本步驟

您最常在檔案中編譯字典的關鍵詞,例如 .csv 或 .txt 清單。 您可以在建立或編輯期間將字典檔案上傳至 SIT,或透過 PowerShell Cmdlet 匯入這些檔案。 Alternatley,您可以從現有的 或從現有的 關鍵詞字典開始。 最後,您可以在 [ 新增關鍵詞字典 ] 對話框中手動輸入關鍵詞。 當您建立關鍵詞字典時,您會遵循相同的核心步驟:

使用 Microsoft Purview 入口網站或 Microsoft 合規性入口網站建立關鍵詞字典

使用下列步驟來建立或匯入自訂字典的關鍵字:

針對您使用的入口網站選取適當的索引標籤。 若要深入瞭解 Microsoft Purview 入口網站,請參閱 Microsoft Purview 入口網站。 若要深入瞭解合規性入口網站,請參閱 Microsoft Purview 合規性入口網站

  1. 登入 Microsoft Purview 入口網站資訊保護>機密>信息類型

  2. 取 [+ 建立敏感性資訊類型 ],然後輸入敏感性資訊類型的 [名稱 ] 和 [ 描述 ]。 選擇 [下一步]

  3. 在 [ 定義此敏感性資訊類型的模式 ] 頁面上,選擇 [ + 建立模式]

  4. 在 [ 新增模式] 視窗中,選取 [信賴等級]

  5. 選擇 [新增主要專案] ,然後選取 [關鍵詞字典]

  6. 在 [ 新增關鍵詞字典 ] 飛出視窗上,您可以:

    1. TXTCSV 格式上傳字典檔案。
    2. 從現有的字典中選擇
    3. 或手動輸入關鍵詞並提供名稱來建立新的字典。
  7. 在 [ 新增模式] 視窗中,針對 [字元鄰近性],指定 (字元數目) 必須偵測到任何支援元素的距離。 主要和支援元素彼此越接近,偵測到的內容就越有可能是您要尋找的內容。

  8. 新增您想要用來提高偵測您要尋找之項目的精確度 的支持元素

  9. 新增任何 [其他檢查] ,然後選擇 [ 建立]

  10. 選擇 [下一步 ] 繼續建立敏感性信息類型。 當您完成時,請選擇 [ 完成]

使用 PowerShell 從檔案建立關鍵字字典

通常當您需要建立大型字典時,您可以使用檔案中的關鍵詞或從其他來源導出的清單。 在接下來的範例中,您將建立關鍵詞字典,其中包含要在外部電子郵件中檢測的疾病清單。 若要開始,您必須連線 到安全性 & 合規性 PowerShell

  1. 將關鍵詞複製到文本檔中,並確定每個關鍵詞都位於個別行上。

  2. 使用 Unicode 編碼儲存文字檔。 在記事本中,流覽至 [>另存為>編碼>Unicode]

  3. 執行下列 Cmdlet 將檔案讀成變數:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. 執行下列 Cmdlet 來建立字典:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

使用自訂敏感資訊類型和 DLP 原則中的關鍵字字典

關鍵字字典可做為自訂敏感性資訊類型的符合需求一部分,或做為敏感性資訊類型本身。 兩者都需要您建立自訂敏感性資訊類型。 按照連結文章中的指示建立敏感性資訊類型。 擁有 XML 之後,您將需要 XML 中的 GUID 識別碼,才能使用字典。

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

若要取得字典的身分識別,請執行下列命令,然後複製 Identity 屬性值:

Get-DlpKeywordDictionary -Name "Diseases"

此命令的輸出看起來像這樣:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

身分識別 值貼到您自定義敏感性資訊類型的 XML 中,做為 idRef。 接下來,上傳 XML 檔案。 您的字典現在會出現在您的敏感性資訊類型清單中,而且您可以直接在原則中使用它,指定需要比對多少關鍵詞。

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

注意事項

Microsoft 365 資訊保護支援下列雙位元組字元集語言:

  • 中文 (簡體)
  • 中文 (繁體)
  • 韓文
  • 日文

這項支援適用於敏感性資訊類型。 如需詳細資訊,請參閱資訊保護支援雙位元組字元集的版本資訊 (預覽版)

提示

若要偵測包含中文/日文字元和單一位元組字元的模式,或偵測包含中文/日文和英文的模式,請定義關鍵字或 RegEx 的兩個變體。

  • 例如,若要偵測關鍵字 ,例如「机密的document」,請使用關鍵字的兩個變體;一個在日文和英文文字之間具有空格,另一個在日文和英文文字之間沒有空格。 因此,要新增到 SIT 中的關鍵字應該是「机密的 document」和「机密的document」。 同樣地,若要偵測片語「東京オリンピック2020」,應該使用兩個變體;「東京オリンピック 2020」和「東京オリンピック2020」。

除了中文/日文/雙位元組字元,如果關鍵詞/片語的清單也包含非中文/日文字組,也 (例如,獨立英文字組) ,您應該建立兩個字典/關鍵詞清單。 一個用於包含中文/日文/雙位元組字元的關鍵詞,另一個用於英文字詞。

  • 例如,如果您想要建立包含三個片語 "Highly confidential"、「機密性が高い」和「机密的document」的關鍵字/清單,則您應該建立兩個關鍵字清單。
    1. Highly confidential
    2. 機密性が高い、机密的document 和机密的 document

使用雙位元組連字號或雙位元組字元來建立 RegEx 時,請務必逸出這兩個字元,就像一個字元會逸出 RegEx 中的連字號或空格一樣。 以下是範例 RegEx 供參考:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

我們建議您在關鍵字清單中使用字串比對,而不是文字比對。