建立關鍵字字典

發行項
03/28/2024

Microsoft Purview 可以識別、監視及保護您的敏感性專案。識別敏感性項目有時需要尋找關鍵字，特別是在識別一般內容 (例如醫療保健相關通訊)，或是不適當或偏激的言語。雖然您可以在建立自定義敏感性資訊類型時建立關鍵詞清單，但關鍵詞清單的大小有限，而且如果您要在PowerShell中建立關鍵詞清單，則需要修改 XML 來建立或編輯它們。

相反地，關鍵詞字典提供更簡單的關鍵詞管理，而且規模更大，在字典中支援最多 1 MB 的字詞 (壓縮后) 。此外，關鍵詞字典可以支援任何語言。壓縮後的租用戶限制也是 1 MB。壓縮后限製為 1 MB，表示在租使用者之間合併的所有字典都可以有接近一百萬個字元。

提示

如果您不是 E5 客戶，請使用 90 天的 Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。立即從 Microsoft Purview 合規性入口網站試用中樞開始。瞭解有關註冊和試用版條款的詳細數據。

關鍵字字典限制

每個用於關鍵詞字典的租使用者 (SIT) 最多可以建立 50 種敏感性資訊類型。若要瞭解您的租使用者中有多少關鍵詞字典，請遵循連線到安全性 & 合規性 PowerShell 中的程式連線到您的租用戶，然後執行此 PowerShell 腳本：

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

建立關鍵字字典的基本步驟

您最常在檔案中編譯字典的關鍵詞，例如 .csv 或 .txt 清單。您可以在建立或編輯期間將字典檔案上傳至 SIT，或透過 PowerShell Cmdlet 匯入這些檔案。 Alternatley，您可以從現有的或從現有的 關鍵詞字典開始。最後，您可以在 [ 新增關鍵詞字典 ] 對話框中手動輸入關鍵詞。當您建立關鍵詞字典時，您會遵循相同的核心步驟：

使用 Microsoft Purview 入口網站或 Microsoft 合規性入口網站建立關鍵詞字典

使用下列步驟來建立或匯入自訂字典的關鍵字：

針對您使用的入口網站選取適當的索引標籤。若要深入瞭解 Microsoft Purview 入口網站，請參閱 Microsoft Purview 入口網站。若要深入瞭解合規性入口網站，請參閱 Microsoft Purview 合規性入口網站。

Microsoft Purview 入口網站
合規性入口網站

登入 Microsoft Purview 入口網站資訊保護>機密>信息類型。
選 取 [+ 建立敏感性資訊類型 ]，然後輸入敏感性資訊類型的 [名稱 ] 和 [ 描述 ]。選擇 [下一步]。
在 [ 定義此敏感性資訊類型的模式 ] 頁面上，選擇 [ + 建立模式]。
在 [ 新增模式] 視窗中，選取 [信賴等級]。
選擇 [新增主要專案] ，然後選取 [關鍵詞字典]。
在 [ 新增關鍵詞字典 ] 飛出視窗上，您可以：
1. 以 TXT 或 CSV 格式上傳字典檔案。
2. 從現有的字典中選擇。
3. 或手動輸入關鍵詞並提供名稱來建立新的字典。
在 [ 新增模式] 視窗中，針對 [字元鄰近性]，指定 (字元數目) 必須偵測到任何支援元素的距離。主要和支援元素彼此越接近，偵測到的內容就越有可能是您要尋找的內容。
新增您想要用來提高偵測您要尋找之項目的精確度 的支持元素 。
新增任何 [其他檢查] ，然後選擇 [ 建立]。
選擇 [下一步 ] 繼續建立敏感性信息類型。當您完成時，請選擇 [ 完成]。

使用 PowerShell 從檔案建立關鍵字字典

通常當您需要建立大型字典時，您可以使用檔案中的關鍵詞或從其他來源導出的清單。在接下來的範例中，您將建立關鍵詞字典，其中包含要在外部電子郵件中檢測的疾病清單。若要開始，您必須連線到安全性 & 合規性 PowerShell。

將關鍵詞複製到文本檔中，並確定每個關鍵詞都位於個別行上。
使用 Unicode 編碼儲存文字檔。在記事本中，流覽至 [>另存為>編碼>Unicode]。

執行下列 Cmdlet 將檔案讀成變數：

$fileData = [System.IO.File]::ReadAllBytes('<filename>')

執行下列 Cmdlet 來建立字典：

New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData

使用自訂敏感資訊類型和 DLP 原則中的關鍵字字典

關鍵字字典可做為自訂敏感性資訊類型的符合需求一部分，或做為敏感性資訊類型本身。兩者都需要您建立自訂敏感性資訊類型。按照連結文章中的指示建立敏感性資訊類型。擁有 XML 之後，您將需要 XML 中的 GUID 識別碼，才能使用字典。

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

若要取得字典的身分識別，請執行下列命令，然後複製 Identity 屬性值：

Get-DlpKeywordDictionary -Name "Diseases"

此命令的輸出看起來像這樣：

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

將 身分識別 值貼到您自定義敏感性資訊類型的 XML 中，做為 idRef。接下來，上傳 XML 檔案。您的字典現在會出現在您的敏感性資訊類型清單中，而且您可以直接在原則中使用它，指定需要比對多少關鍵詞。

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

注意事項

Microsoft 365 資訊保護支援下列雙位元組字元集語言：

中文 (簡體)
中文 (繁體)
韓文
日文

這項支援適用於敏感性資訊類型。如需詳細資訊，請參閱資訊保護支援雙位元組字元集的版本資訊 (預覽版)。

提示

若要偵測包含中文/日文字元和單一位元組字元的模式，或偵測包含中文/日文和英文的模式，請定義關鍵字或 RegEx 的兩個變體。

例如，若要偵測關鍵字，例如「机密的document」，請使用關鍵字的兩個變體；一個在日文和英文文字之間具有空格，另一個在日文和英文文字之間沒有空格。因此，要新增到 SIT 中的關鍵字應該是「机密的 document」和「机密的document」。同樣地，若要偵測片語「東京オリンピック2020」，應該使用兩個變體；「東京オリンピック 2020」和「東京オリンピック2020」。

除了中文/日文/雙位元組字元，如果關鍵詞/片語的清單也包含非中文/日文字組，也 (例如，獨立英文字組) ，您應該建立兩個字典/關鍵詞清單。一個用於包含中文/日文/雙位元組字元的關鍵詞，另一個用於英文字詞。

例如，如果您想要建立包含三個片語 "Highly confidential"、「機密性が高い」和「机密的document」的關鍵字/清單，則您應該建立兩個關鍵字清單。
1. Highly confidential
2. 機密性が高い、机密的document 和机密的 document

使用雙位元組連字號或雙位元組字元來建立 RegEx 時，請務必逸出這兩個字元，就像一個字元會逸出 RegEx 中的連字號或空格一樣。以下是範例 RegEx 供參考：

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

我們建議您在關鍵字清單中使用字串比對，而不是文字比對。