了解敏感性資訊類型

識別和分類組織控制底下的敏感專案是 資訊保護訓練科目中的第一步。 Microsoft 365 提供三種方式來識別專案,以進行分類:

  • 由使用者手動
  • 自動化的模式識別,像是敏感資訊類型
  • 機器學習

敏感資訊類型是以模式為基礎的分類器。 它們會偵測敏感資訊,例如社會保險、信用卡或銀行帳戶號碼,以識別敏感專案,請參閱 敏感資訊類型實體定義

敏感資訊類型是用於

敏感資訊類型的基礎部分

每個機密資訊類型實體都是由下欄欄位定義:

  • 名稱:機密資訊類型的參考方式
  • 描述:描述敏感資訊類型所要尋找的專案
  • 模式:模式定義敏感資訊類型偵測的內容。 它包含下列元件
    • 主要元素–敏感資訊類型要尋找的主要元素。 它可以是使用或不含校驗和驗證、關鍵字清單關鍵字字典函數正則運算式
    • 支援元素–做為支援證據的元素,可協助增加相符的置信度。 例如,關鍵字 "SSN" 是在 SSN 號碼的接近。 它可以是使用或不含校驗和驗證、關鍵字清單、關鍵字字典的正則運算式。
    • 信賴等級-信賴層級 (高、中、低) 會反映出與主要元素一起偵測到的支援證據的數量。 專案所包含的支援證據越多,符合專案所要尋找之敏感資訊的信賴越高。
    • 近程–主要和支援元素之間的字元數

確切證據及鄰近性視窗的圖表。

深入瞭解這段影片的信賴層級

範例機密資訊類型

阿根廷國家身分識別 (DNI) 號碼

格式

以句點隔開的八位數

模式

八位數:

  • 兩位數
  • 一個句點
  • 三位數
  • 一個句點
  • 三位數

總和檢查碼

定義

當鄰近性300個字元以內時,DLP 原則就會偵測到這種敏感資訊類型的信賴度。

  • 正則運算式 Regex_argentina_national_id 找到符合模式的內容。
  • 會找到來自 Keyword_argentina_national_id 的關鍵字。
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

關鍵字

Keyword_argentina_national_id

  • 阿根廷國內身分識別號碼
  • 身分識別
  • 身分識別的國內身分識別卡片
  • DNI
  • 個人的 NIC 註冊人員
  • Documento Nacional de Identidad
  • Registro Nacional de 拉斯維加斯角色
  • Identidad
  • Identificación

信賴層級的詳細資訊

在機密資訊類型實體定義中, 信賴等級 會反映出除了主要專案之外,偵測到多少支援證據。 專案所包含的支援證據越多,符合專案所要尋找之敏感資訊的信賴越高。 例如,具有高信賴度的比對會在主要元素的接近鄰近性中包含更多支援證據,而符合低信賴度的情況會包含很少無支援證據的近距離。

高信賴等級會傳回最少的誤報,但是可能會產生較多的漏報。 低或中度信賴等級會傳回更多的誤報,但很少為零的否定。

  • 低信賴度:65的值,相符的專案會包含最少的 false 負值,但是最少的誤報。 低信賴會傳回所有低、中和高信賴度的相符專案。
  • 適中信賴:值為75,相符的專案會包含平均的誤報和漏報的平均金額。 中度信賴會傳回所有中和高信賴度的相符專案。
  • 高信賴度:值為85,相符的專案會包含最少的誤報,但最少為 false 的負值。 高信賴度只會傳回高可信度比對。

您應該使用具有較低計數的高信賴度模式、5到10個,以及具有較高數量的低可信度模式,例如20或更高。

注意

如果您有現有的原則或自訂敏感資訊類型 (是使用以數位為基礎的信賴等級) 定義 (也知道精確度) ,它們就會自動對應至三個不同的信賴等級;安全性 @ 合規性中心 UI 中的低信心、中置信度和高信賴度。

  • 所有原則的精確度或自訂 SIT 模式,在76和100之間具有信賴層級,將會對應至高信賴度。
  • 所有原則的精確度或自訂 SIT 模式,在66和75之間具有信賴層級,將會對應至中的置信度。
  • 具有最低精確度或自訂 SIT 模式且信賴等級小於或等於65的所有原則都會對應至低信賴度。

建立自訂敏感性資訊類型

若要在安全性與合規性中心建立自訂敏感性資訊類型,您可以從數個選項中選擇:

注意

在 Microsoft 365 服務的資料遺失防護功能、Microsoft 資訊保護 Microsoft 365 服務、通訊法規遵從性、資訊管理及記錄管理等情況下,可以立即使用的增強信賴等級。 Microsoft 365資訊保護現在支援雙位元組字元集語言:

  • 中文 (簡體)
  • 中文 (繁體)
  • 韓文
  • 日文

這項支援適用於敏感性資訊類型。 如需詳細資訊,請參閱資訊保護支援雙位元組字元集的版本資訊 (預覽版)

提示

若要偵測包含中文/日文字元和單一位元組字元的模式,或偵測包含中文/日文和英文的模式,請定義關鍵字或 RegEx 的兩個變體。

  • 例如,若要偵測關鍵字 ,例如「机密的document」,請使用關鍵字的兩個變體;一個在日文和英文文字之間具有空格,另一個在日文和英文文字之間沒有空格。 因此,要新增到 SIT 中的關鍵字應該是「机密的 document」和「机密的document」。 同樣地,若要偵測片語「東京オリンピック2020」,應該使用兩個變體;「東京オリンピック 2020」和「東京オリンピック2020」。

除了中文/日文/雙位元組字元外,如果關鍵字/片語清單也包含非中文/日文字 (例如僅有英文),建議您建立兩個字典/關鍵字清單。 一個用於包含中文/日文/雙位元組字元的關鍵字,另一個則僅用於英文。

  • 例如,如果您想要建立包含三個片語 "Highly confidential"、「機密性が高い」和「机密的document」的關鍵字/清單,則您應該建立兩個關鍵字清單。
    1. Highly confidential
    2. 機密性が高い、机密的document 和机密的 document

使用雙位元組連字號或雙位元組句號來建立 RegEx 時,請務必逸出這兩個字元,就像一個字元會逸出 RegEx 中的連字號或句號一樣。以下是供參考的範例 RegEx:

  • (?<!\d)([4][0-9]{3}[-?\-\t]*[0-9]{4}

我們建議您在關鍵字清單中使用 string match,而不是字比對。

如需詳細資訊

若要瞭解如何使用敏感資訊類型來遵守資料隱私權規定,請參閱使用 Microsoft 365 (aka.ms/m365dataprivacy) 部署資料隱私權法規的資訊保護