了解文字仲裁概念

使用 Content Moderator 的文字調節模型來分析文字內容,例如聊天室、討論區、聊天機器人、電子商務目錄和文件。

服務回應會包含下列資訊:

  • 粗話:搭配內建的多語言粗話字詞清單進行字詞型比對
  • 分類:由電腦輔助分類來分成三種類別
  • 個人資料
  • 自動校正的文字
  • 原始文字
  • 語言

不雅內容

如果 API 偵測到以任何支援的語言表達的任何粗話字詞,這些字詞就會包含在回應中。 此回應也會包含它們在原始文字中的位置 (Index)。 以下範例 JSON 中的 ListId 係指在 自訂字詞清單 \(如果有的話\) 中找到的字詞。

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

注意

針對 language 參數,請指派 eng 或將其保留空白,以查看電腦輔助分類 回應 (預覽版功能)。 此功能僅支援英文

針對粗話字詞偵測,請使用本文中所列支援語言的 ISO 639-3 代碼或將其保留空白。

分類

內容仲裁工具的電腦輔助文字分類功能僅支援英文,可協助偵測可能不合適的內容。 所標幟的內容可能是依據上下文而被評估為不當的內容。 其傳達每個類別的可能性。 此功能使用定型模型來識別可能的濫用、毀謗性或歧視性語言。 這包括俚語、縮寫單字、冒犯性及刻意拼錯的單字。

以下 JSON 擷取內容顯示一個範例輸出︰

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

說明

  • Category1 指的是可能有在特定情況下被視為明顯色情或成人內容的語言存在。
  • Category2 指的是可能有在特定情況下被視為具性暗示或成人內容的語言存在。
  • Category3 指的是可能有在特定情況下被視為具冒犯性的語言存在。
  • Score 介於 0 到 1 之間。 分數越高,模型預測為適用該類別的可能性就越高。 此功能須倚賴統計模型,而不是手動編碼的結果。 建議您使用自己的內容進行測試,以判斷每個類別如何符合您的需求。
  • ReviewRecommended 會是 true 或 false,視內部分數閾值而定。 客戶應該評估是要使用此值,還是根據其內容原則決定自訂閾值。

個人資料

個人資料功能會偵測此資訊是否可能存在:

  • 電子郵件地址
  • 美國郵寄地址
  • IP 位址
  • 美國電話號碼

以下範例顯示一個範例回應:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

自動校正

文字調節回應可以選擇性地傳回套用了基本自動校正的文字。

例如,下列輸入文字有拼字錯誤。

The quick brown fox jumps over the lazzy dog.

如果您指定自動校正,回應就會包含該文字的校正版:

The quick brown fox jumps over the lazy dog.

建立及管理您的自訂字詞清單

雖然預設的全域字詞清單適用於大多數案例,但您可能會想要依據業務需求特定的字詞來進行過濾。 例如,您可能會想要從使用者的文章中篩選掉任何競爭的品牌名稱。

注意

上限是 5 個字詞清單,其中每個清單不可超過 10,000 個字詞

以下範例顯示相符的「清單識別碼」:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator 有提供一個字詞清單 API,其中含有可管理自訂字詞清單的作業。 請從字詞清單 API 主控台開始著手,然後使用 REST API 程式碼範例。 此外,如果您已熟悉 Visual Studio 和 C#,請一併參閱字詞清單 .NET 快速入門

下一步

使用文字調節 API 主控台測試 API。