了解文字仲裁概念

發行項
01/18/2024

使用 Content Moderator 的文字調節模型來分析文字內容，例如聊天室、討論區、聊天機器人、電子商務目錄和文件。

服務回應會包含下列資訊：

粗話：搭配內建的多語言粗話字詞清單進行字詞型比對
分類：由電腦輔助分類來分成三種類別
個人資料
自動校正的文字
原始文字
語言

不雅內容

如果 API 偵測到以任何支援的語言表達的任何粗話字詞，這些字詞就會包含在回應中。此回應也會包含它們在原始文字中的位置 (Index)。以下範例 JSON 中的 ListId 係指在自訂字詞清單 \(如果有的話\) 中找到的字詞。

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

注意

針對 language 參數，請指派 eng 或將其保留空白，以查看電腦輔助分類回應 (預覽版功能)。 此功能僅支援英文。

針對粗話字詞偵測，請使用本文中所列支援語言的 ISO 639-3 代碼或將其保留空白。

分類

內容仲裁工具的電腦輔助文字分類功能僅支援英文，可協助偵測可能不合適的內容。所標幟的內容可能是依據上下文而被評估為不當的內容。其傳達每個類別的可能性。此功能使用定型模型來識別可能的濫用、毀謗性或歧視性語言。這包括俚語、縮寫單字、冒犯性及刻意拼錯的單字。

以下 JSON 擷取內容顯示一個範例輸出︰

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

說明

Category1 指的是可能有在特定情況下被視為明顯色情或成人內容的語言存在。
Category2 指的是可能有在特定情況下被視為具性暗示或成人內容的語言存在。
Category3 指的是可能有在特定情況下被視為具冒犯性的語言存在。
Score 介於 0 到 1 之間。分數越高，模型預測為適用該類別的可能性就越高。此功能須倚賴統計模型，而不是手動編碼的結果。建議您使用自己的內容進行測試，以判斷每個類別如何符合您的需求。
ReviewRecommended 會是 true 或 false，視內部分數閾值而定。客戶應該評估是要使用此值，還是根據其內容原則決定自訂閾值。

個人資料

個人資料功能會偵測此資訊是否可能存在：

電子郵件地址
美國郵寄地址
IP 位址
美國電話號碼

以下範例顯示一個範例回應：

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

自動校正

文字調節回應可以選擇性地傳回套用了基本自動校正的文字。

例如，下列輸入文字有拼字錯誤。

The quick brown fox jumps over the lazzy dog.

如果您指定自動校正，回應就會包含該文字的校正版：

The quick brown fox jumps over the lazy dog.

建立及管理您的自訂字詞清單

雖然預設的全域字詞清單適用於大多數案例，但您可能會想要依據業務需求特定的字詞來進行過濾。例如，您可能會想要從使用者的文章中篩選掉任何競爭的品牌名稱。

注意

上限是 5 個字詞清單，其中每個清單不可超過 10,000 個字詞。

以下範例顯示相符的「清單識別碼」：

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator 有提供一個字詞清單 API，其中含有可管理自訂字詞清單的作業。請從字詞清單 API 主控台開始著手，然後使用 REST API 程式碼範例。此外，如果您已熟悉 Visual Studio 和 C#，請一併參閱字詞清單 .NET 快速入門。

下一步

使用文字調節 API 主控台測試 API。

了解文字仲裁概念

不雅內容

分類

說明

個人資料

自動校正

建立及管理您的自訂字詞清單

下一步

其他資源