實體辨識認知技能 (v2)

實體辨識技能 (v2) 會從文字擷取不同類型的實體。 此技能會使用 Azure AI 服務中 文字分析 所提供的機器學習模型。

重要

實體辨識技能 (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) 現在已由 Microsoft.Skills.Text.V3.EntityRecognitionSkill 取代。 請遵循已淘汰技能中的建議,以移轉至支援的技能。

注意

當您藉由增加處理頻率、新增更多檔或新增更多 AI 演算法來擴充範圍時,您必須 附加可計費的 Azure AI 服務資源。 在 Azure AI 服務中呼叫 API,並在 Azure AI 搜尋中作為檔破解階段的影像擷取時產生費用。 從文件擷取文字不會產生任何費用。

內建技能的執行會以現有的 Azure AI 服務隨用隨付價格收費。 影像擷取定價會在 Azure AI 搜尋定價頁面上描述。

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

資料限制

記錄的大小上限應為50,000個字元,如所 String.Length測量。 如果您需要在將數據傳送至關鍵片語擷取器之前中斷數據,請考慮使用 文字分割技能。 如果您使用文字分割技能,請將頁面長度設定為 5000 以獲得最佳效能。

技能參數

參數會區分大小寫,而且都是選擇性的。

參數名稱 描述
categories 應擷取的類別數位。 可能的類別類型:"Person"、、"Location"、、"Datetime""Organization""Quantity""URL""Email"。 如果未提供任何類別,則會傳回所有類型。
defaultLanguageCode 輸入文字的語言代碼。 支援下列語言: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans。 並非所有語言都支援所有實體類別;請參閱下方的附註。
minimumPrecision 介於 0 和 1 之間的值。 如果信賴分數 (在輸出中 namedEntities ) 低於此值,則不會傳回實體。 預設值是 0。
includeTypelessEntities true如果您要辨識不符合目前類別的已知實體,請將 設定為 。 辨識的實體會在複雜輸出欄位中傳 entities 回。 例如,「Windows 10」 是已知的實體(產品),但由於「產品」不是支持的類別,因此此實體會包含在實體輸出欄位中。 預設為 false

技能輸入

輸入名稱 描述
languageCode 選擇性。 預設值為 "en"
text 要分析的文字。

技能輸出

注意

並非所有語言都支援所有實體類別。 上述 "Person"語言的完整清單支援、 "Location""Organization" 實體類別類型。 只有 deenesfrzh-hans 支援擷 "Quantity"取 、 "Datetime""URL""Email" 類型。 如需詳細資訊,請參閱 文字分析 API 的語言和區域支援。

輸出名稱 描述
persons 字串陣列,其中每個字串都代表人員的名稱。
locations 字串陣列,其中每個字串都代表位置。
organizations 字串陣列,其中每個字串都代表組織。
quantities 字串數位,其中每個字串都代表數量。
dateTimes 字串陣列,其中每個字串都代表DateTime(如文字中所示) 值。
urls 字串數位,其中每個字串都代表URL
emails 字串數位,其中每個字串都代表電子郵件
namedEntities 包含下列欄位的複雜型別數組:
  • category
  • value (實際實體名稱)
  • offset (文字中找到的位置)
  • 信賴度 (較高的值表示成為真實實體會更多)
entities 複雜類型的陣列,其中包含從文字擷取之實體的豐富資訊,其中包含下列字段
  • name (實際實體名稱。這表示「正規化」表單)
  • wikipediaId
  • wikipediaLanguage
  • wikipediaUrl (實體的維琪百科頁面連結)
  • bingId
  • type (可辨識實體的類別)
  • subType (僅適用於特定類別,這可提供更細微的實體類型檢視)
  • 符合 (包含的複雜集合)
    • text (實體的原始文字)
    • offset (找到的位置)
    • length (原始實體文字的長度)

範例定義

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

範例輸入

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

範例輸出

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

請注意,此技能輸出中實體傳回的位移會直接從 文字分析 API 傳回,這表示如果您使用它們來編製原始字串的索引,您應該使用 .NET 中的 StringInfo 類別來擷取正確的內容。 如需詳細資訊,請參閱這裡。

警告案例

如果不支援文件的語言代碼,則會傳回警告,而且不會擷取任何實體。

另請參閱