Varlık Tanıma bilişsel becerisi (v3)

Varlık Tanıma becerisi (v3), metinden farklı türlerdeki varlıkları ayıklar. Bu varlıklar, kişi ve kuruluşlardan URL'lere ve telefon numaralarına kadar 14 ayrı kategorinin altında yer alır. Bu beceri, Azure AI Language tarafından sağlanan Adlandırılmış Varlık Tanıma makine öğrenmesi modellerini kullanır.

Dekont

Bu beceri Azure AI hizmetlerine bağlıdır ve günlük dizin oluşturucu başına 20 belgeyi aşan işlemler için faturalanabilir bir kaynak gerektirir. Yerleşik becerilerin yürütülmesi, mevcut Azure AI hizmetlerinin kullandıkça öde fiyatından ücretlendirilir.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Veri sınırları

Kaydın boyut üst sınırı, tarafından String.Lengthölçülen 50.000 karakter olmalıdır. Verilerinizi EntityRecognition becerisine göndermeden önce bölmeniz gerekiyorsa Metin Bölme becerisini kullanmayı göz önünde bulundurun. Bölünmüş beceri kullanırken en iyi performans için sayfa uzunluğunu 5000 olarak ayarlayın.

Beceri parametreleri

Parametreler büyük/küçük harfe duyarlıdır ve tümü isteğe bağlıdır.

Parametre adı Tanım
categories Ayıklanması gereken kategori dizisi. Olası kategori türleri: "Person", "Location", "Organization", , "Quantity", "DateTime", "URL", "Email", , "Product""Address""ipAddress""personType""Event""Skill""phoneNumber", . Kategori sağlanmadıysa, tüm türler döndürülür.
defaultLanguageCode Giriş metninin dil kodu. Varsayılan dil kodu belirtilmezse, varsayılan dil kodu olarak İngilizce (en) kullanılır.
Desteklenen dillerin tam listesini görün. Tüm diller için tüm varlık kategorileri desteklenmez; aşağıdaki nota bakın.
minimumPrecision 0 ile 1 arasında bir değer. Güvenilirlik puanı (çıktıda namedEntities ) bu değerden düşükse varlık döndürülmedi. Varsayılan değer 0’dır.
modelVersion (İsteğe bağlı) Varlık tanıma API'sini çağırırken kullanılacak modelin sürümünü belirtir. Belirtilmediğinde varsayılan olarak en son kullanılabilir duruma gelecek. Gerekli olmadığı sürece bu değeri belirtmemenizi öneririz.

Beceri girişleri

Giriş adı Tanım
languageCode Kayıtların dilini gösteren dize. Bu parametre belirtilmezse, kayıtları çözümlemek için varsayılan dil kodu kullanılır.
Desteklenen dillerin tam listesini görün.
text Analiz için metin.

Beceri çıkışları

Dekont

Tüm diller için tüm varlık kategorileri desteklenmez. Kullanacağınız dil için hangi varlık kategorilerinin desteklendiğine ilişkin bilgi edinmek için bkz. Desteklenen Adlandırılmış Varlık Tanıma (NER) varlık kategorileri.

Çıkış adı Tanım
persons Her dizenin bir kişinin adını temsil ettiği dize dizisi.
locations Her dizenin bir konumu temsil ettiği dize dizisi.
organizations Her dizenin bir kuruluşu temsil ettiği dize dizisi.
quantities Her dizenin bir miktarı temsil ettiği dize dizisi.
dateTimes Her dizenin bir DateTime (metinde göründüğü gibi) değerini temsil ettiği dize dizisi.
urls Her dizenin bir URL'yi temsil ettiği dize dizisi
emails Her dizenin bir e-postayı temsil ettiği dize dizisi
personTypes Her dizenin bir PersonType'i temsil ettiği dize dizisi
events Her dizenin bir olayı temsil ettiği dize dizisi
products Her dizenin bir ürünü temsil ettiği dize dizisi
skills Her dizenin bir beceriyi temsil ettiği dize dizisi
addresses Her dizenin bir adresi temsil ettiği dize dizisi
phoneNumbers Her dizenin bir telefon numarasını temsil ettiği dize dizisi
ipAddresses Her dizenin bir IP Adresini temsil ettiği dize dizisi
namedEntities Aşağıdaki alanları içeren karmaşık tür dizisi:
  • category
  • Alt kategori
  • confidenceScore (Daha yüksek değer gerçek bir varlık olması anlamına gelir)
  • uzunluk (Bu varlığın uzunluğu (karakter sayısı)
  • offset (Metinde bulunduğu konum)
  • text (Metinde göründüğü gibi gerçek varlık adı)

Örnek tanım

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Örnek girdi

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Örnek çıktı

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Bu becerinin çıkışındaki varlıklar için döndürülen uzaklıklar, Dil Hizmeti API'lerinden doğrudan döndürülür; yani bunları özgün dizeye dizin oluşturmak için kullanıyorsanız, doğru içeriği ayıklamak için .NET'te StringInfo sınıfını kullanmanız gerekir. Daha fazla bilgi için bkz . Dil hizmeti özelliklerinde çok dilli ve emoji desteği.

Uyarı durumları

Belgenin dil kodu desteklenmiyorsa, bir uyarı döndürülür ve hiçbir varlık ayıklanmazsa.

Ayrıca bkz.