Varlık Tanıma bilişsel becerisi (v3)
Varlık Tanıma becerisi (v3), metinden farklı türlerdeki varlıkları ayıklar. Bu varlıklar, kişi ve kuruluşlardan URL'lere ve telefon numaralarına kadar 14 ayrı kategorinin altında yer alır. Bu beceri, Azure AI Language tarafından sağlanan Adlandırılmış Varlık Tanıma makine öğrenmesi modellerini kullanır.
Dekont
Bu beceri Azure AI hizmetlerine bağlıdır ve günlük dizin oluşturucu başına 20 belgeyi aşan işlemler için faturalanabilir bir kaynak gerektirir. Yerleşik becerilerin yürütülmesi, mevcut Azure AI hizmetlerinin kullandıkça öde fiyatından ücretlendirilir.
@odata.type
Microsoft.Skills.Text.V3.EntityRecognitionSkill
Veri sınırları
Kaydın boyut üst sınırı, tarafından String.Length
ölçülen 50.000 karakter olmalıdır. Verilerinizi EntityRecognition becerisine göndermeden önce bölmeniz gerekiyorsa Metin Bölme becerisini kullanmayı göz önünde bulundurun. Bölünmüş beceri kullanırken en iyi performans için sayfa uzunluğunu 5000 olarak ayarlayın.
Beceri parametreleri
Parametreler büyük/küçük harfe duyarlıdır ve tümü isteğe bağlıdır.
Parametre adı | Tanım |
---|---|
categories |
Ayıklanması gereken kategori dizisi. Olası kategori türleri: "Person" , "Location" , "Organization" , , "Quantity" , "DateTime" , "URL" , "Email" , , "Product" "Address" "ipAddress" "personType" "Event" "Skill" "phoneNumber" , . Kategori sağlanmadıysa, tüm türler döndürülür. |
defaultLanguageCode |
Giriş metninin dil kodu. Varsayılan dil kodu belirtilmezse, varsayılan dil kodu olarak İngilizce (en) kullanılır. Desteklenen dillerin tam listesini görün. Tüm diller için tüm varlık kategorileri desteklenmez; aşağıdaki nota bakın. |
minimumPrecision |
0 ile 1 arasında bir değer. Güvenilirlik puanı (çıktıda namedEntities ) bu değerden düşükse varlık döndürülmedi. Varsayılan değer 0’dır. |
modelVersion |
(İsteğe bağlı) Varlık tanıma API'sini çağırırken kullanılacak modelin sürümünü belirtir. Belirtilmediğinde varsayılan olarak en son kullanılabilir duruma gelecek. Gerekli olmadığı sürece bu değeri belirtmemenizi öneririz. |
Beceri girişleri
Giriş adı | Tanım |
---|---|
languageCode |
Kayıtların dilini gösteren dize. Bu parametre belirtilmezse, kayıtları çözümlemek için varsayılan dil kodu kullanılır. Desteklenen dillerin tam listesini görün. |
text |
Analiz için metin. |
Beceri çıkışları
Dekont
Tüm diller için tüm varlık kategorileri desteklenmez. Kullanacağınız dil için hangi varlık kategorilerinin desteklendiğine ilişkin bilgi edinmek için bkz. Desteklenen Adlandırılmış Varlık Tanıma (NER) varlık kategorileri.
Çıkış adı | Tanım |
---|---|
persons |
Her dizenin bir kişinin adını temsil ettiği dize dizisi. |
locations |
Her dizenin bir konumu temsil ettiği dize dizisi. |
organizations |
Her dizenin bir kuruluşu temsil ettiği dize dizisi. |
quantities |
Her dizenin bir miktarı temsil ettiği dize dizisi. |
dateTimes |
Her dizenin bir DateTime (metinde göründüğü gibi) değerini temsil ettiği dize dizisi. |
urls |
Her dizenin bir URL'yi temsil ettiği dize dizisi |
emails |
Her dizenin bir e-postayı temsil ettiği dize dizisi |
personTypes |
Her dizenin bir PersonType'i temsil ettiği dize dizisi |
events |
Her dizenin bir olayı temsil ettiği dize dizisi |
products |
Her dizenin bir ürünü temsil ettiği dize dizisi |
skills |
Her dizenin bir beceriyi temsil ettiği dize dizisi |
addresses |
Her dizenin bir adresi temsil ettiği dize dizisi |
phoneNumbers |
Her dizenin bir telefon numarasını temsil ettiği dize dizisi |
ipAddresses |
Her dizenin bir IP Adresini temsil ettiği dize dizisi |
namedEntities |
Aşağıdaki alanları içeren karmaşık tür dizisi:
|
Örnek tanım
{
"@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
"context": "/document",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "emails"
},
{
"name": "namedEntities",
"targetName": "namedEntities"
}
]
}
Örnek girdi
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Örnek çıktı
{
"values": [
{
"recordId": "1",
"data" :
{
"people": [ "Jean Martin"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category": "Person",
"subcategory": null,
"length": 11,
"offset": 35,
"confidenceScore": 0.98,
"text": "Jean Martin"
},
{
"category": "Email",
"subcategory": null,
"length": 19,
"offset": 71,
"confidenceScore": 0.8,
"text": "contact@contoso.com"
}
],
}
}
]
}
Bu becerinin çıkışındaki varlıklar için döndürülen uzaklıklar, Dil Hizmeti API'lerinden doğrudan döndürülür; yani bunları özgün dizeye dizin oluşturmak için kullanıyorsanız, doğru içeriği ayıklamak için .NET'te StringInfo sınıfını kullanmanız gerekir. Daha fazla bilgi için bkz . Dil hizmeti özelliklerinde çok dilli ve emoji desteği.
Uyarı durumları
Belgenin dil kodu desteklenmiyorsa, bir uyarı döndürülür ve hiçbir varlık ayıklanmazsa.