Kişisel Bilgiler (PII) Algılama bilişsel becerisi

PII Algılama becerisi, giriş metninden kişisel bilgileri ayıklar ve bunları maskeleme seçeneği sunar. Bu beceri, Azure AI Dili'nde sağlanan algılama modellerini kullanır.

Not

Bu beceri Azure AI hizmetlerine bağlıdır ve günlük dizin oluşturucu başına 20 belgeyi aşan işlemler için faturalanabilir bir kaynak gerektirir. Yerleşik becerilerin yürütülmesi, mevcut Azure AI hizmetlerinin kullandıkça öde fiyatından ücretlendirilir.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

Veri sınırları

Kaydın boyut üst sınırı, tarafından String.Lengthölçülen 50.000 karakter olmalıdır. Veri öbekleme için Metin Bölme becerisini kullanabilirsiniz. En iyi sonuçları elde etmek için sayfa uzunluğunu 5000 olarak ayarlayın.

Beceri parametreleri

Parametreler büyük/küçük harfe duyarlıdır ve tümü isteğe bağlıdır.

Parametre adı Açıklama
defaultLanguageCode (İsteğe bağlı) Dili açıkça belirtmeyen belgelere uygulanacak dil kodu. Varsayılan dil kodu belirtilmezse, İngilizce (en) varsayılan dil kodudur.
Desteklenen dillerin tam listesini görün.
minimumPrecision 0,0 ile 1,0 arasında bir değer. Güvenilirlik puanı (çıktıda piiEntities ) ayarlanan minimumPrecision değerden düşükse varlık döndürülmüyor veya maskelenmez. Varsayılan değer 0,0'dır.
maskingMode Giriş metninde algılanan kişisel bilgileri maskelemenin çeşitli yollarını sağlayan bir parametre. Aşağıdaki seçenekler desteklenir:
  • "none" (varsayılan): Maskeleme gerçekleşmez ve maskedText çıkış döndürülmüyor.
  • "replace": Algılanan varlıkları parametresinde maskingCharacter verilen karakterle değiştirir. Karakter, algılanan varlığın uzunluğuna kadar yinelenir, böylece uzaklıklar hem giriş metnine hem de çıkışa maskedTextdoğru şekilde karşılık gelir.
maskingCharacter Parametresi olarak ayarlandıysa maskingModereplace, metni maskelerken kullanılan karakter. Aşağıdaki seçenek desteklenir: * (varsayılan). Bu parametre yalnızca olarak ayarlı replacedeğilse olabilir.nullmaskingMode
domain (İsteğe bağlı) Dize değeri belirtilirse, etki alanını varlık kategorilerinin bir alt kümesine ayarlar. Olası değerler şunlardır: "phi" (yalnızca gizli sistem durumu bilgilerini algıla), "none".
piiCategories (İsteğe bağlı) Hangi varlıkların algılanıp döndürüleceğini belirtmek istiyorsanız, uygun varlık kategorileriyle bu isteğe bağlı parametreyi (dize listesi olarak tanımlanır) kullanın. Bu parametre, belge diliniz için varsayılan olarak etkinleştirilmemiş varlıkları algılamanıza da olanak sağlar. Tam liste için bkz . Desteklenen Kişisel Bilgiler varlık kategorileri .
modelVersion (İsteğe bağlı) Kişisel bilgi algılamayı çağırırken kullanılacak modelin sürümünü belirtir. Belirtilmediğinde varsayılan olarak en son sürümü kullanır. Gerekli olmadığı sürece bu değeri belirtmenizi öneririz.

Beceri girişleri

Giriş adı Açıklama
languageCode Kayıtların dilini gösteren dize. Bu parametre belirtilmezse, kayıtları çözümlemek için varsayılan dil kodu kullanılır.
Desteklenen dillerin tam listesini görün.
text Analiz için metin.

Beceri çıkışları

Çıkış adı Açıklama
piiEntities Aşağıdaki alanları içeren karmaşık tür dizisi:
  • "text" (Ayıklandığı şekilde gerçek kişisel bilgiler)
  • "type"
  • "subType"
  • "score" (Daha yüksek değer, gerçek varlık olma olasılığının daha yüksek olduğu anlamına gelir)
  • "offset" (giriş metnine)
  • "length"

Tam liste için bkz . Desteklenen Kişisel Bilgiler varlık kategorileri .
maskedText Bu çıkış, öğesine bağlı olarak maskingModedeğişir. ise maskingModereplace, çıkış, tarafından açıklandığı maskingModegibi giriş metni üzerinde gerçekleştirilen maskelemenin dize sonucudur. ise maskingModenone, çıkış yoktur.

Örnek tanım

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

Örnek girdi

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

Örnek çıktı

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

Bu becerinin çıkışındaki varlıklar için döndürülen uzaklıklar, dil hizmeti API'lerinden doğrudan döndürülür; yani bunları özgün dizede dizin oluşturmak için kullanıyorsanız, doğru içeriği ayıklamak için .NET'te StringInfo sınıfını kullanmanız gerekir. Daha fazla bilgi için bkz . Dil hizmeti özelliklerinde çok dilli ve emoji desteği.

Hatalar ve uyarılar

Belgenin dil kodu desteklenmiyorsa, bir uyarı döndürülür ve hiçbir varlık ayıklanmazsa. Metniniz boşsa bir uyarı döndürülür. Metniniz 50.000 karakterden büyükse yalnızca ilk 50.000 karakter analiz edilir ve bir uyarı verilir.

Beceri bir uyarı döndürürse çıkış boş olabilir ve bu da çıkışı maskedText bekleyen aşağı akış becerilerini etkileyebilir. Bu nedenle beceri kümesi tanımınızı yazarken eksik çıkışla ilgili tüm uyarıları araştırdığınızdan emin olun.

Ayrıca bkz.