معلومات التعريف الشخصية (PII) اكتشاف المهارات المعرفية

تستخرج مهارة اكتشاف PII المعلومات الشخصية من نص إدخال وتمنحك خيار إخفائها. تستخدم هذه المهارة نماذج الكشف المتوفرة في Azure Cognitive Services for Language.

ملاحظة

ترتبط هذه المهارة بالخدمات المعرفية وتتطلب موردا قابلا للفوترة للمعاملات التي تتجاوز 20 مستندا لكل مفهرس يوميا. يتم فرض رسوم على تنفيذ المهارات المضمنة بسعر الخدمات المعرفية الحالي للدفع أولا بأول.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

حدود البيانات

يجب أن يكون الحد الأقصى لحجم السجل 50000 حرف كما تم قياسه بواسطة String.Length. إذا كنت بحاجة إلى تقسيم بياناتك قبل إرسالها إلى المهارة، ففكر في استخدام مهارة تقسيم النص.

معلمات المهارة

المعلمات حساسة لحالة الأحرف وكلها اختيارية.

اسم المعلمة الوصف
defaultLanguageCode (اختياري) رمز اللغة المراد تطبيقه على المستندات التي لا تحدد اللغة صراحة. إذا لم يتم تحديد رمز اللغة الافتراضي، استخدام اللغة الإنجليزية (en) كرمز اللغة الافتراضي.
راجع القائمة الكاملة للغات المدعومة.
minimumPrecision قيمة بين 0.0 و 1.0. إذا كانت درجة الثقة (في الإخراج) أقل من القيمة المحددةminimumPrecision، فلن يتم إرجاع الكيان piiEntities أو إخفاؤه. الافتراضي هو 0.0.
maskingMode معلمة توفر طرقا مختلفة لإخفاء المعلومات الشخصية المكتشفة في نص الإدخال. يتم دعم الخيارات التالية:
  • "none" (افتراضي): لا يحدث أي إخفاء ولن يتم إرجاع الإخراج maskedText .
  • "replace"يستبدل الكيانات المكتشفة بالحرف الوارد في المعلمة maskingCharacter .: سيتم تكرار الحرف إلى طول الكيان المكتشف بحيث تتوافق الإزاحة بشكل صحيح مع كل من نص الإدخال والإخراج maskedText.

عندما كانت هذه المهارة في المعاينة العامة ، تم دعم الخيار redact أيضا ، مما سمح بإزالة الكيانات المكتشفة maskingMode بالكامل دون استبدال. redact تم إهمال الخيار منذ ذلك الحين وأصبح مدعوما لفترة أطول.
maskingCharacter الحرف المستخدم لإخفاء النص إذا تم تعيين المعلمة maskingMode إلى replace. الخيار التالي مدعوم: * (افتراضي). لا يمكن أن تكون null هذه المعلمة إلا إذا maskingMode لم يتم تعيينها إلى replace.

عندما كانت هذه المهارة في المعاينة العامة ، كان هناك دعم للخيارات maskingCharacter ، X و #. # ومنذ ذلك الحين تم إهمال كلا الخيارين X وتم دعمهما لفترة أطول.
domain (اختياري) ستقوم قيمة السلسلة، إذا تم تحديدها، بتعيين المجال ليشمل مجموعة فرعية فقط من فئات الكيانات. تشمل القيم المحتملة ما يلي: "phi" (الكشف عن المعلومات الصحية السرية فقط) ، "none".
piiCategories (اختياري) إذا كنت تريد تحديد الكيانات التي سيتم اكتشافها وإرجاعها، فاستخدم هذه المعلمة الاختيارية (المعرفة كقائمة من السلاسل) مع فئات الكيانات المناسبة. يمكن أن تتيح لك هذه المعلمة أيضا اكتشاف الكيانات التي لم يتم تمكينها افتراضيا للغة المستند. راجع فئات كيانات معلومات التعريف الشخصية المدعومة للحصول على القائمة الكاملة.
modelVersion (اختياري) يحدد إصدار النموذج المراد استخدامه عند الاتصال باكتشاف معلومات التعريف الشخصية. سيتم تعيينه افتراضيا إلى أحدث إصدار عندما لا يتم تحديده. نوصيك بعدم تحديد هذه القيمة إلا إذا كان ذلك ضروريا.

مدخلات المهارات

اسم الإدخال الوصف
languageCode سلسلة تشير إلى لغة السجلات. إذا لم يتم تحديد هذه المعلمة، استخدام رمز اللغة الافتراضي لتحليل السجلات.
راجع القائمة الكاملة للغات المدعومة.
text النص المراد تحليله.

مخرجات المهارات

اسم الإخراج الوصف
piiEntities صفيف من الأنواع المعقدة التي تحتوي على الحقول التالية:
  • "text" (معلومات التعريف الشخصية الفعلية كما تم استخراجها)
  • "type"
  • "subType"
  • "score" (القيمة الأعلى تعني أنه من المرجح أن يكون كيانا حقيقيا)
  • "offset" (في نص الإدخال)
  • "length"

راجع فئات كيانات معلومات التعريف الشخصية المدعومة للحصول على القائمة الكاملة.
maskedText إذا maskingMode تم تعيينه إلى قيمة أخرى غير none، فسيكون هذا الإخراج هو نتيجة السلسلة للقناع الذي يتم إجراؤه على نص الإدخال كما هو موضح من قبل المحدد maskingMode. إذا maskingMode تم تعيينه إلى none، فلن يكون هذا الإخراج موجودا.

نموذج تعريف

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

عينة الإدخال

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

عينة الإخراج

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

يتم إرجاع الإزاحات التي يتم إرجاعها للكيانات في إخراج هذه المهارة مباشرة من واجهات برمجة تطبيقات خدمة اللغة، مما يعني أنه إذا كنت تستخدمها للفهرسة في السلسلة الأصلية، فيجب عليك استخدام فئة StringInfo في .NET لاستخراج المحتوى الصحيح. لمزيد من المعلومات، راجع دعم متعدد اللغات والرموز التعبيرية في ميزات خدمة اللغة.

الأخطاء والتحذيرات

إذا كان رمز اللغة الخاص بالمستند غير معتمد، إرجاع تحذير ولا يتم استخراج أي كيانات. إذا كان النص فارغا، إرجاع تحذير. إذا كان النص أكبر من 50,000 حرف، تحليل أول 50,000 حرف فقط وسيتم إصدار تحذير.

إذا قامت المهارة بإرجاع تحذير ، فقد يكون الناتج maskedText فارغا ، مما قد يؤثر على أي مهارات في المراحل النهائية تتوقع الإخراج. لهذا السبب ، تأكد من التحقيق في جميع التحذيرات المتعلقة بالمخرجات المفقودة عند كتابة تعريف مجموعة المهارات الخاصة بك.

راجع أيضًا