معلومات التعريف الشخصية (PII) اكتشاف المهارات المعرفية
تستخرج مهارة اكتشاف PII المعلومات الشخصية من نص إدخال وتمنحك خيار إخفائها. تستخدم هذه المهارة نماذج الكشف المتوفرة في Azure Cognitive Services for Language.
ملاحظة
ترتبط هذه المهارة بالخدمات المعرفية وتتطلب موردا قابلا للفوترة للمعاملات التي تتجاوز 20 مستندا لكل مفهرس يوميا. يتم فرض رسوم على تنفيذ المهارات المضمنة بسعر الخدمات المعرفية الحالي للدفع أولا بأول.
@odata.type
Microsoft.Skills.Text.PIIDetectionSkill
حدود البيانات
يجب أن يكون الحد الأقصى لحجم السجل 50000 حرف كما تم قياسه بواسطة String.Length. إذا كنت بحاجة إلى تقسيم بياناتك قبل إرسالها إلى المهارة، ففكر في استخدام مهارة تقسيم النص.
معلمات المهارة
المعلمات حساسة لحالة الأحرف وكلها اختيارية.
| اسم المعلمة | الوصف |
|---|---|
defaultLanguageCode |
(اختياري) رمز اللغة المراد تطبيقه على المستندات التي لا تحدد اللغة صراحة. إذا لم يتم تحديد رمز اللغة الافتراضي، استخدام اللغة الإنجليزية (en) كرمز اللغة الافتراضي. راجع القائمة الكاملة للغات المدعومة. |
minimumPrecision |
قيمة بين 0.0 و 1.0. إذا كانت درجة الثقة (في الإخراج) أقل من القيمة المحددةminimumPrecision، فلن يتم إرجاع الكيان piiEntities أو إخفاؤه. الافتراضي هو 0.0. |
maskingMode |
معلمة توفر طرقا مختلفة لإخفاء المعلومات الشخصية المكتشفة في نص الإدخال. يتم دعم الخيارات التالية:
عندما كانت هذه المهارة في المعاينة العامة ، تم دعم الخيار redact أيضا ، مما سمح بإزالة الكيانات المكتشفة maskingMode بالكامل دون استبدال. redact تم إهمال الخيار منذ ذلك الحين وأصبح مدعوما لفترة أطول. |
maskingCharacter |
الحرف المستخدم لإخفاء النص إذا تم تعيين المعلمة maskingMode إلى replace. الخيار التالي مدعوم: * (افتراضي). لا يمكن أن تكون null هذه المعلمة إلا إذا maskingMode لم يتم تعيينها إلى replace. عندما كانت هذه المهارة في المعاينة العامة ، كان هناك دعم للخيارات maskingCharacter ، X و #. # ومنذ ذلك الحين تم إهمال كلا الخيارين X وتم دعمهما لفترة أطول. |
domain |
(اختياري) ستقوم قيمة السلسلة، إذا تم تحديدها، بتعيين المجال ليشمل مجموعة فرعية فقط من فئات الكيانات. تشمل القيم المحتملة ما يلي: "phi" (الكشف عن المعلومات الصحية السرية فقط) ، "none". |
piiCategories |
(اختياري) إذا كنت تريد تحديد الكيانات التي سيتم اكتشافها وإرجاعها، فاستخدم هذه المعلمة الاختيارية (المعرفة كقائمة من السلاسل) مع فئات الكيانات المناسبة. يمكن أن تتيح لك هذه المعلمة أيضا اكتشاف الكيانات التي لم يتم تمكينها افتراضيا للغة المستند. راجع فئات كيانات معلومات التعريف الشخصية المدعومة للحصول على القائمة الكاملة. |
modelVersion |
(اختياري) يحدد إصدار النموذج المراد استخدامه عند الاتصال باكتشاف معلومات التعريف الشخصية. سيتم تعيينه افتراضيا إلى أحدث إصدار عندما لا يتم تحديده. نوصيك بعدم تحديد هذه القيمة إلا إذا كان ذلك ضروريا. |
مدخلات المهارات
| اسم الإدخال | الوصف |
|---|---|
languageCode |
سلسلة تشير إلى لغة السجلات. إذا لم يتم تحديد هذه المعلمة، استخدام رمز اللغة الافتراضي لتحليل السجلات. راجع القائمة الكاملة للغات المدعومة. |
text |
النص المراد تحليله. |
مخرجات المهارات
| اسم الإخراج | الوصف |
|---|---|
piiEntities |
صفيف من الأنواع المعقدة التي تحتوي على الحقول التالية:
|
maskedText |
إذا maskingMode تم تعيينه إلى قيمة أخرى غير none، فسيكون هذا الإخراج هو نتيجة السلسلة للقناع الذي يتم إجراؤه على نص الإدخال كما هو موضح من قبل المحدد maskingMode. إذا maskingMode تم تعيينه إلى none، فلن يكون هذا الإخراج موجودا. |
نموذج تعريف
{
"@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"maskingMode": "replace",
"maskingCharacter": "*",
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "piiEntities"
},
{
"name": "maskedText"
}
]
}
عينة الإدخال
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
}
}
]
}
عينة الإخراج
{
"values": [
{
"recordId": "1",
"data" :
{
"piiEntities":[
{
"text":"859-98-0987",
"type":"U.S. Social Security Number (SSN)",
"subtype":"",
"offset":28,
"length":11,
"score":0.65
}
],
"maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
}
}
]
}
يتم إرجاع الإزاحات التي يتم إرجاعها للكيانات في إخراج هذه المهارة مباشرة من واجهات برمجة تطبيقات خدمة اللغة، مما يعني أنه إذا كنت تستخدمها للفهرسة في السلسلة الأصلية، فيجب عليك استخدام فئة StringInfo في .NET لاستخراج المحتوى الصحيح. لمزيد من المعلومات، راجع دعم متعدد اللغات والرموز التعبيرية في ميزات خدمة اللغة.
الأخطاء والتحذيرات
إذا كان رمز اللغة الخاص بالمستند غير معتمد، إرجاع تحذير ولا يتم استخراج أي كيانات. إذا كان النص فارغا، إرجاع تحذير. إذا كان النص أكبر من 50,000 حرف، تحليل أول 50,000 حرف فقط وسيتم إصدار تحذير.
إذا قامت المهارة بإرجاع تحذير ، فقد يكون الناتج maskedText فارغا ، مما قد يؤثر على أي مهارات في المراحل النهائية تتوقع الإخراج. لهذا السبب ، تأكد من التحقيق في جميع التحذيرات المتعلقة بالمخرجات المفقودة عند كتابة تعريف مجموعة المهارات الخاصة بك.