إنشاء قواعد نمط مجموعة الموارد

عادة ما تخزن أنظمة معالجة البيانات على نطاق واسع جدولا واحدا في التخزين كملفات متعددة. يتم تمثيل هذا المفهوم في Microsoft Purview باستخدام مجموعات الموارد. مجموعة الموارد هي كائن واحد في كتالوج البيانات يمثل عددا كبيرا من الأصول في التخزين. لمعرفة المزيد، راجع فهم مجموعات الموارد.

عند فحص حساب تخزين، يستخدم Microsoft Purview مجموعة من الأنماط المحددة لتحديد ما إذا كانت مجموعة من الأصول هي مجموعة موارد. في بعض الحالات، قد لا يعكس تجميع مجموعة موارد Microsoft Purview بدقة مجموعة البيانات الخاصة بك. تسمح لك قواعد نمط مجموعة الموارد بتخصيص أو تجاوز كيفية اكتشاف Microsoft Purview للأصول التي يتم تجميعها كمجموعات موارد وكيفية عرضها داخل الكتالوج.

قواعد النمط معتمدة حاليا في أنواع المصادر التالية:

  • Azure Data Lake Storage Gen2
  • Azure Blob Storage
  • ملفات Azure
  • Amazon S3

يجب تمكين مجموعة ميزات مجموعة الموارد المتقدمة لإنشاء قواعد نمط مجموعة الموارد. لمعرفة المزيد، راجع فهم مجموعات الموارد المتقدمة.

كيفية إنشاء قاعدة نمط مجموعة موارد

اتبع الخطوات أدناه لإنشاء قاعدة نمط مجموعة موارد جديدة:

  1. انتقل إلى خريطة البيانات. حدد قواعد النمط من القائمة أسفل عنوان إدارة المصدر. حدد + جديد لإنشاء مجموعة قواعد جديدة.

    Create new resource set pattern rule

  2. أدخل نطاق قاعدة نمط مجموعة الموارد. حدد نوع حساب التخزين واسم حساب التخزين الذي ترغب في إنشاء قاعدة تم تعيينه عليه. يتم تطبيق كل مجموعة من القواعد بالنسبة إلى نطاق مسار مجلد محدد في حقل مسار المجلد .

    Create resource set pattern rule configurations

  3. لإدخال قاعدة لنطاق تكوين، حدد + قاعدة جديدة.

  4. أدخل في الحقول التالية لإنشاء قاعدة:

    1. اسم القاعدة: اسم قاعدة التكوين. ليس لهذا الحقل أي تأثير على الأصول التي تنطبق عليها القاعدة.

    2. الاسم المؤهل: مسار مؤهل يستخدم مجموعة من النص والبدائل الديناميكية والبدائل الثابتة لمطابقة الأصول مع قاعدة التكوين. هذا المسار مرتبط بنطاق قاعدة التكوين. راجع قسم بناء الجملة أدناه للحصول على إرشادات مفصلة حول كيفية تحديد الأسماء المؤهلة.

    3. اسم العرض: اسم العرض الخاص بالأصل. هذا الحقل اختياري. استخدم النص العادي والبدائل الثابتة لتخصيص كيفية عرض الأصل في الكتالوج. للحصول على إرشادات أكثر تفصيلا، راجع قسم بناء الجملة أدناه.

    4. لا تقم بتجميع الموارد كمجموعة موارد: إذا تم تمكينه، فلن يتم تجميع المورد المطابق في مجموعة موارد.

      Create new configuration rule.

  5. احفظ القاعدة عن طريق تحديد إضافة.

ملاحظة

بعد إنشاء قاعدة نمط، ستطبق جميع عمليات الفحص الجديدة القاعدة أثناء الابتلاع. سيتم تحديث الأصول الموجودة في كتالوج البيانات عبر عملية خلفية قد تستغرق ما يصل إلى بضع ساعات.

بناء جملة قاعدة النمط

عند إنشاء قواعد نمط مجموعة الموارد، استخدم بناء الجملة التالي لتحديد قواعد الأصول التي تنطبق عليها.

البدائل الديناميكية (الأقواس المفردة)

يتم استخدام الأقواس المفردة كبدائل ديناميكية في قواعد النمط. حدد بديلا ديناميكيا في الاسم المؤهل باستخدام التنسيق {<replacerName:<replacerType>}. في حالة التطابق، يتم استخدام البدائل الديناميكية كشرط تجميع يشير إلى أنه يجب تمثيل الأصول كمجموعة موارد. إذا تم تجميع الأصول في مجموعة موارد، فسيحتوي المسار المؤهل لمجموعة الموارد على {replacerName} المكان الذي تم فيه تحديد البديل.

على سبيل المثال، إذا كان هناك أصلان folder1/file-1.csv ومطابقان folder2/file-2.csv للقاعدة {folder:string}/file-{NUM:int}.csv، فستكون مجموعة الموارد كيانا {folder}/file-{NUM}.csvواحدا .

حالة خاصة: البدائل الديناميكية عند عدم التجميع في مجموعة موارد

إذا لم يتم تمكين "عدم التجميع" كمجموعة موارد لقاعدة نمط، فإن اسم الاستبدال هو حقل اختياري. {:<replacerType>} هو بناء جملة صالح. على سبيل المثال، file-{:int}.csv سيتم مطابقة file-1.csv وإنشاء file-2.csv اثنين من الأصول المختلفة بنجاح بدلا من مجموعة موارد.

بدائل ثابتة (أقواس مزدوجة)

يتم استخدام الأقواس المزدوجة كبدائل ثابتة في الاسم المؤهل لقاعدة نمط. حدد بديلا ثابتا في الاسم المؤهل باستخدام التنسيق {{<replacerName>:<replacerType>}}. إذا تمت مطابقتها، ستقوم كل مجموعة من قيم الاستبدال الثابتة الفريدة بإنشاء مجموعات موارد مختلفة.

على سبيل المثال، إذا تم مطابقة اثنين من الأصول folder1/file-1.csvfolder2/file-2.csv مع القاعدة {{folder:string}}/file-{NUM:int}.csv، سيتم إنشاء folder1/file-{NUM}.csv مجموعتين من الموارد و folder2/file-{NUM}.csv.

يمكن استخدام البدائل الثابتة لتحديد اسم العرض لأصل مطابق لقاعدة نمط. سيؤدي استخدام اسم العرض للقاعدة إلى استخدام {{<replacerName>}} القيمة المتطابقة في اسم مادة العرض.

أنواع الاستبدال المتاحة

فيما يلي الأنواع المتاحة التي يمكن استخدامها في البدائل الثابتة والديناميكية:

النوع البنية
سلسلة سلسلة من 1 أو أكثر من أحرف Unicode بما في ذلك المحددات مثل المسافات.
Int سلسلة من 1 أو أكثر من 0-9 أحرف ASCII ، يمكن أن تكون 0 مسبوقة (على سبيل المثال 0001).
guid سلسلة من 32 أو 8-4-4-4-12 تمثيل سلسلة UUID كما هو محدد في RFC 4122.
التاريخ سلسلة من 6 أو 8 أحرف ASCII 0-9 مع فواصل اختيارية: yyyymmdd ، yyyy-mm-dd ، yymmdd ، yy-mm-dd ، محددة في RFC 3339.
الوقت سلسلة من 4 أو 6 أحرف ASCII 0-9 مع فواصل اختيارية: HHmm، HH: mm، HHmmss، HH: mm: ss المحددة في RFC 3339.
طابع زمني سلسلة من 12 أو 14 حرفا من أحرف ASCII 0-9 مع فواصل اختيارية: yyyy-mm-ddTHH:mm، yyyymmddhhmm، yyyy-mm-ddTHH:mm:ss، yyyymmddHHmmss المحددة في RFC 3339.
منطقي يمكن أن تحتوي على "صحيح" أو "خطأ" ، غير حساس لحالة الأحرف.
العدد سلسلة من 0 أو أكثر من 0-9 أحرف ASCII ، يمكن أن تكون 0 مسبوقة (على سبيل المثال 0001) متبوعة اختياريا بنقطة '.' وسلسلة من 1 أو أكثر من 0-9 أحرف ASCII ، يمكن أن تكون 0 مؤجلة (على سبيل المثال .100)
hex سلسلة من 1 أو أكثر من أحرف ASCII من المجموعة 0-1 و A-F ، يمكن أن تكون القيمة 0 مسبوقة
الإعدادات المحلية سلسلة تتطابق مع بناء الجملة المحدد في RFC 5646.

ترتيب قواعد نمط مجموعة الموارد التي يتم تطبيقها

فيما يلي ترتيب العمليات لتطبيق قواعد النمط:

  1. وستحظى النطاقات الأكثر تحديدا بالأولوية إذا تطابق مادة العرض مع قاعدتين. على سبيل المثال ، سيتم تطبيق القواعد في نطاق container/folder قبل القواعد في النطاق container.

  2. ترتيب القواعد ضمن نطاق محدد. يمكن تحرير هذا في تجربة المستخدم.

  3. إذا لم يتطابق أحد الأصول مع أي قاعدة محددة، تطبيق الاستدلالات الافتراضية لمجموعة الموارد.

أمثلة

مثال 1

استخراج بيانات SAP إلى أحمال كاملة ودلتا

الإدخالات

الملفات:

  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt

قاعدة النمط

نطاق:https://myazureblob.blob.core.windows.net/bar/

اسم العرض: "عميل خارجي"

الاسم المؤهل:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt

مجموعة الموارد: صحيح

المخرجات

أصل مجموعة موارد واحد

اسم العرض: العملاء الخارجيون

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt

مثال 2

بيانات إنترنت الأشياء بتنسيق avro

الإدخالات

الملفات:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

قواعد النمط

نطاق:https://myazureblob.blob.core.windows.net/bar/

المادة 1

اسم العرض: "آلة-89"

الاسم المؤهل:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro

مجموعة الموارد: صحيح

المادة 2

اسم العرض: "آلة-90"

الاسم المؤهل:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro

مجموعة الموارد: صحيح

المخرجات

2 مجموعات الموارد

مجموعة الموارد 1

اسم العرض: آلة-89

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

مجموعة الموارد 2

اسم العرض: آلة-90

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

مثال 3

بيانات إنترنت الأشياء بتنسيق avro

الإدخالات

الملفات:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

قاعدة النمط

نطاق:https://myazureblob.blob.core.windows.net/bar/

اسم العرض: 'Machine-{{machineid}}'

الاسم المؤهل:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro

مجموعة الموارد: صحيح

المخرجات

مجموعة الموارد 1

اسم العرض: آلة-89

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

مجموعة الموارد 2

اسم العرض: آلة-90

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

مثال 4

لا تقم بتجميع مجموعات الموارد

الإدخالات

الملفات:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

قاعدة النمط

نطاق:https://myazureblob.blob.core.windows.net/bar/

اسم العرض:Machine-{{machineid}}

الاسم المؤهل:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro

مجموعة الموارد: false

المخرجات

4 أصول فردية

الأصول 1

اسم العرض: آلة-89

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro

الأصول 2

اسم العرض: آلة-89

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro

الأصول 3

اسم العرض: آلة-89

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro

الأصول 4

اسم العرض: آلة-90

الاسم المؤهل:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

الخطوات التالية

ابدأ بتسجيل حساب تخزين Azure Data Lake Gen2 ومسحه ضوئيا.