فهم مجموعات الموارد

تساعدك هذه المقالة على فهم كيفية استخدام Microsoft Purview لمجموعات الموارد لتعيين أصول البيانات إلى موارد منطقية.

معلومات الخلفية

عادة ما تخزن أنظمة معالجة البيانات على نطاق واسع جدولا واحدا في التخزين كملفات متعددة. في كتالوج بيانات Microsoft Purview، يتم تمثيل هذا المفهوم باستخدام مجموعات الموارد. مجموعة الموارد هي كائن واحد في الكتالوج يمثل عددا كبيرا من الأصول في التخزين.

على سبيل المثال، افترض أن مجموعة Spark الخاصة بك قد استمرت في DataFrame في مصدر بيانات Azure Data Lake Storage (ADLS) Gen2. على الرغم من أن الجدول في Spark يبدو وكأنه مورد منطقي واحد، فمن المحتمل أن يكون هناك الآلاف من ملفات Parquet على القرص، كل منها يمثل قسما من إجمالي محتويات DataFrame. بيانات إنترنت الأشياء وبيانات سجل الويب لها نفس التحدي. تخيل أن لديك جهاز استشعار يقوم لإخراج ملفات السجل عدة مرات في الثانية. لن يستغرق الأمر وقتا طويلا حتى يكون لديك مئات الآلاف من ملفات السجل من جهاز الاستشعار الفردي هذا.

كيفية اكتشاف Microsoft Purview لمجموعات الموارد

يدعم Microsoft Purview الكشف عن مجموعات الموارد في Azure Blob Storage وADLS Gen1 وADLS Gen2 وAzure Files وAmazon S3.

يكتشف Microsoft Purview تلقائيا مجموعات الموارد عند الفحص. تبحث هذه الميزة في جميع البيانات التي يتم تناولها عبر الفحص وتقارنها بمجموعة من الأنماط المحددة.

على سبيل المثال، افترض أنك تفحص مصدر بيانات عنوان URL الخاص به هو https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet. يبحث Microsoft Purview في مقاطع المسار ويحدد ما إذا كانت تطابق أي أنماط مضمنة. يحتوي على أنماط مضمنة ل GUIDs والأرقام وتنسيقات التاريخ ورموز الترجمة (على سبيل المثال، en-us)، وما إلى ذلك. في هذه الحالة، يتطابق نمط الرقم مع 23. يفترض Microsoft Purview أن هذا الملف هو جزء من مجموعة موارد تسمى https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet.

أو، بالنسبة إلى عنوان URL مثل https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json، يطابق Microsoft Purview كلا من نمط الترجمة ونمط الرقم، وينتج مجموعة موارد تسمى https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json.

باستخدام هذه الاستراتيجية، سيقوم Microsoft Purview بتعيين الموارد التالية لنفس مجموعة الموارد، https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json:

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

أنواع الملفات التي لن يكتشفها Microsoft Purview كمجموعات موارد

لا يحاول Microsoft Purview عن قصد تصنيف معظم أنواع ملفات المستندات مثل Word أو Excel أو PDF كمجموعات موارد. الاستثناء هو تنسيق CSV لأن هذا تنسيق ملف مقسم شائع.

كيفية فحص Microsoft Purview لمجموعات الموارد

عندما يكتشف Microsoft Purview الموارد التي يعتقد أنها جزء من مجموعة موارد، فإنه يتحول من فحص كامل إلى فحص عينة. يفتح فحص العينة مجموعة فرعية فقط من الملفات التي يعتقد أنها موجودة في مجموعة الموارد. لكل ملف يفتحه، فإنه يستخدم مخططه ويشغل مصنفاته. ثم يعثر Microsoft Purview على أحدث مورد بين الموارد المفتوحة ويستخدم مخطط هذا المورد وتصنيفاته في الإدخال لمجموعة الموارد بأكملها في الكتالوج.

مجموعات الموارد المتقدمة

يمكن ل Microsoft Purview تخصيص أصول مجموعة الموارد الخاصة بك وإثراءها بشكل أكبر من خلال إمكانية مجموعات الموارد المتقدمة . تسمح مجموعات الموارد المتقدمة ل Microsoft Purview بفهم الأقسام الأساسية للبيانات التي تم تناولها وتمكين إنشاء قواعد نمط مجموعة الموارد التي تخصص كيفية مجموعات موارد Microsoft Purview أثناء الفحص.

عند تمكين مجموعات الموارد المتقدمة، يقوم Microsoft Purview بتشغيل تجميعات إضافية لحساب المعلومات التالية حول أصول مجموعة الموارد:

  • مسار عينة من ملف يتضمن مجموعة الموارد.
  • عدد الأقسام الذي يوضح عدد الملفات التي تشكل مجموعة الموارد.
  • الحجم الإجمالي لكافة الملفات التي تشكل مجموعة الموارد.

يمكن العثور على هذه الخصائص في صفحة تفاصيل الأصل لمجموعة الموارد.

The properties computed when advanced resource sets is on

تشغيل مجموعات الموارد المتقدمة

تكون مجموعات الموارد المتقدمة متوقفة عن التشغيل بشكل افتراضي في جميع مثيلات Microsoft Purview الجديدة. يمكن تمكين مجموعات الموارد المتقدمة من معلومات الحساب في مركز الإدارة.

Turn on Advanced resource set.

بعد تمكين مجموعات الموارد المتقدمة، ستحدث عمليات إثراء إضافية على جميع الأصول التي تم استيعابها حديثا. يوصي فريق Microsoft Purview بالانتظار قبل ساعة من الفحص في بيانات مستودع البيانات الجديدة بعد التبديل على الميزة.

هام

سيؤثر تمكين مجموعات الموارد المتقدمة على معدل تحديث نتائج تحليلات الأصول والتصنيف. عند تشغيل مجموعات الموارد المتقدمة، سيتم تحديث نتائج تحليلات الأصول والتصنيف مرتين فقط في اليوم.

أنماط مجموعة الموارد المضمنة

يدعم Microsoft Purview أنماط مجموعة الموارد التالية. يمكن أن تظهر هذه الأنماط كاسم في دليل أو كجزء من اسم ملف.

أنماط مستندة إلى Regex

اسم النمط اسم العرض الوصف
Guid {GUID} معرف فريد عمومي كما هو محدد في RFC 4122
الهاتف {N} رقم واحد أو أكثر
تنسيقات التاريخ/الوقت {Year} {Month} {Day} {N} نحن ندعم تنسيقات التاريخ/الوقت المختلفة ولكن يتم تمثيلها جميعا باستخدام {Year}[delimiter]{Month}[delimiter]{Day} أو سلسلة من {N}s.
4ByteHex {HEX} رقم HEX مكون من 4 أرقام.
الترجمة {LOC} علامة لغة كما هو محدد في BCP 47، يتم دعم الاسمين - و_ (على سبيل المثال، en_ca و en-ca)

أنماط معقدة

اسم النمط اسم العرض الوصف
مسار Spark {SparkPartitions} معرف ملف قسم Spark
التاريخ(yyyy/mm/dd)InPath {Year}/{Month}/{Day} نمط السنة/الشهر/اليوم الذي يمتد على مجلدات متعددة

كيفية عرض مجموعات الموارد في كتالوج بيانات Microsoft Purview

عندما يطابق Microsoft Purview مجموعة من الأصول في مجموعة موارد، فإنه يحاول استخراج المعلومات الأكثر فائدة لاستخدامها كاسم عرض في الكتالوج. بعض الأمثلة على اصطلاح التسمية الافتراضي المطبق:

مثال 1

الاسم المؤهل: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

اسم العرض: "اسم إخراج spark"

مثال 2

الاسم المؤهل: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

اسم العرض: "بياناتي المقسمة"

مثال 3

الاسم المؤهل: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

اسم العرض: "البيانات"

تخصيص تجميع مجموعة الموارد باستخدام قواعد النمط

عند مسح حساب تخزين، يستخدم Microsoft Purview مجموعة من الأنماط المعرفة لتحديد ما إذا كانت مجموعة الأصول هي مجموعة موارد. في بعض الحالات، قد لا يعكس تجميع مجموعة موارد Microsoft Purview ملكية بياناتك بدقة. يمكن أن تتضمن هذه المشكلات ما يلي:

  • وضع علامة غير صحيح على أحد الأصول كمورد
  • وضع أصل في مجموعة موارد خاطئة
  • وضع علامة غير صحيح على أحد الأصول على أنه ليس مجموعة موارد

لتخصيص أو تجاوز كيفية اكتشاف Microsoft Purview للأصول التي يتم تجميعها كمجموعات موارد وكيفية عرضها داخل الكتالوج، يمكنك تحديد قواعد النمط في مركز الإدارة. للحصول على إرشادات وبناء الجملة خطوة بخطوة، يرجى الاطلاع على قواعد نمط مجموعة الموارد.

القيود المعروفة مع مجموعات الموارد

  • بشكل افتراضي، سيتم حذف أصول مجموعة الموارد فقط عن طريق فحص إذا تم تمكين مجموعات الموارد المتقدمة . إذا كانت هذه الإمكانية متوقفة عن التشغيل، لا يمكن حذف أصول مجموعة الموارد إلا يدويا أو عبر واجهة برمجة التطبيقات.
  • حاليا، ستطبق أصول مجموعة الموارد المخطط والتصنيف الأولين المكتشفين بواسطة الفحص. لن تقوم عمليات الفحص اللاحقة بتحديث المخطط.

الخطوات التالية

لبدء استخدام Microsoft Purview، راجع التشغيل السريع: إنشاء حساب Microsoft Purview.