مصادر البيانات وأنواع الملفات المعتمدة

تتناول هذه المقالة مصادر البيانات وأنواع الملفات ومفاهيم الفحص المعتمدة حاليا في Microsoft Purview.

مصادر بيانات Microsoft Purview

يعرض الجدول أدناه الإمكانات المدعومة لكل مصدر بيانات. حدد مصدر البيانات أو الميزة لمعرفة المزيد.

الفئة مخزن البيانات بيانات التعريف التقنية التصنيف دورة الحياة سياسة الوصول
Azure Azure Blob Storage نعم نعم محدود* نعم
Azure Cosmos DB نعم نعم لا* لا
Azure Data Explorer ‏(Kusto) نعم نعم لا* لا
Azure Data Factory نعم لا نعم لا
Azure Data Lake Storage Gen1 نعم نعم محدود* لا
Azure Data Lake Storage Gen2 نعم نعم محدود* نعم
مشاركة بيانات Azure نعم لا نعم لا
قاعدة بيانات Azure لـ MySQL نعم نعم لا* لا
قاعدة بيانات Azure لـ PostgreSQL نعم نعم لا* لا
تجمع SQL المخصص من Azure (المعروف سابقًا باسم SQL DW) نعم نعم لا* لا
ملفات Azure نعم نعم محدود* لا
قاعدة بيانات Azure SQL نعم نعم نعم (معاينة) لا
مثيل Azure SQL المُدار نعم نعم لا* لا
Azure Synapse Analytics (مساحة العمل) نعم نعم نعم - مسارات Synapse لا
قاعدة البيانات Amazon RDS نعم نعم لا لا
Cassandra نعم لا نعم لا
Db2 نعم لا نعم لا
Google BigQuery نعم لا نعم لا
قاعدة بيانات Hive Metastore نعم لا نعم* لا
MongoDB نعم لا لا لا
MySQL نعم لا نعم لا
Oracle نعم لا نعم* لا
PostgreSQL نعم لا نعم لا
مستودع أعمال SAP نعم لا لا لا
SAP HANA نعم لا لا لا
Snowflake نعم لا نعم لا
SQL Server نعم نعم لا* لا
Teradata نعم لا نعم* لا
ملف Amazon S3 نعم نعم محدود* لا
الخدمات والتطبيقات Erwin نعم لا نعم لا
Looker نعم لا نعم لا
Power BI نعم لا نعم لا
Salesforce نعم لا لا لا
SAP ECC نعم لا نعم* لا
SAP S/4HANA نعم لا نعم* لا

* بالإضافة إلى دورة حياة الأصول داخل مصدر البيانات، يتم دعم دورة حياة البيانات أيضا إذا تم استخدام مجموعة البيانات كمصدر /متلقي في Data Factory أو مسار Synapse.

ملاحظة

حاليا، لا يمكن ل Microsoft Purview مسح أحد الأصول التي تحتوي على /أو \أو # باسمه. لتحديد نطاق الفحص وتجنب مسح الأصول التي تحتوي على تلك الأحرف في اسم الأصل، استخدم المثال في تسجيل ومسح قاعدة بيانات Azure SQL ضوئيا.

مناطق الفحص

فيما يلي قائمة بجميع مناطق مصدر بيانات Azure (مركز البيانات) حيث يتم تشغيل الماسح الضوئي Microsoft Purview. إذا كان مصدر بيانات Azure في منطقة خارج هذه القائمة، فسيتم تشغيل الماسح الضوئي في منطقة مثيل Microsoft Purview.

مناطق الماسح الضوئي ل Microsoft Purview

  • شرق أستراليا
  • جنوب شرق أستراليا
  • جنوب البرازيل
  • كندا الوسطى
  • وسط الهند
  • وسط الولايات المتحدة
  • شرق آسيا
  • شرق الولايات المتحدة
  • East US 2
  • فرنسا الوسطى
  • شرق اليابان
  • وسط كوريا
  • شمال وسط الولايات المتحدة
  • شمال أوروبا
  • شمال جنوب أفريقيا
  • جنوب وسط الولايات المتحدة
  • جنوب شرق آسيا
  • شمال الإمارات العربية المتحدة
  • جنوب المملكة المتحدة
  • غرب وسط الولايات المتحدة
  • غرب أوروبا
  • غرب الولايات المتحدة
  • منطقة غرب الولايات المتحدة الأمريكية 2

أنواع الملفات المدعومة للمسح الضوئي

يتم دعم أنواع الملفات التالية للمسح الضوئي واستخراج المخطط والتصنيف عند الاقتضاء:

  • تنسيقات الملفات المنظمة المدعومة بالامتداد: AVRO، ORC، PARQUET، CSV، JSON، PSV، SSV، TSV، TXT، XML، GZIP

ملاحظة

  • يدعم الماسح الضوئي ل Microsoft Purview فقط استخراج المخططات أنواع الملفات المنظمة المذكورة أعلاه.
  • بالنسبة لأنواع ملفات AVRO وORC وPARQUET، لا يدعم ماسح Microsoft Purview استخراج المخطط للملفات التي تحتوي على أنواع بيانات معقدة (على سبيل المثال، MAP، LIST، STRUCT).
  • يدعم الماسح الضوئي ل Microsoft Purview مسح أنواع PARQUET المضغوطة المصغرة ضوئيا لاستخراج المخطط وتصنيفه.
  • بالنسبة إلى أنواع ملفات GZIP، يجب تعيين GZIP إلى ملف csv واحد داخل. تخضع ملفات Gzip لقواعد النظام والتصنيف المخصص. لا ندعم حاليا مسح ملف gzip المعين إلى ملفات متعددة داخل، أو أي نوع ملف آخر غير csv.
  • بالنسبة إلى أنواع الملفات المحددة (CSV وPSV وSSV وTSV وTXT)، لا ندعم الكشف عن نوع البيانات. سيتم إدراج نوع البيانات ك "سلسلة" لكافة الأعمدة.
  • تنسيقات ملفات المستندات المدعومة بواسطة الملحق: DOC و DOCM و DOCX و DOT و ODP و ODS و ODT و PDF و POT و PPS و PPSX و PPT و PPTM و PPTX و XLC و XLS و XLSB و XLSM و XLSX و XLT
  • يدعم Microsoft Purview أيضا ملحقات الملفات المخصصة والموزعات المخصصة.

البيانات المتداخلة

حاليا، يتم دعم البيانات المتداخلة فقط لمحتوى JSON.

بالنسبة لجميع أنواع الملفات المدعومة من النظام، إذا كان هناك محتوى JSON متداخل في عمود، فإن الماسح الضوئي يوزع بيانات JSON المتداخلة ويسطحها ضمن علامة تبويب المخطط للأصل.

البيانات المتداخلة أو تحليل المخطط المتداخل غير مدعوم في SQL. سيتم الإبلاغ عن عمود يحتوي على بيانات متداخلة وتصنيفه كما هو، ولن يتم تحليل البيانات الفرعية.

أخذ العينات داخل ملف

في مصطلحات Microsoft Purview،

  • مسح L1: استخراج المعلومات الأساسية وبيانات التعريف مثل اسم الملف وحجمه واسمه المؤهل بالكامل
  • مسح L2: استخراج مخطط أنواع الملفات المنظمة وجداول قاعدة البيانات
  • فحص L3: يستخرج المخطط حيثما ينطبق ويخضع الملف الذي تم أخذ عينات منه إلى قواعد النظام والتصنيف المخصصة

بالنسبة لجميع تنسيقات الملفات المنظمة، يقوم الماسح الضوئي ل Microsoft Purview بأخذ عينات من الملفات بالطريقة التالية:

  • بالنسبة إلى أنواع الملفات المنظمة، فإنه يعين أعلى 128 صفا في كل عمود أو أول 1 ميغابايت، أيهما أقل.
  • بالنسبة لتنسيقات ملفات المستندات، يقوم بنماذج أول 20 ميغابايت من كل ملف.
    • إذا كان حجم ملف المستند أكبر من 20 ميغابايت، فلن يخضع لفحص عميق (يخضع للتصنيف). في هذه الحالة، يلتقط Microsoft Purview بيانات التعريف الأساسية فقط مثل اسم الملف والاسم المؤهل بالكامل.
  • بالنسبة لمصادر البيانات الجدولية (SQL، CosmosDB)، فإنه يعين أعلى 128 صفا.

أخذ عينات ملف مجموعة الموارد

يتم الكشف عن مجلد أو مجموعة من ملفات القسم كمجموعة موارد في Microsoft Purview، إذا كان يتطابق مع نهج مجموعة موارد النظام أو نهج مجموعة الموارد المعرفة من قبل العميل. إذا تم الكشف عن مجموعة موارد، فسيعين Microsoft Purview كل مجلد يحتوي عليه. تعرف على المزيد حول مجموعات الموارد هنا.

أخذ عينات الملفات لمجموعات الموارد حسب أنواع الملفات:

  • الملفات المحددة (CSV، PSV، SSV، TSV) - يتم أخذ عينات من 1 في 100 ملف (فحص L3) داخل مجلد أو مجموعة من ملفات القسم التي تعتبر "مجموعة موارد"
  • أنواع ملفات Data Lake (Parquet، Avro، Orc) - 1 في 18446744073709551615 (الحد الأقصى الطويل) يتم أخذ عينات منها (فحص L3) داخل مجلد أو مجموعة من ملفات القسم التي تعتبر "مجموعة موارد"
  • أنواع الملفات المنظمة الأخرى (JSON، XML، TXT) - يتم أخذ عينات من 1 في 100 ملف (فحص L3) داخل مجلد أو مجموعة من ملفات القسم التي تعتبر "مجموعة الموارد"
  • SQL الكائنات وكيانات CosmosDB - يتم مسح كل ملف ضوئيا L3.
  • أنواع ملفات المستندات - يتم مسح كل ملف ضوئيا L3. لا تنطبق أنماط مجموعة الموارد على أنواع الملفات هذه.

التصنيف

تنطبق جميع قواعد تصنيف النظام ال 208 على تنسيقات الملفات المنظمة. تنطبق قواعد تصنيف MCE فقط على أنواع ملفات المستندات (وليس أنماط regex الأصلية لفحص البيانات، والكشف المستند إلى عامل تصفية الفتح). لمزيد من المعلومات حول التصنيفات المدعومة، راجع التصنيفات المدعومة في Microsoft Purview.

الخطوات التالية