كيفية كتالوج البيانات الضخمة في Azure كتالوج البيانات

مقالة
12/13/2023

هام

يتم إيقاف Azure كتالوج البيانات في 15 مايو 2024.

لم يعد من الممكن إنشاء حسابات Azure كتالوج البيانات جديدة.

بالنسبة لميزات كتالوج البيانات، يرجى استخدام خدمة Microsoft Purview ، التي توفر إدارة بيانات موحدة لملكية البيانات بأكملها.

إذا كنت تستخدم Azure كتالوج البيانات بالفعل، فستحتاج إلى إنشاء خطة ترحيل لمؤسستك للانتقال إلى Microsoft Purview بحلول 15 مايو 2024.

مقدمة

Microsoft Azure كتالوج البيانات هي خدمة سحابية مدارة بالكامل تعمل كنظام للتسجيل ونظام اكتشاف لمصادر بيانات المؤسسة. الأمر كله يتعلق بمساعدة الأشخاص على اكتشاف مصادر البيانات وفهمها واستخدامها، ومساعدة المؤسسات على الحصول على قيمة أكبر من مصادر البيانات الموجودة لديهم، بما في ذلك البيانات الضخمة.

يدعم Azure كتالوج البيانات تسجيل الكائنات الثنائية كبيرة الحجم ل Azure Storage والدلائل بالإضافة إلى ملفات ودلائل Hadoop HDFS. توفر الطبيعة شبه المنظمة لمصادر البيانات هذه مرونة كبيرة. ومع ذلك، للحصول على أكبر قيمة من تسجيلها مع Azure كتالوج البيانات، يجب على المستخدمين التفكير في كيفية تنظيم مصادر البيانات.

الدلائل كمجموعات بيانات منطقية

نمط شائع لتنظيم مصادر البيانات الضخمة هو التعامل مع الدلائل كمجموعات بيانات منطقية. يتم استخدام الدلائل ذات المستوى الأعلى لتعريف مجموعة بيانات، بينما تحدد المجلدات الفرعية الأقسام، والملفات التي تحتوي عليها تخزن البيانات نفسها.

ومن الأمثلة على هذا النمط ما يلي:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

في هذا المثال، تمثل vehicle_maintenance_events location_tracking_events مجموعات البيانات المنطقية. يحتوي كل مجلد من هذه المجلدات على ملفات بيانات يتم تنظيمها حسب السنة والشهر في مجلدات فرعية. قد يحتوي كل مجلد من هذه المجلدات على مئات أو آلاف الملفات.

في هذا النمط، من المحتمل أن يكون تسجيل الملفات الفردية باستخدام Azure كتالوج البيانات غير منطقي. بدلا من ذلك، قم بتسجيل الدلائل التي تمثل مجموعات البيانات التي تكون ذات معنى للمستخدمين الذين يعملون مع البيانات.

ملفات البيانات المرجعية

النمط التكميلي هو تخزين مجموعات البيانات المرجعية كملفات فردية. يمكن اعتبار مجموعات البيانات هذه على أنها الجانب "الصغير" من البيانات الضخمة، وغالبا ما تكون مشابهة للأبعاد في نموذج البيانات التحليلية. تحتوي ملفات البيانات المرجعية على سجلات تستخدم لتوفير سياق لجملة ملفات البيانات المخزنة في مكان آخر في مخزن البيانات الضخمة.

ومن الأمثلة على هذا النمط ما يلي:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

عندما يعمل محلل أو عالم بيانات مع البيانات الموجودة في بنيات الدليل الأكبر، يمكن استخدام البيانات الموجودة في هذه الملفات المرجعية لتوفير معلومات أكثر تفصيلا للكيانات التي يشار إليها بالاسم أو المعرف فقط في مجموعة البيانات الأكبر.

في هذا النمط، من المنطقي تسجيل ملفات البيانات المرجعية الفردية باستخدام Azure كتالوج البيانات. يمثل كل ملف مجموعة بيانات، ويمكن إضافة تعليق توضيحي إلى كل ملف اكتشافه بشكل فردي.

أنماط بديلة

الأنماط الموضحة في الأقسام السابقة هي طريقتان محتملتان لتنظيم مخزن البيانات الضخمة، ولكن كل تنفيذ مختلف. بغض النظر عن كيفية تنظيم مصادر البيانات الخاصة بك، عند تسجيل مصادر البيانات الضخمة مع Azure كتالوج البيانات، ركز على تسجيل الملفات والدلائل التي تمثل مجموعات البيانات ذات القيمة للآخرين داخل مؤسستك. يمكن أن يؤدي تسجيل جميع الملفات والدلائل إلى الفوضى في الكتالوج، مما يجعل من الصعب على المستخدمين العثور على ما يحتاجون إليه.

الملخص

تسجيل مصادر البيانات باستخدام Azure كتالوج البيانات يسهل اكتشافها وفهمها. من خلال تسجيل ملفات البيانات الضخمة والدلائل التي تمثل مجموعات البيانات المنطقية وإضافة تعليقات توضيحية إليها، يمكنك مساعدة المستخدمين في العثور على مصادر البيانات الضخمة التي يحتاجونها واستخدامها.

Share via