كيفية فهرسة البيانات الضخمة في Azure كتالوج البيانات

هام

للحصول على ميزات كتالوج البيانات محدثة، يرجى استخدام خدمة Microsoft Purview الجديدة، التي توفر إدارة بيانات موحدة لكامل مساحة البيانات الخاصة بك.

مقدمة

Microsoft Azure كتالوج البيانات هي خدمة سحابية مدارة بالكامل تعمل كنظام للتسجيل ونظام الاكتشاف لمصادر بيانات المؤسسة. الأمر كله يتعلق بمساعدة الأشخاص على اكتشاف مصادر البيانات وفهمها واستخدامها، ومساعدة المؤسسات على الحصول على قيمة أكبر من مصادر البيانات الحالية، بما في ذلك البيانات الضخمة.

يدعم Azure كتالوج البيانات تسجيل نقاط وأدلة تخزين Azure بالإضافة إلى ملفات وأدلة Hadoop HDFS. توفر الطبيعة شبه المنظمة لمصادر البيانات هذه مرونة كبيرة. ومع ذلك، للحصول على أقصى قيمة من تسجيلها في Azure كتالوج البيانات، يجب على المستخدمين التفكير في كيفية تنظيم مصادر البيانات.

الدلائل كمجموعات بيانات منطقية

النمط الشائع لتنظيم مصادر البيانات الضخمة هو التعامل مع الدلائل كمجموعات بيانات منطقية. تستخدم أدلة المستوى الأعلى لتحديد مجموعة بيانات، بينما تحدد المجلدات الفرعية الأقسام، وتخزن الملفات التي تحتوي عليها البيانات نفسها.

مثال على هذا النمط قد يكون:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

في هذا المثال، تمثل vehicle_maintenance_events location_tracking_events مجموعات البيانات المنطقية. يحتوي كل من هذه المجلدات على ملفات بيانات يتم تنظيمها حسب السنة والشهر في مجلدات فرعية. يمكن أن يحتوي كل من هذه المجلدات على مئات أو آلاف الملفات.

في هذا النمط ، ربما لا يكون تسجيل الملفات الفردية باستخدام Azure كتالوج البيانات منطقيا. بدلا من ذلك، قم بتسجيل الدلائل التي تمثل مجموعات البيانات التي تكون ذات مغزى للمستخدمين الذين يعملون مع البيانات.

ملفات البيانات المرجعية

النمط التكميلي هو تخزين مجموعات البيانات المرجعية كملفات فردية. يمكن اعتبار مجموعات البيانات هذه الجانب "الصغير" من البيانات الضخمة ، وغالبا ما تكون مشابهة للأبعاد في نموذج البيانات التحليلية. تحتوي ملفات البيانات المرجعية على سجلات تستخدم لتوفير سياق للجزء الأكبر من ملفات البيانات المخزنة في مكان آخر في مخزن البيانات الكبيرة.

مثال على هذا النمط قد يكون:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

عندما يعمل محلل أو عالم بيانات مع البيانات الموجودة في هياكل الدليل الأكبر، يمكن استخدام البيانات الموجودة في هذه الملفات المرجعية لتوفير معلومات أكثر تفصيلا للكيانات التي يشار إليها فقط بالاسم أو المعرف في مجموعة البيانات الأكبر.

في هذا النمط، من المنطقي تسجيل ملفات البيانات المرجعية الفردية باستخدام Azure كتالوج البيانات. يمثل كل ملف مجموعة بيانات، ويمكن التعليق على كل ملف واكتشافه بشكل فردي.

أنماط بديلة

الأنماط الموضحة في الأقسام السابقة هي طريقتان محتملتان لتنظيم مخزن البيانات الضخمة ، ولكن كل تنفيذ مختلف. بغض النظر عن كيفية تنظيم مصادر البيانات الخاصة بك، عند تسجيل مصادر البيانات الكبيرة مع Azure كتالوج البيانات، ركز على تسجيل الملفات والدلائل التي تمثل مجموعات البيانات ذات القيمة للآخرين داخل مؤسستك. يمكن أن يؤدي تسجيل جميع الملفات والدلائل إلى تشويش الكتالوج ، مما يجعل من الصعب على المستخدمين العثور على ما يحتاجون إليه.

الملخص

يؤدي تسجيل مصادر البيانات باستخدام Azure كتالوج البيانات إلى تسهيل اكتشافها وفهمها. من خلال تسجيل ملفات البيانات الضخمة والدلائل التي تمثل مجموعات البيانات المنطقية والتعليق عليها، يمكنك مساعدة المستخدمين في العثور على مصادر البيانات الضخمة التي يحتاجون إليها واستخدامها.