ما هو تخزين البيانات على Azure Databricks؟

يشير تخزين البيانات إلى جمع البيانات وتخزينها من مصادر متعددة بحيث يمكن الوصول إليها بسرعة للحصول على نتائج تحليلات الأعمال وإعداد التقارير. تحتوي هذه المقالة على مفاهيم رئيسية لإنشاء مستودع بيانات في مستودع البيانات الخاص بك.

تخزين البيانات في مستودعك

توفر بنية مستودع البيانات وDatabricks SQL إمكانات تخزين البيانات السحابية إلى مستودعات البيانات الخاصة بك. باستخدام بنيات البيانات المألوفة والعلاقات وأدوات الإدارة، يمكنك تصميم مستودع بيانات عالي الأداء وفعال من حيث التكلفة يعمل مباشرة على مستودع البيانات الخاص بك. لمزيد من المعلومات، راجع ما هو مستودع البيانات؟

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

كما هو الحال مع مستودع البيانات التقليدي، يمكنك نمذجة البيانات وفقا لمتطلبات العمل ثم خدمتها للمستخدمين النهائيين لتحليلات وتقارير. على عكس مستودع البيانات التقليدي، يمكنك تجنب عزل بيانات تحليلات عملك أو إنشاء نسخ زائدة عن الحاجة تصبح تالفة بسرعة.

يتيح لك إنشاء مستودع بيانات داخل مستودعك إحضار جميع بياناتك إلى نظام واحد ويتيح لك الاستفادة من ميزات مثل كتالوج Unity و Delta Lake.

يضيف كتالوج Unity نموذج حوكمة موحدا بحيث يمكنك تأمين الوصول إلى البيانات وتدقيحه وتوفير معلومات دورة حياة البيانات في جداول انتقال البيانات من الخادم. تضيف Delta Lake معاملات ACID وتطور المخطط، من بين أدوات قوية أخرى للحفاظ على موثوقية بياناتك وقابلة للتطوير وعالية الجودة.

ما هي Databricks SQL؟

إشعار

لا يتوفر Databricks SQL Serverless في Azure China. لا يتوفر Databricks SQL في مناطق Azure Government.

Databricks SQL هو مجموعة من الخدمات التي تجلب قدرات تخزين البيانات والأداء إلى مستودعات البيانات الحالية. يدعم Databricks SQL التنسيقات المفتوحة و ANSI SQL القياسية. يسمح محرر SQL في النظام الأساسي وأدوات لوحة المعلومات لأعضاء الفريق بالتعاون مع مستخدمي Databricks الآخرين مباشرة في مساحة العمل. يتكامل Databricks SQL أيضا مع مجموعة متنوعة من الأدوات بحيث يمكن للمحللين تأليف الاستعلامات ولوحات المعلومات في بيئاتهم المفضلة دون التكيف مع نظام أساسي جديد.

يوفر Databricks SQL موارد حساب عامة يتم تنفيذها مقابل الجداول في lakehouse. يتم تشغيل Databricks SQL بواسطة مستودعات SQL، ما يوفر موارد حساب SQL قابلة للتطوير منفصلة عن التخزين.

راجع ما هو مستودع SQL؟ لمزيد من المعلومات حول الإعدادات الافتراضية لمستودع SQL وخياراته.

يتكامل Databricks SQL مع كتالوج Unity بحيث يمكنك اكتشاف أصول البيانات ومراجعةها والتحكم فيها من مكان واحد. لمعرفة المزيد، راجع ما هو كتالوج Unity؟

نمذجة البيانات على Azure Databricks

يدعم lakehouse مجموعة متنوعة من أنماط النمذجة. توضح الصورة التالية كيفية تنسيق البيانات ونمذجتها أثناء تنقلها عبر طبقات مختلفة من مستودع.

A diagram showing various data models at each level of the medallion lakehouse archtecture.

بنية الميدالية

بنية الميدالية هي نمط تصميم بيانات يصف سلسلة من طبقات البيانات المكررة بشكل متزايد والتي توفر بنية أساسية في المستودع. تشير الطبقات البرونزية والفضية والذهبية إلى زيادة جودة البيانات في كل مستوى، مع الذهب الذي يمثل أعلى مستوى من الجودة. لمزيد من المعلومات، راجع ما هو تصميم lakehouse medallion؟.

داخل بحيرة، يمكن أن تحتوي كل طبقة على جدول واحد أو أكثر. يتم تصميم مستودع البيانات على غرار الطبقة الفضية ويغذي مخازن البيانات المتخصصة في طبقة الذهب.

الطبقة البرونزية

يمكن للبيانات إدخال مستودعك بأي تنسيق ومن خلال أي مجموعة من معاملات الدفعة أو البخار. توفر الطبقة البرونزية المساحة المنتقل إليها لجميع بياناتك الأولية بتنسيقها الأصلي. يتم تحويل هذه البيانات إلى جداول Delta.

طبقة فضية

تجمع الطبقة الفضية البيانات من مصادر مختلفة معا. بالنسبة لجزء الأعمال الذي يركز على علوم البيانات وتطبيقات التعلم الآلي، هذا هو المكان الذي تبدأ فيه في تنظيم أصول البيانات ذات المعنى. غالبا ما يتم تمييز هذه العملية بالتركيز على السرعة وخفة الحركة.

الطبقة الفضية هي أيضا المكان الذي يمكنك فيه دمج البيانات بعناية من مصادر متباينة لإنشاء مستودع بيانات وفقا لعمليات عملك الحالية. غالبا ما تتبع هذه البيانات نموذج عادي ثالث (3NF) أو نموذج Data Vault. يتيح تحديد قيود المفتاح الأساسي والخارجي للمستخدمين النهائيين فهم علاقات الجدول عند استخدام كتالوج Unity. يجب أن يكون مستودع البيانات الخاص بك بمثابة مصدر واحد للحقيقة لمخازن البيانات الخاصة بك.

مستودع البيانات نفسه هو مخطط عند الكتابة والذرية. تم تحسينه للتغيير، بحيث يمكنك تعديل مستودع البيانات بسرعة ليتوافق مع احتياجاتك الحالية عند تغيير عمليات عملك أو تطورها.

طبقة ذهبية

الطبقة الذهبية هي طبقة العرض التقديمي، والتي يمكن أن تحتوي على طبقة بيانات واحدة أو أكثر. في كثير من الأحيان، تكون قوالب البيانات نماذج الأبعاد في شكل مجموعة من الجداول ذات الصلة التي تلتقط منظورا تجاريا محددا.

تضم الطبقة الذهبية أيضا صناديق الاختبار المعزولة لعلوم البيانات والأقسام لتمكين تحليلات الخدمة الذاتية وعلوم البيانات عبر المؤسسة. يؤدي توفير بيئات الاختبار المعزولة هذه ومجموعات الحوسبة المنفصلة الخاصة بها إلى منع فرق الأعمال من إنشاء نسخ من البيانات خارج المستودع.

الخطوة التالية

لمعرفة المزيد حول المبادئ وأفضل الممارسات لتنفيذ وتشغيل مستودع باستخدام Databricks، راجع مقدمة إلى مستودع البيانات المصمم جيدا.