استيعاب وETL وتدفقات معالجة الدفق باستخدام Azure Databricks وData Lake

Azure Databricks
Azure Data Lake Storage
Azure IoT Hub
Azure Data Factory
Azure Event Hubs

أفكار الحل

هذه المقالة هي فكرة حل. إذا كنت ترغب في توسيع المحتوى بمزيد من المعلومات، مثل حالات الاستخدام المحتملة أو الخدمات البديلة أو اعتبارات التنفيذ أو إرشادات التسعير، فقم بإعلامنا من خلال تقديم ملاحظات GitHub.

تحتاج مؤسستك إلى استيعاب البيانات من أي تنسيق وحجم وسرعة في السحابة بطريقة متسقة. يفي الحل في هذه المقالة بهذه الحاجة مع بنية تنفذ الاستخراج والتحويل والتحميل (ETL) من مصادر البيانات الخاصة بك إلى بحيرة البيانات. يمكن أن تحتوي بحيرة البيانات على جميع البيانات، بما في ذلك الإصدارات المحولة والمنظمة بمقاييس مختلفة. يمكن استخدام البيانات لتحليلات البيانات والمعلومات المهنية (BI) وإعداد التقارير وعلوم البيانات والتعلم الآلي.

Apache® وApache Spark™ إما علامات تجارية مسجلة أو علامات تجارية لمؤسسة برامج Apache في الولايات المتحدة و/أو بلدان أخرى. لا توجد موافقة ضمنية من Apache Software Foundation باستخدام هذه العلامات.

بناء الأنظمة

Diagram that shows the architecture and data flow for ETL and stream processing with Azure Databricks.

قم بتنزيل ملف Visio لهذه البنية.

تدفق البيانات

  1. يتم استيعاب البيانات بالطرق التالية:

    • ترسل قوائم انتظار الأحداث مثل Event Hubs أو IoT Hub أو Kafka بيانات التدفق إلى Azure Databricks، والتي تستخدم محرك دلتا الأمثل لقراءة البيانات.
    • تنسخ مسارات Data Factory المجدولة أو المشغلة البيانات من مصادر بيانات مختلفة بتنسيقات أولية. يقوم المحمل التلقائي في Azure Databricks بمعالجة البيانات عند وصولها.
  2. يقوم Azure Databricks بتحميل البيانات في جداول أو مجلدات Delta Lake المحسنة والمضغوطة في الطبقة البرونزية في Data Lake Storage.

  3. تقوم مهام Azure Databricks المتدفقة أو المجدولة أو المشغلة بقراءة المعاملات الجديدة من طبقة Data Lake Storage Bronze. تقوم الوظائف بضم البيانات وتنظيفها وتحويلها وتجميعها قبل استخدام معاملات ACID لتحميلها في مجموعات البيانات المنسقة في طبقات تخزين البيانات الفضية والذهبية.

  4. يتم تخزين مجموعات البيانات في Delta Lake في Data Lake Storage.

تدمج كل خدمة البيانات في تنسيق مشترك لضمان التناسق. تستخدم البنية مستودع بيانات مشترك استناداً إلى تنسيق Delta Lake المفتوح. يتم استيعاب البيانات الأولية من دفعات مختلفة ومصادر دفق لتشكيل نظام أساسي موحد للبيانات. يمكن استخدام النظام الأساسي لحالات استخدام انتقال البيانات من الخادم مثل التحليلات وإعداد تقارير المعلومات المهنية وعلوم البيانات الذكاء الاصطناعي والتعلم الآلي.

طبقات التخزين البرونزية والفضية والذهبية

مع نمط الميدالية، الذي يتكون من طبقات التخزين البرونزية والفضية والذهبية، يمكن للعملاء الوصول المرن ومعالجة البيانات القابلة للتوسيع.

  • توفر الجداول البرونزية نقطة الإدخال للبيانات الأولية عند هبوطها في Data Lake Storage. يتم أخذ البيانات بتنسيق المصدر الخام الخاص بها وتحويلها إلى تنسيق Delta Lake مفتوح ومعامل للمعالجة. يدمج الحل البيانات في الطبقة البرونزية باستخدام:
    • واجهات برمجة تطبيقات Apache Spark في Databricks. تقرأ واجهات برمجة التطبيقات الأحداث المتدفقة من Event Hubs أو IoT Hub، ثم تحول هذه الأحداث أو الملفات الأولية إلى تنسيق Delta Lake.
    • الأمر COPY INTO. استخدم الأمر لنسخ البيانات مباشرة من ملف مصدر أو دليل إلى Delta Lake.
    • محمل Azure Databricks التلقائي. يستلم المحمل التلقائي الملفات عند وصولها إلى مستودع البيانات وينقل المعلومات بتنسيق Delta Lake.
    • نشاط نسخ Azure Data Factory. يمكن للعملاء استخدام هذا الخيار لتحويل البيانات من أي من تنسيقاتها المدعومة إلى تنسيق Delta Lake.
  • تخزن الجداول الفضية البيانات أثناء تحسينها لحالات استخدام المعلومات المهنية وعلم البيانات. تستوعب الطبقة البرونزية البيانات الأولية، ثم يتم إجراء المزيد من مهام معالجة ETL والتدفق لتصفية البيانات وتنظيفها وتحويلها وضمها وتجميعها في مجموعات البيانات المنسقة بالفضة. يمكن للشركات استخدام محرك حوسبة متسق، مثل محرك دلتا ذي المعايير المفتوحة، عند استخدام Azure Databricks كخدمة أولية لهذه المهام. يمكنهم بعد ذلك استخدام لغات برمجة مألوفة مثل SQL أو Python أو R أو Scala. يمكن للشركات أيضاً استخدام عمليات DevOps القابلة للتكرار ومجموعات الحوسبة المؤقتة بحجم أحمال العمل الفردية الخاصة بها.
  • تحتوي الجداول الذهبية على بيانات ثرية وجاهزة للتحليات وإعداد التقارير. يمكن للمحللين استخدام طريقة اختيارهم، مثل PySpark و Koalas و SQL و Power BI و Excel لاكتساب رؤى جديدة وصياغة الاستعلامات.

المكونات

  • تقوم مراكز الأحداث بتحليل الرسائل المتدفقة من مصادر مختلفة وتسجيلها، بما في ذلك الأنظمة المحلية، وتوفر معلومات في الوقت الفعلي.
  • ينسق Data Factory مسارات البيانات لاستيعاب جميع بياناتك وإعدادها وتحويلها على أي نطاق.
  • يجمع Data Lake Storage البيانات المتدفقة والدفعية، بما في ذلك البيانات المنظمة وغير المنظمة وشبه المنظمة مثل السجلات والملفات والوسائط.
  • تقوم Azure Databricks بتنظيف وتحويل مجموعات البيانات غير الهيكلية وتدمجها مع البيانات المنظمة من قواعد البيانات التشغيلية أو مستودعات البيانات.
  • يتيح مركز IoT: الاتصال الآمن والموثوق به للغاية بين تطبيق إنترنت الأشياء، والأجهزة التي يُديرها.
  • يدعم Delta Lake على Data Lake Storage معاملات ACID للموثوقية ويتم تحسينه لاستيعاب ومعالجة واستعلامات فعالة.

تفاصيل السيناريو

الاستيعاب وETL ومعالجة الدفق باستخدام Azure Databricks بسيطة ومفتوحة وتعاونية:

  • بسيط: مستودع بيانات مفتوح بطبقة منسقة بتنسيق مفتوح المصدر يبسط بنية البيانات. توفر Delta Lake، وهي أداة مفتوحة المصدر، الوصول إلى مستودع البيانات Azure Data Lake Storage. يدعم Delta Lake على Data Lake Storage معاملات الذرية والاتساق والعزل والمتانة (ACID) للموثوقية. تم تحسين Delta Lake لاستيعاب ومعالجة واستعلامات فعالة.
  • مفتوح: يدعم الحل التعليمات البرمجية مفتوحة المصدر والمعايير المفتوحة والأطر المفتوحة. كما أنه يعمل مع بيئات التطوير المتكاملة (IDEs) والمكتبات ولغات البرمجة. من خلال الموصلات الأصلية وواجهات برمجة التطبيقات، يعمل الحل مع مجموعة واسعة من الخدمات الأخرى أيضًا.
  • تعاوني: يعمل مهندسو البيانات وعلماء البيانات والمحللون جنباً إلى جنب مع هذا الحل. يمكنهم استخدام دفاتر الملاحظات التعاونية والمعرفات ولوحات المعلومات والأدوات الأخرى للوصول إلى البيانات الأساسية الشائعة وتحليلها.

يتكامل Azure Databricks بسلاسة مع خدمات Azure الأخرى مثل Data Lake Storage وAzure Data Factory وAzure Event Hubs وAzure IoT Hub.

حالات الاستخدام المحتملة

هذا الحل مستوحى من النظام الذي أنشأته Providence Health Care للتحليلات في الوقت الفعلي. يمكن لأي صناعة استيعاب بيانات الدفعات أو الدفق أيضاً النظر في هذا الحل. تتضمن الأمثلة ما يلي:

  • البيع بالتجزئة والتجارة الإلكترونية
  • Finance
  • الرعاية الصحية وعلوم الحياة
  • موردو الطاقة

الخطوات التالية

  • تقوم تقنيات النقطة الإسبانية ببناء محرك المطابقة الخاص بها باستخدام Azure Databricks وAzure Data Factory لاستيعاب البيانات على نطاق واسع لمساعدة الموسيقيين على الحصول على رواتبهم بإنصاف.

الأدلة والبنى القابلة للنشر بالكامل: