كيفية عمل Azure Data Factory

مكتمل

ستتعرف هنا على مكونات Azure Data Factory وأنظمته المترابطة. كما ستتعرف على المزيد عن كيفية عمله. سيساعدك ذلك في تحديد أفضل طريقة لاستخدام Azure Data Factory لتلبية متطلبات مؤسستك.

Azure Data Factory عبارة عن مجموعة من الأنظمة المترابطة التي تتحد لتوفير نظام أساسي شامل لتحليلات البيانات. في هذه الوحدة، ستتعرف على وظائف Azure Data Factory التالية:

  • الاتصال والجمع
  • التحويل والإثراء
  • التكامل والتسليم المستمر (CI / CD) والنشر
  • المراقبة

ستتعرف أيضًا على المكونات الرئيسية لـAzure Data Factory. وهما:

  • التدفقات
  • الأنشطة
  • مجموعات البيانات
  • الخدمات المرتبطة
  • تدفقات البيانات
  • أوقات تشغيل التكامل

وظائف Azure Data Factory

يضم Azure Data Factory عدة وظائف تجمع بين تزويد مهندسي البيانات الخاصة بك منصة تحليلات بيانات كاملة.

الاتصال والجمع

يتألف الجزء الأول من العملية من جمع البيانات المطلوبة من مصادر البيانات المناسبة. كما يمكن أن يوجد في مواقع مختلفة، بما في ذلك المصادر المحلية وفي السحابة. قد تكون البيانات:

  • منظّمة البنية
  • غير منظّمة البنية
  • شبه منظّمة البنية

بالإضافة إلى ذلك، قد تصل تلك البيانات المتباينة بسرعات وفواصل زمنية مختلفة. باستخدام Azure Data Factory، يمكنك استخدام نشاط النسخ لنقل البيانات من مصادر مختلفة إلى مخزن بيانات مركزي واحد في السحابة. بعد نسخ البيانات، يمكنك استخدام أنظمة أخرى لتحويلها وتحليلها.

يؤدي نشاط النسخ الخطوات التالية عالية المستوى:

  1. قراءة البيانات من مخزن بيانات المصدر.

  2. تنفيذ المهام التالية على البيانات:

    • التسلسل/إلغاء التسلسل
    • الضغط/فك الضغط
    • تعيين العمود

    ملاحظة

    قد توجد مهام إضافية.

  3. كتابة البيانات في مخزن بيانات الوجهة (المعروف باسم ⁧⁩المتلقي⁧⁩).

يتم تلخيص هذه العملية في الرسم التخطيطي التالي.

A graphic depicts the preceding process..

التحويل والإثراء

بعد نسخ البيانات بنجاح إلى موقع مركزي قائم على السحابة، يمكنك معالجة البيانات وتحويلها حسب الحاجة. ستستخدم تدفق بيانات تعيين Azure Data Factory لتحقيق ذلك. تمكنك ⁧⁩تدفقات البيانات⁧⁩ من إنشاء رسوم بيانية لتحويل البيانات تعمل على Spark. ومع ذلك، لا تحتاج إلى فهم مجموعات Spark أو برمجتها.

تلميح

على الرغم من انعدام ضرورة ذلك، فقد تفضل رمز التحويلات يدويًا. إذا كان الأمر كذلك، يدعم Azure Data Factory الأنشطة الخارجية لتشغيل تحويلاتك.

التكامل والتسليم المستمر والنشر

يمكنك دعم التكامل والتسليم المستمر من تطوير وتسليم عمليات ETL بشكل متزايد قبل النشر. يوفر Azure Data Factory التكامل والتسليم/المستمر للبنية الأساسية لبرنامج ربط العمليات التجارية باستخدام:

  • Azure DevOps
  • GitHub

ملاحظة

التكامل المستمر يعني اختبار كل تغيير يتم إجراؤه على قاعدة التعليمات البرمجية الخاصة بك تلقائيًا في أقرب وقت ممكن. يتبع التسليم المستمر هذا الاختبار، ويدفع التغييرات إلى نظام التقسيم المرحلي أو الإنتاج.

بعد أن يقوم Azure Data Factory بتنقيح البيانات الأولية، يمكنك تحميل البيانات في أي محرك تحليلات يمكن لمستخدمي نشاطك التجاري الوصول إليه من أدوات المعلومات المهنية الخاصة بهم، بما في ذلك:

  • Azure Synapse Analytics
  • قاعدة بيانات Azure SQL
  • Azure Cosmos DB

Monitor

بعد أن تقوم بنجاح ببناء ونشر البنية الأساسية لبرنامج ربط العمليات التجارية لتكامل البيانات، فإنه من المهم أن تتمكن من مراقبة الأنشطة المجدولة والبنية الأساسية لبرنامج ربط العمليات التجارية. يتيح لك ذلك تتبع معدلات النجاح والفشل. يوفر Azure Data Factory الدعم لمراقبة البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام واحد مما يلي:

  • Azure Monitor
  • واجهة برمجة التطبيقات (API)
  • PowerShell
  • سجلات Azure Monitor
  • اللوحات الصحية في مدخل Azure

مكونات Azure Data Factory

يتألف Azure Data Factory من المكونات الموضحة في الجدول التالي.

المكونات الوصف
التدفقات تجميع منطقي للأنشطة التي تؤدي وحدة عمل معينة. تعمل تلك الأنشطة معًا على تنفيذ مهمة ما. تتمثل ميزة استخدام البنية الأساسية لبرنامج ربط العمليات التجارية في توفير سهولة أكبر لإدارة الأنشطة في شكل مجموعة بدلًا من العناصر الفردية.
الأنشطة خطوة معالجة واحدة في البنية الأساسية لبرنامج ربط العمليات التجارية. يدعم Azure Data Factory ثلاثة أنواع من الأنشطة: حركة البيانات، وتحويل البيانات، وأنشطة التحكم.
مجموعات البيانات تمثيل بنيات البيانات داخل مخازن البيانات. تشير هذه إلى (أو مرجع) البيانات التي تريد استخدامها في الأنشطة الخاصة بك في شكل مدخلات أو مخرجات.
الخدمات المرتبطة حدد معلومات الاتصال المطلوبة لـAzure Data Factory للاتصال بالموارد الخارجية، مثل مصدر البيانات. يستخدم Azure Data Factory هذه في غرضين: لتمثيل ⁧⁩مخزن بيانات⁧⁩ أو ⁧⁩مورد حساب⁧⁩.
تدفقات البيانات تمكين مهندسي البيانات من تطوير منطق تحويل البيانات دون الحاجة إلى كتابة التعليمات البرمجية. يتم تشغيل تدفقات البيانات كأنشطة داخل البنية الأساسية لبرنامج ربط العمليات التجارية Azure Data Factory التي تستخدم مجموعات Apache Spark المتدرجة.
أوقات تشغيل التكامل يستخدم Azure Data Factory البنية التحتية للحوسبة لتوفير قدرات تكامل البيانات التالية عبر بيئات الشبكة المختلفة: تدفق البيانات وحركة البيانات وإرسال النشاط وتنفيذ حزمة SSIS. في Azure Data Factory، يوفر وقت تشغيل التكامل الجسر بين النشاط والخدمات المرتبطة.

كما هو مُبين في الرسم التالي، تعمل تلك المكونات معًا لتوفير نظام أساسي كامل وشامل لمهندسي البيانات. باستخدام Data Factory، يمكنك:

  • تعيين المشغلات عند الطلب وجدولة معالجة البيانات بناءً على احتياجاتك.
  • إقران البنية الأساسية لبرنامج ربط العمليات التجارية مع مُشغل، أو بدء تشغيله يدويًا عند الحاجة.
  • اتصل بالخدمات المرتبطة، مثل التطبيقات والبيانات المحلية، أو خدمات Azure عبر أوقات تشغيل التكامل.
  • راقب جميع تشغيلات المسار الخاص بك أصلاً في تجربة مستخدم Azure Data Factory أو باستخدام Azure Monitor.

A graphic depicts the interaction of the components described in the preceding table..