كيف يعمل Azure Data Factory Workflow Orchestration Manager؟

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

إشعار

يتم تشغيل إدارة تنسيق سير العمل بواسطة Apache Airflow.

إشعار

يعتمد مدير تنسيق سير العمل ل Azure Data Factory على تطبيق مصدر مفتوح Apache Airflow. يمكن العثور على وثائق والمزيد من البرامج التعليمية ل Airflow على وثائق Apache Airflow أو صفحات المجتمع.

يستخدم Workflow Orchestration Manager في Azure Data Factory الرسوم البيانية الموجهة المستندة إلى Python (DAGs) لتشغيل مهام سير عمل التزامن. لاستخدام هذه الميزة، تحتاج إلى توفير DAGs والمكونات الإضافية في Azure Blob Storage. يمكنك تشغيل واجهة مستخدم Airflow من ADF باستخدام واجهة سطر الأوامر (CLI) أو مجموعة أدوات تطوير البرامج (SDK) لإدارة DAGs الخاصة بك.

إنشاء بيئة إدارة تنسيق سير العمل

الخطوات التالية إعداد وتكوين بيئة إدارة تنسيق سير العمل.

المتطلبات الأساسية

اشتراك Azure: إذا لم يكن لديك اشتراك Azure، فأنشئ حسابمجاني قبل أن تبدأ. إنشاء Data Factory موجود أو تحديده في المنطقة التي يتم فيها دعم معاينة إدارة تنسيق سير العمل.

خطوات لإنشاء البيئة

  1. إنشاء بيئة إدارة تنسيق سير العمل الجديدة. انتقل إلى Manage hub ->Airflow (Preview) ->+New لإنشاء بيئة Airflow جديدة

    لقطة شاشة توضح كيفية إنشاء بيئة Apache Airflow مدارة جديدة.

  2. توفير التفاصيل (تكوين تدفق الهواء)

    لقطة شاشة تعرض بعض تفاصيل بيئة إدارة تنسيق سير العمل.

    هام

    عند استخدام المصادقة الأساسية ، تذكر اسم المستخدم وكلمة المرور المحددين في هذه الشاشة. ستكون هناك حاجة لتسجيل الدخول لاحقا في واجهة مستخدم إدارة تنسيق سير العمل. الخيار الافتراضي هو معرف Microsoft Entra ولا يتطلب إنشاء اسم مستخدم/ كلمة مرور لبيئة Airflow الخاصة بك، ولكن بدلا من ذلك يستخدم بيانات اعتماد المستخدم الذي قام بتسجيل الدخول إلى Azure Data Factory لتسجيل/ مراقبة DAGs.

  3. متغيرات البيئة مخزن قيمة مفتاح بسيط داخل Airflow لتخزين واسترداد المحتوى أو الإعدادات العشوائية.

  4. يمكن استخدام المتطلبات لتثبيت مكتبات python مسبقا. يمكنك تحديث هذه لاحقا أيضا.

استيراد DAGs

تصف الخطوات التالية كيفية استيراد DAGs إلى إدارة تنسيق سير العمل.

المتطلبات الأساسية

ستحتاج إلى تحميل نموذج DAG على حساب تخزين يمكن الوصول إليه (يجب أن يكون ضمن مجلد dags).

إشعار

لا يتم دعم Blob Storage خلف VNet أثناء المعاينة.
تكوين KeyVault في storageLinkedServices غير مدعوم لاستيراد البيانات الخفية.

نموذج Apache Airflow v2.x DAG. نموذج Apache Airflow v1.10 DAG.

خطوات الاستيراد

  1. انسخ المحتوى (إما v2.x أو v1.10 استنادا إلى بيئة Airflow التي قمت بإعدادها) في ملف جديد يسمى tutorial.py.

    تحميل tutorial.py إلى تخزين كائن ثنائي كبير الحجم. (كيفية تحميل ملف إلى كائن ثنائي كبير الحجم)

    إشعار

    ستحتاج إلى تحديد مسار دليل من حساب تخزين كائن ثنائي كبير الحجم يحتوي على مجلدات تسمى dags والمكونات الإضافية لاستيرادها إلى بيئة Airflow. المكونات الإضافية ليست إلزامية. يمكنك أيضا الحصول على حاوية تسمى dags وتحميل جميع ملفات Airflow داخلها.

  2. حدد على Airflow (معاينة) ضمن إدارة المركز. ثم مرر مؤشر الماوس فوق بيئة Airflow التي تم إنشاؤها مسبقا وحدد استيراد الملفات لاستيراد جميع DAGs والتبعيات إلى بيئة Airflow.

    تظهر لقطة الشاشة استيراد الملفات في مركز الإدارة.

  3. أنشئ خدمة مرتبطة جديدة لحساب التخزين الذي يمكن الوصول إليه والمذكور في المتطلبات الأساسية (أو استخدم حسابا موجودا إذا كان لديك بالفعل DAGs الخاصة بك).

    لقطة شاشة توضح كيفية إنشاء خدمة مرتبطة جديدة.

  4. استخدم حساب التخزين حيث قمت بتحميل DAG (التحقق من المتطلبات الأساسية). اختبر الاتصال، ثم حدد إنشاء.

    تظهر لقطة الشاشة بعض تفاصيل الخدمة المرتبطة.

  5. استعرض وحدد تدفق الهواء إذا كنت تستخدم نموذج SAS URL أو حدد المجلد الذي يحتوي على مجلد dags مع ملفات DAG.

    إشعار

    يمكنك استيراد DAGs وتبعياتها من خلال هذه الواجهة. ستحتاج إلى تحديد مسار دليل من حساب تخزين كائن ثنائي كبير الحجم يحتوي على مجلدات تسمى dags والمكونات الإضافية لاستيرادها إلى بيئة Airflow. المكونات الإضافية ليست إلزامية.

    تظهر لقطة الشاشة تخزين الاستعراض في ملفات الاستيراد.

    لقطة شاشة تعرض الاستعراض في تدفق الهواء.

    تظهر لقطة الشاشة الاستيراد في ملفات الاستيراد.

    تظهر لقطة الشاشة خفية الاستيراد.

إشعار

قد يستغرق استيراد DAGs بضع دقائق أثناء المعاينة. يمكن استخدام مركز الإعلامات (أيقونة الجرس في واجهة مستخدم ADF) لتتبع تحديثات حالة الاستيراد.

استكشاف مشكلات استيراد DAG وإصلاحها

  • المشكلة: يستغرق استيراد DAG أكثر من 5 دقائق التخفيف: تقليل حجم DAGs المستوردة مع استيراد واحد. إحدى الطرق لتحقيق ذلك هي إنشاء مجلدات DAG متعددة مع مجموعات DAGs أقل عبر حاويات متعددة.

  • المشكلة: لا تظهر مجموعات DAGs المستوردة عند تسجيل الدخول إلى واجهة مستخدم Airflow. التخفيف من المخاطر: سجل الدخول إلى واجهة مستخدم Airflow وتحقق مما إذا كانت هناك أي أخطاء تحليل DAG. قد يحدث هذا إذا كانت ملفات DAG تحتوي على أي تعليمات برمجية غير متوافقة. ستجد أرقام الأسطر الدقيقة والملفات، التي تواجه المشكلة من خلال واجهة مستخدم Airflow.

    تظهر لقطة الشاشة مشكلات استيراد dag.

مراقبة عمليات تشغيل DAG

لمراقبة Airflow DAGs، سجل الدخول إلى واجهة مستخدم Airflow باستخدام اسم المستخدم وكلمة المرور الذي تم إنشاؤه مسبقا.

  1. حدد بيئة Airflow التي تم إنشاؤها.

    لقطة شاشة تعرض بيئة تدفق الهواء التي تم إنشاؤها.

  2. سجل الدخول باستخدام اسم المستخدم-كلمة المرور المتوفرة أثناء إنشاء وقت تشغيل تكامل Airflow. (يمكنك إعادة تعيين اسم المستخدم أو كلمة المرور عن طريق تحرير وقت تشغيل تكامل Airflow إذا لزم الأمر)

    لقطة شاشة تعرض تسجيل الدخول باستخدام اسم المستخدم وكلمة المرور المتوفرة أثناء إنشاء وقت تشغيل تكامل Airflow.

إزالة DAGs من بيئة تدفق الهواء

إذا كنت تستخدم الإصدار 1.x من Airflow، فاحذف DAGs التي يتم نشرها على أي بيئة Airflow (IR)، فأنت بحاجة إلى حذف DAGs في مكانين مختلفين.

  1. حذف DAG من واجهة مستخدم Airflow
  2. حذف DAG في واجهة مستخدم ADF

إشعار

هذه هي التجربة الحالية أثناء المعاينة العامة، وسنحسن هذه التجربة.