كيف يعمل Azure Data Factory Workflow Orchestration Manager؟
ينطبق على:Azure Data Factory Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
إشعار
يتم تشغيل إدارة تنسيق سير العمل بواسطة Apache Airflow.
إشعار
يعتمد مدير تنسيق سير العمل ل Azure Data Factory على تطبيق مصدر مفتوح Apache Airflow. يمكن العثور على وثائق والمزيد من البرامج التعليمية ل Airflow على وثائق Apache Airflow أو صفحات المجتمع.
يستخدم Workflow Orchestration Manager في Azure Data Factory الرسوم البيانية الموجهة المستندة إلى Python (DAGs) لتشغيل مهام سير عمل التزامن. لاستخدام هذه الميزة، تحتاج إلى توفير DAGs والمكونات الإضافية في Azure Blob Storage. يمكنك تشغيل واجهة مستخدم Airflow من ADF باستخدام واجهة سطر الأوامر (CLI) أو مجموعة أدوات تطوير البرامج (SDK) لإدارة DAGs الخاصة بك.
إنشاء بيئة إدارة تنسيق سير العمل
الخطوات التالية إعداد وتكوين بيئة إدارة تنسيق سير العمل.
المتطلبات الأساسية
اشتراك Azure: إذا لم يكن لديك اشتراك Azure، فأنشئ حسابمجاني قبل أن تبدأ. إنشاء Data Factory موجود أو تحديده في المنطقة التي يتم فيها دعم معاينة إدارة تنسيق سير العمل.
خطوات لإنشاء البيئة
إنشاء بيئة إدارة تنسيق سير العمل الجديدة. انتقل إلى Manage hub ->Airflow (Preview) ->+New لإنشاء بيئة Airflow جديدة
توفير التفاصيل (تكوين تدفق الهواء)
هام
عند استخدام المصادقة الأساسية ، تذكر اسم المستخدم وكلمة المرور المحددين في هذه الشاشة. ستكون هناك حاجة لتسجيل الدخول لاحقا في واجهة مستخدم إدارة تنسيق سير العمل. الخيار الافتراضي هو معرف Microsoft Entra ولا يتطلب إنشاء اسم مستخدم/ كلمة مرور لبيئة Airflow الخاصة بك، ولكن بدلا من ذلك يستخدم بيانات اعتماد المستخدم الذي قام بتسجيل الدخول إلى Azure Data Factory لتسجيل/ مراقبة DAGs.
متغيرات البيئة مخزن قيمة مفتاح بسيط داخل Airflow لتخزين واسترداد المحتوى أو الإعدادات العشوائية.
يمكن استخدام المتطلبات لتثبيت مكتبات python مسبقا. يمكنك تحديث هذه لاحقا أيضا.
استيراد DAGs
تصف الخطوات التالية كيفية استيراد DAGs إلى إدارة تنسيق سير العمل.
المتطلبات الأساسية
ستحتاج إلى تحميل نموذج DAG على حساب تخزين يمكن الوصول إليه (يجب أن يكون ضمن مجلد dags).
إشعار
لا يتم دعم Blob Storage خلف VNet أثناء المعاينة.
تكوين KeyVault في storageLinkedServices غير مدعوم لاستيراد البيانات الخفية.
نموذج Apache Airflow v2.x DAG. نموذج Apache Airflow v1.10 DAG.
خطوات الاستيراد
انسخ المحتوى (إما v2.x أو v1.10 استنادا إلى بيئة Airflow التي قمت بإعدادها) في ملف جديد يسمى tutorial.py.
تحميل tutorial.py إلى تخزين كائن ثنائي كبير الحجم. (كيفية تحميل ملف إلى كائن ثنائي كبير الحجم)
إشعار
ستحتاج إلى تحديد مسار دليل من حساب تخزين كائن ثنائي كبير الحجم يحتوي على مجلدات تسمى dags والمكونات الإضافية لاستيرادها إلى بيئة Airflow. المكونات الإضافية ليست إلزامية. يمكنك أيضا الحصول على حاوية تسمى dags وتحميل جميع ملفات Airflow داخلها.
حدد على Airflow (معاينة) ضمن إدارة المركز. ثم مرر مؤشر الماوس فوق بيئة Airflow التي تم إنشاؤها مسبقا وحدد استيراد الملفات لاستيراد جميع DAGs والتبعيات إلى بيئة Airflow.
أنشئ خدمة مرتبطة جديدة لحساب التخزين الذي يمكن الوصول إليه والمذكور في المتطلبات الأساسية (أو استخدم حسابا موجودا إذا كان لديك بالفعل DAGs الخاصة بك).
استخدم حساب التخزين حيث قمت بتحميل DAG (التحقق من المتطلبات الأساسية). اختبر الاتصال، ثم حدد إنشاء.
استعرض وحدد تدفق الهواء إذا كنت تستخدم نموذج SAS URL أو حدد المجلد الذي يحتوي على مجلد dags مع ملفات DAG.
إشعار
يمكنك استيراد DAGs وتبعياتها من خلال هذه الواجهة. ستحتاج إلى تحديد مسار دليل من حساب تخزين كائن ثنائي كبير الحجم يحتوي على مجلدات تسمى dags والمكونات الإضافية لاستيرادها إلى بيئة Airflow. المكونات الإضافية ليست إلزامية.
إشعار
قد يستغرق استيراد DAGs بضع دقائق أثناء المعاينة. يمكن استخدام مركز الإعلامات (أيقونة الجرس في واجهة مستخدم ADF) لتتبع تحديثات حالة الاستيراد.
استكشاف مشكلات استيراد DAG وإصلاحها
المشكلة: يستغرق استيراد DAG أكثر من 5 دقائق التخفيف: تقليل حجم DAGs المستوردة مع استيراد واحد. إحدى الطرق لتحقيق ذلك هي إنشاء مجلدات DAG متعددة مع مجموعات DAGs أقل عبر حاويات متعددة.
المشكلة: لا تظهر مجموعات DAGs المستوردة عند تسجيل الدخول إلى واجهة مستخدم Airflow. التخفيف من المخاطر: سجل الدخول إلى واجهة مستخدم Airflow وتحقق مما إذا كانت هناك أي أخطاء تحليل DAG. قد يحدث هذا إذا كانت ملفات DAG تحتوي على أي تعليمات برمجية غير متوافقة. ستجد أرقام الأسطر الدقيقة والملفات، التي تواجه المشكلة من خلال واجهة مستخدم Airflow.
مراقبة عمليات تشغيل DAG
لمراقبة Airflow DAGs، سجل الدخول إلى واجهة مستخدم Airflow باستخدام اسم المستخدم وكلمة المرور الذي تم إنشاؤه مسبقا.
حدد بيئة Airflow التي تم إنشاؤها.
سجل الدخول باستخدام اسم المستخدم-كلمة المرور المتوفرة أثناء إنشاء وقت تشغيل تكامل Airflow. (يمكنك إعادة تعيين اسم المستخدم أو كلمة المرور عن طريق تحرير وقت تشغيل تكامل Airflow إذا لزم الأمر)
إزالة DAGs من بيئة تدفق الهواء
إذا كنت تستخدم الإصدار 1.x من Airflow، فاحذف DAGs التي يتم نشرها على أي بيئة Airflow (IR)، فأنت بحاجة إلى حذف DAGs في مكانين مختلفين.
- حذف DAG من واجهة مستخدم Airflow
- حذف DAG في واجهة مستخدم ADF
إشعار
هذه هي التجربة الحالية أثناء المعاينة العامة، وسنحسن هذه التجربة.