مقدمة إلى مهام سير عمل Azure Databricks

تنسق Azure Databricks Workflows معالجة البيانات والتعلم الآلي وتدفقات التحليلات على Databricks Data Intelligence Platform. تحتوي مهام سير العمل على خدمات تزامن مدارة بالكامل مدمجة مع النظام الأساسي Databricks، بما في ذلك وظائف Azure Databricks لتشغيل التعليمات البرمجية غير التفاعلية في مساحة عمل Azure Databricks وجداول Delta Live لإنشاء مسارات ETL موثوقة وقابلة للصيانة.

لمعرفة المزيد حول فوائد تنسيق مهام سير العمل باستخدام النظام الأساسي Databricks، راجع مهام سير عمل Databricks.

مثال على سير عمل Azure Databricks

يوضح الرسم التخطيطي التالي سير عمل منسق بواسطة مهمة Azure Databricks من أجل:

  1. قم بتشغيل مسار Delta Live Tables الذي ي استيعاب بيانات النقر الأولية من التخزين السحابي، وتنظيف البيانات وإعدادها، وجلسة عمل البيانات، واستمرار مجموعة البيانات النهائية التي تمت جلسة العمل عليها إلى Delta Lake.
  2. قم بتشغيل مسار Delta Live Tables الذي ي استيعاب بيانات الطلب من التخزين السحابي، وتنظيف البيانات وتحويلها للمعالجة، واستمرار مجموعة البيانات النهائية إلى Delta Lake.
  3. انضم إلى الترتيب وبيانات النقر المجلسة لإنشاء مجموعة بيانات جديدة للتحليل.
  4. استخراج الميزات من البيانات المعدة.
  5. قم بتنفيذ المهام بالتوازي لاستمرار الميزات وتدريب نموذج التعلم الآلي.

رسم تخطيطي يوضح مثالا لسير العمل

ما هي وظائف Azure Databricks؟

وظيفة Azure Databricks هي طريقة لتشغيل تطبيقات معالجة البيانات وتحليلها في مساحة عمل Azure Databricks. يمكن أن تتكون وظيفتك من مهمة واحدة أو يمكن أن تكون سير عمل كبير متعدد المهام مع تبعيات معقدة. يدير Azure Databricks تنسيق المهام وإدارة نظام المجموعة والمراقبة والإبلاغ عن الأخطاء لجميع وظائفك. يمكنك تشغيل مهامك على الفور، بشكل دوري من خلال نظام جدولة سهل الاستخدام، كلما وصلت ملفات جديدة إلى موقع خارجي، أو بشكل مستمر لضمان تشغيل مثيل الوظيفة دائما. يمكنك أيضا تشغيل المهام بشكل تفاعلي في واجهة مستخدم دفتر الملاحظات.

يمكنك إنشاء وظيفة وتشغيلها باستخدام واجهة مستخدم الوظائف أو Databricks CLI أو عن طريق استدعاء واجهة برمجة تطبيقات الوظائف. يمكنك إصلاح مهمة فاشلة أو ملغاة وإعادة تشغيلها باستخدام واجهة المستخدم أو واجهة برمجة التطبيقات. يمكنك مراقبة نتائج تشغيل المهمة باستخدام واجهة المستخدم وCLI وواجهة برمجة التطبيقات والإعلامات (على سبيل المثال، البريد الإلكتروني أو وجهة خطاف الويب أو إعلامات Slack).

لمعرفة المزيد حول استخدام Databricks CLI، راجع ما هو Databricks CLI؟. للتعرف على استخدام واجهة برمجة تطبيقات الوظائف، راجع واجهة برمجة تطبيقات الوظائف.

تغطي الأقسام التالية الميزات الهامة لوظائف Azure Databricks.

هام

  • تقتصر مساحة العمل على 1000 تشغيل مهمة متزامنة. 429 Too Many Requests يتم إرجاع استجابة عند طلب تشغيل لا يمكن بدء تشغيله على الفور.
  • يقتصر عدد المهام التي يمكن لمساحة العمل إنشاؤها في ساعة على 10000 (بما في ذلك "إرسال عمليات التشغيل"). يؤثر هذا الحد أيضا على المهام التي تم إنشاؤها بواسطة واجهة برمجة تطبيقات REST ومهام سير عمل دفتر الملاحظات.

تنفيذ معالجة البيانات وتحليلها مع المهام الوظيفية

يمكنك تنفيذ سير عمل معالجة البيانات وتحليلها باستخدام المهام. تتكون الوظيفة من مهمة واحدة أو أكثر. يمكنك إنشاء مهام مهمة تقوم بتشغيل دفاتر الملاحظات أو JARS أو خطوط أنابيب Delta Live Tables أو تطبيقات Python وSc scala وSpark submit وJava. يمكن لمهامك الوظيفية أيضا تنسيق استعلامات Databricks SQL والتنبيهات ولوحات المعلومات لإنشاء تحليلات وتصورات، أو يمكنك استخدام مهمة dbt لتشغيل تحويلات dbt في سير العمل الخاص بك. يتم أيضا دعم تطبيقات إرسال Spark القديمة.

يمكنك أيضا إضافة مهمة إلى وظيفة تقوم بتشغيل مهمة مختلفة. تسمح لك هذه الميزة بتقسيم عملية كبيرة إلى وظائف أصغر متعددة، أو إنشاء وحدات نمطية معممة يمكن إعادة استخدامها بواسطة وظائف متعددة.

يمكنك التحكم في ترتيب تنفيذ المهام عن طريق تحديد التبعيات بين المهام. يمكنك تكوين المهام للتشغيل بالتسلسل أو بالتوازي.

تشغيل الوظائف بشكل تفاعلي أو مستمر أو باستخدام مشغلات الوظائف

يمكنك تشغيل مهامك بشكل تفاعلي من واجهة مستخدم الوظائف أو واجهة برمجة التطبيقات أو CLI أو يمكنك تشغيل وظيفة مستمرة. يمكنك إنشاء جدول زمني لتشغيل وظيفتك بشكل دوري أو تشغيل وظيفتك عند وصول ملفات جديدة إلى موقع خارجي مثل Amazon S3 أو تخزين Azure أو تخزين Google Cloud.

مراقبة تقدم المهمة باستخدام الإعلامات

يمكنك تلقي إعلامات عند بدء مهمة أو مهمة أو اكتمالها أو فشلها. يمكنك إرسال إعلامات إلى عنوان بريد إلكتروني واحد أو أكثر أو وجهات النظام (على سبيل المثال، وجهات خطاف الويب أو Slack). راجع إضافة إعلامات البريد الإلكتروني والنظام لأحداث الوظيفة.

تشغيل مهامك باستخدام موارد حساب Azure Databricks

توفر مجموعات Databricks ومستودعات SQL موارد الحساب لوظائفك. يمكنك تشغيل وظائفك باستخدام نظام مجموعة مهام أو نظام مجموعة لجميع الأغراض أو مستودع SQL:

  • نظام مجموعة الوظائف هو نظام مجموعة مخصص لوظائفك أو مهامك الوظيفية الفردية. يمكن لمهمتك استخدام مجموعة مهام مشتركة بين جميع المهام أو يمكنك تكوين نظام مجموعة للمهام الفردية عند إنشاء مهمة أو تحريرها. يتم إنشاء مجموعة مهام عند بدء المهمة أو المهمة وإنهائها عند انتهاء المهمة أو المهمة.
  • نظام المجموعة لجميع الأغراض هو نظام مجموعة مشترك يتم تشغيله وإنهاؤه يدويا ويمكن مشاركته من قبل العديد من المستخدمين والوظائف.

لتحسين استخدام الموارد، توصي Databricks باستخدام مجموعة مهام لوظائفك. لتقليل الوقت المستغرق في انتظار بدء تشغيل نظام المجموعة، ضع في اعتبارك استخدام نظام مجموعة لجميع الأغراض. راجع استخدام حساب Azure Databricks مع وظائفك.

يمكنك استخدام مستودع SQL لتشغيل مهام Databricks SQL مثل الاستعلامات أو لوحات المعلومات أو التنبيهات. يمكنك أيضا استخدام مستودع SQL لتشغيل تحويلات dbt مع مهمة dbt.

الخطوات التالية

لبدء استخدام وظائف Azure Databricks:

تعرف على المزيد حول إنشاء مهام سير العمل وإدارتها واستكشاف الأخطاء وإصلاحها باستخدام وظائف Azure Databricks:

ما هي جداول Delta Live؟

إشعار

تتطلب Delta Live Tables خطة Premium. اتصل بفريق حساب Databricks للحصول على مزيد من المعلومات.

Delta Live Tables هو إطار عمل يبسط ETL ومعالجة البيانات المتدفقة. توفر Delta Live Tables استيعابا فعالا للبيانات مع دعم مضمن لواجهات التحميل التلقائي وSQL وPython التي تدعم التنفيذ التعريفي لتحويلات البيانات، ودعم كتابة البيانات المحولة إلى Delta Lake. يمكنك تحديد التحويلات التي يجب إجراؤها على بياناتك، وتدير Delta Live Tables تنسيق المهام وإدارة نظام المجموعة والمراقبة وجودة البيانات ومعالجة الأخطاء.

للبدء، راجع ما هي جداول Delta Live؟.

وظائف Azure Databricks وجداول Delta Live

توفر وظائف Azure Databricks وجداول Delta Live إطار عمل شاملا لبناء ونشر مهام سير عمل معالجة البيانات وتحليلها من طرف إلى طرف.

استخدم Delta Live Tables لجميع عمليات استيعاب البيانات وتحويلها. استخدم وظائف Azure Databricks لتنسيق أحمال العمل المكونة من مهمة واحدة أو مهام معالجة وتحليل بيانات متعددة على النظام الأساسي Databricks، بما في ذلك استيعاب Delta Live Tables وتحويلها.

كنظام تزامن لسير العمل، تدعم وظائف Azure Databricks أيضا:

  • تشغيل المهام على أساس مشغل، على سبيل المثال، تشغيل سير عمل على جدول زمني.
  • تحليل البيانات من خلال استعلامات SQL والتعلم الآلي وتحليل البيانات باستخدام دفاتر الملاحظات أو البرامج النصية أو المكتبات الخارجية، وما إلى ذلك.
  • تشغيل مهمة مكونة من مهمة واحدة، على سبيل المثال، تشغيل مهمة Apache Spark مجمعة في JAR.

تزامن سير العمل مع Apache AirFlow

على الرغم من أن Databricks توصي باستخدام وظائف Azure Databricks لتنسيق مهام سير عمل البيانات، يمكنك أيضا استخدام Apache Airflow لإدارة مهام سير عمل البيانات وجدولتها. باستخدام Airflow، يمكنك تحديد سير العمل الخاص بك في ملف Python، ويدير Airflow جدولة سير العمل وتشغيله. راجع تنسيق وظائف Azure Databricks باستخدام Apache Airflow.

تزامن سير العمل مع Azure Data Factory

Azure Data Factory (ADF) هي خدمة تكامل بيانات سحابية تتيح لك إنشاء خدمات تخزين البيانات ونقلها ومعالجتها في مسارات البيانات التلقائية. يمكنك استخدام ADF لتنسيق مهمة Azure Databricks كجزء من مسار ADF.

لمعرفة كيفية تشغيل وظيفة باستخدام نشاط ويب ADF، بما في ذلك كيفية المصادقة على Azure Databricks من ADF، راجع الاستفادة من تنسيق مهام Azure Databricks من Azure Data Factory.

يوفر ADF أيضا دعما مضمنا لتشغيل دفاتر ملاحظات Databricks أو البرامج النصية ل Python أو التعليمات البرمجية المحزمة في JARs في مسار ADF.

لمعرفة كيفية تشغيل دفتر ملاحظات Databricks في مسار ADF، راجع تشغيل دفتر ملاحظات Databricks مع نشاط دفتر ملاحظات Databricks في Azure Data Factory، متبوعا بتحويل البيانات عن طريق تشغيل دفتر ملاحظات Databricks.

لمعرفة كيفية تشغيل برنامج نصي Python في مسار ADF، راجع تحويل البيانات عن طريق تشغيل نشاط Python في Azure Databricks.

لمعرفة كيفية تشغيل التعليمات البرمجية المحزمة في JAR في مسار ADF، راجع تحويل البيانات عن طريق تشغيل نشاط JAR في Azure Databricks.