تشغيل وظيفة Azure Databricks باستخدام حساب بلا خادم لسير العمل

مقالة
05/13/2024

هام

الحوسبة بلا خادم لسير العمل في المعاينة العامة. للحصول على معلومات حول الأهلية والتمكين، راجع تمكين المعاينة العامة للحوسبة بدون خادم.

هام

نظرا لأن المعاينة العامة للحساب بلا خادم لسير العمل لا تدعم التحكم في حركة الخروج، فإن وظائفك تتمتع بالوصول الكامل إلى الإنترنت.

يسمح لك الحساب بلا خادم لسير العمل بتشغيل وظيفة Azure Databricks دون تكوين البنية الأساسية ونشرها. باستخدام الحوسبة بلا خادم، يمكنك التركيز على تنفيذ مسارات معالجة البيانات وتحليلها، وتدير Azure Databricks موارد الحوسبة بكفاءة، بما في ذلك تحسين الحوسبة وتحجيمها لأحمال العمل الخاصة بك. يتم تمكين التحجيم التلقائي والفوتون تلقائيا لموارد الحوسبة التي تشغل وظيفتك.

تعمل الحوسبة بلا خادم للتحسين التلقائي لسير العمل تلقائيا على تحسين الحوسبة عن طريق تحديد الموارد المناسبة مثل أنواع المثيلات والذاكرة ومحركات المعالجة استنادا إلى حمل العمل الخاص بك. يقوم التحسين التلقائي أيضا بإعادة محاولة الوظائف الفاشلة تلقائيا.

يقوم Databricks تلقائيا بترقية إصدار Databricks Runtime لدعم التحسينات والترقيات إلى النظام الأساسي مع ضمان استقرار وظائف Azure Databricks. لمشاهدة إصدار وقت تشغيل Databricks الحالي المستخدم بواسطة الحوسبة بلا خادم لسير العمل، راجع ملاحظات إصدار الحوسبة بلا خادم.

نظرا لأن إذن إنشاء نظام المجموعة غير مطلوب، يمكن لجميع مستخدمي مساحة العمل استخدام الحوسبة بلا خادم لتشغيل مهام سير العمل الخاصة بهم.

توضح هذه المقالة استخدام واجهة مستخدم وظائف Azure Databricks لإنشاء وتشغيل المهام التي تستخدم الحوسبة بلا خادم. يمكنك أيضا أتمتة إنشاء الوظائف وتشغيلها التي تستخدم حساب بلا خادم مع واجهة برمجة تطبيقات الوظائف وحزم أصول Databricks وDatabricks SDK ل Python.

للتعرف على استخدام واجهة برمجة تطبيقات الوظائف لإنشاء الوظائف التي تستخدم الحوسبة بلا خادم وتشغيلها، راجع الوظائف في مرجع واجهة برمجة تطبيقات REST.
للتعرف على استخدام حزم أصول Databricks لإنشاء وتشغيل المهام التي تستخدم الحوسبة بلا خادم، راجع تطوير وظيفة على Azure Databricks باستخدام حزم أصول Databricks.
للتعرف على استخدام Databricks SDK ل Python لإنشاء وتشغيل المهام التي تستخدم الحوسبة بلا خادم، راجع Databricks SDK ل Python.

المتطلبات

يجب تمكين كتالوج Unity لمساحة عمل Azure Databricks.
نظرا لأن الحوسبة بلا خادم لسير العمل تستخدم وضع الوصول المشترك، يجب أن تدعم أحمال العمل وضع الوصول هذا.
يجب أن تكون مساحة عمل Azure Databricks في منطقة مدعومة. راجع مناطق Azure Databricks.

إنشاء مهمة باستخدام الحوسبة بلا خادم

يتم دعم الحوسبة بلا خادم مع دفتر الملاحظات، والبرنامج النصي Python، وdbt، وأنواع مهام عجلة Python. بشكل افتراضي، يتم تحديد الحوسبة بلا خادم كنوع حساب عند إنشاء مهمة جديدة وإضافة أحد أنواع المهام المدعومة هذه.

إنشاء مهمة بلا خادم

توصي Databricks باستخدام حساب بلا خادم لجميع مهام الوظيفة. يمكنك أيضا تحديد أنواع حوسبة مختلفة للمهام في وظيفة، والتي قد تكون مطلوبة إذا لم يكن نوع المهمة مدعوما بواسطة حساب بلا خادم لسير العمل.

تكوين مهمة موجودة لاستخدام الحوسبة بلا خادم

يمكنك تبديل مهمة موجودة لاستخدام الحوسبة بلا خادم أنواع المهام المدعومة عند تحرير المهمة. للتبديل إلى الحوسبة بلا خادم، إما:

في اللوحة الجانبية تفاصيل المهمة، انقر فوق تبديل ضمن حساب، وانقر فوق جديد، وأدخل أي إعدادات أو حدثها، وانقر فوق تحديث.
انقر في القائمة المنسدلة Compute وحدد Serverless.

تبديل المهمة إلى حساب بلا خادم

جدولة دفتر ملاحظات باستخدام حساب بلا خادم

بالإضافة إلى استخدام واجهة مستخدم الوظائف لإنشاء وظيفة وجدولتها باستخدام حساب بلا خادم، يمكنك إنشاء وتشغيل وظيفة تستخدم حساب بلا خادم مباشرة من دفتر ملاحظات Databricks. راجع إنشاء مهام دفتر الملاحظات المجدولة وإدارتها.

تعيين معلمات تكوين Spark

لأتمتة تكوين Spark على الحوسبة بلا خادم، يسمح Databricks بتعيين معلمات تكوين Spark محددة فقط. للحصول على قائمة المعلمات المسموح بها، راجع معلمات تكوين Spark المدعومة.

يمكنك تعيين معلمات تكوين Spark على مستوى الجلسة فقط. للقيام بذلك، قم بتعيينها في دفتر ملاحظات وإضافة دفتر الملاحظات إلى مهمة مضمنة في نفس المهمة التي تستخدم المعلمات. راجع الحصول على خصائص تكوين Apache Spark وتعيينها في دفتر ملاحظات.

تكوين بيئات وتبعيات دفتر الملاحظات

لإدارة تبعيات المكتبة وتكوين البيئة لمهمة دفتر ملاحظات، أضف التكوين إلى خلية في دفتر الملاحظات. يقوم المثال التالي بتثبيت مكتبات Python باستخدام pip install من ملفات مساحة العمل ومع requirements.txt ملف وتعيين spark.sql.session.timeZone متغير جلسة عمل:

%pip install -r ./requirements.txt
%pip install simplejson
%pip install /Volumes/my/python.whl
%pip install /Workspace/my/python.whl
%pip install https://some-distro.net/popular.whl
spark.conf.set('spark.sql.session.timeZone', 'Europe/Amsterdam')

لتعيين البيئة نفسها عبر دفاتر ملاحظات متعددة، يمكنك استخدام دفتر ملاحظات واحد لتكوين البيئة ثم استخدام %run الأمر السحري لتشغيل دفتر الملاحظات هذا من أي دفتر ملاحظات يتطلب تكوين البيئة. راجع استخدام ٪run لاستيراد دفتر ملاحظات.

تكوين البيئات والتبعيات للمهام غير المتعلقة بدفتر الملاحظات

بالنسبة لأنواع المهام الأخرى المدعومة، مثل برنامج Python النصي أو عجلة Python أو مهام dbt، تتضمن البيئة الافتراضية مكتبات Python المثبتة. لمشاهدة قائمة المكتبات المثبتة، راجع قسم مكتبات Python المثبتة في ملاحظات الإصدار لإصدار Databricks Runtime الذي يستند إليه الحساب بلا خادم لنشر مهام سير العمل. لمشاهدة إصدار وقت تشغيل Databricks الحالي المستخدم بواسطة الحوسبة بلا خادم لسير العمل، راجع ملاحظات إصدار الحوسبة بلا خادم. يمكنك أيضا تثبيت مكتبات Python إذا كانت المهمة تتطلب مكتبة غير مثبتة. يمكنك تثبيت مكتبات Python من ملفات مساحة العمل أو وحدات تخزين كتالوج Unity أو مستودعات الحزم العامة. لإضافة مكتبة عند إنشاء مهمة أو تحريرها:

في القائمة المنسدلة البيئة والمكتبات، انقر فوق بجوار البيئة الافتراضيةأو انقر فوق + إضافة بيئة جديدة.
في مربع الحوار تكوين البيئة ، انقر فوق + إضافة مكتبة.
حدد نوع التبعية من القائمة المنسدلة ضمن المكتبات.
في مربع النص مسار الملف، أدخل المسار إلى المكتبة.

بالنسبة لعجلة Python في ملف مساحة عمل، يجب أن يكون المسار مطلقا ويبدأ ب /Workspace/.
بالنسبة لعجلة Python في وحدة تخزين كتالوج Unity، يجب أن يكون /Volumes/<catalog>/<schema>/<volume>/<path>.whlالمسار .
بالنسبة إلى requirements.txt ملف، حدد PyPi وأدخل -r /path/to/requirements.txt.

انقر فوق تأكيد أو + إضافة مكتبة لإضافة مكتبة أخرى.
إذا كنت تقوم بإضافة مهمة، فانقر فوق إنشاء مهمة. إذا كنت تقوم بتحرير مهمة، فانقر فوق حفظ المهمة.

تكوين التحسين التلقائي للحساب بلا خادم لعدم السماح بإعادة المحاولة

يعمل التحسين التلقائي للحساب بلا خادم لسير العمل تلقائيا على تحسين الحساب المستخدم لتشغيل مهامك وإعادة محاولة الوظائف الفاشلة. يتم تمكين التحسين التلقائي بشكل افتراضي، وتوصي Databricks بتركها ممكنة لضمان تشغيل أحمال العمل الهامة بنجاح مرة واحدة على الأقل. ومع ذلك، إذا كان لديك أحمال عمل يجب تنفيذها مرة واحدة على الأكثر، على سبيل المثال، الوظائف غير المتكررة، يمكنك إيقاف تشغيل التحسين التلقائي عند إضافة مهمة أو تحريرها:

إلى جانب عمليات إعادة المحاولة، انقر فوق إضافة (أو إذا كان نهج إعادة المحاولة موجودا بالفعل).
في مربع الحوار نهج إعادة المحاولة ، قم بإلغاء تحديد تمكين التحسين التلقائي بلا خادم (قد يتضمن إعادة محاولة إضافية).
انقر فوق تأكيد.
إذا كنت تقوم بإضافة مهمة، فانقر فوق إنشاء مهمة. إذا كنت تقوم بتحرير مهمة، فانقر فوق حفظ المهمة.

مراقبة تكلفة المهام التي تستخدم الحوسبة بلا خادم لسير العمل

يمكنك مراقبة تكلفة المهام التي تستخدم الحوسبة بلا خادم لسير العمل عن طريق الاستعلام عن جدول نظام الاستخدام القابل للفوترة. يتم تحديث هذا الجدول لتضمين سمات المستخدم وأحمال العمل حول التكاليف بلا خادم. راجع مرجع جدول نظام الاستخدام القابل للفوترة.

عرض تفاصيل استعلامات Spark

يحتوي الحساب بلا خادم لسير العمل على واجهة جديدة لعرض معلومات وقت التشغيل التفصيلية لعبارات Spark، مثل المقاييس وخطط الاستعلام. لعرض رؤى الاستعلام لعبارات Spark المضمنة في مهامك، قم بتشغيل على حساب بلا خادم:

انقر فوق مهام سير العمل في الشريط الجانبي.
في العمود الاسم ، انقر فوق اسم الوظيفة الذي تريد عرض نتائج التحليلات له.
انقر فوق التشغيل المحدد الذي تريد عرض نتائج التحليلات له.
في قسم Compute من اللوحة الجانبية Task run، انقر فوق Query history.
تتم إعادة توجيهك إلى "محفوظات الاستعلام"، تتم التصفية مسبقا استنادا إلى معرف تشغيل المهمة للمهمة التي كنت فيها.

للحصول على معلومات حول استخدام محفوظات الاستعلام، راجع محفوظات الاستعلام.

القيود

للحصول على قائمة بالحوسبة بلا خادم لقيود سير العمل، راجع قيود الحوسبة بلا خادم في ملاحظات إصدار الحوسبة بلا خادم.

Share via