تكوين أنظمة المجموعات

إشعار

هذه إرشادات لإنشاء واجهة مستخدم نظام المجموعة القديمة، ويتم تضمينها فقط للدقة التاريخية. يجب أن يستخدم جميع العملاء واجهة مستخدم إنشاء نظام المجموعة المحدثة.

توضح هذه المقالة خيارات التكوين المتوفرة عند إنشاء مجموعات Azure Databricks وتحريرها. وهو يركز على إنشاء أنظمة المجموعات وتحريرها باستخدام واجهة المستخدم. للحصول على أساليب أخرى، راجع Databricks CLI وواجهة برمجة تطبيقات المجموعات وموفر Databricks Terraform.

للمساعدة في تحديد مجموعة خيارات التكوين التي تناسب احتياجاتك بشكل أفضل، راجع أفضل ممارسات تكوين نظام المجموعة.

إنشاء نظام المجموعة

نهج نظام المجموعة

يحد نهج نظام المجموعة من القدرة على تكوين المجموعات استنادا إلى مجموعة من القواعد. تحد قواعد النهج من السمات أو قيم السمات المتوفرة لإنشاء نظام المجموعة. تحتوي نهج نظام المجموعة على قوائم التحكم في الوصول التي تحد من استخدامها لمستخدمين ومجموعات محددة وبالتالي تحد من النهج التي يمكنك تحديدها عند إنشاء نظام مجموعة.

لتكوين نهج نظام المجموعة، حدد نهج نظام المجموعة في القائمة المنسدلة Policy .

تحديد نهج نظام المجموعة

إشعار

إذا لم يتم إنشاء أي نهج في مساحة العمل، فلن يتم عرض القائمة المنسدلة Policy.

إذا كان لديك:

  • إذن إنشاء نظام المجموعة، يمكنك تحديد النهج غير المقيد وإنشاء مجموعات قابلة للتكوين بالكامل. لا يحد النهج غير المقيد من أي سمات نظام المجموعة أو قيم السمات.
  • ينشئ كل من نظام المجموعة الإذن والوصول إلى نهج نظام المجموعة، يمكنك تحديد النهج غير المقيد والنهج التي لديك حق الوصول إليها.
  • الوصول إلى نهج نظام المجموعة فقط، يمكنك تحديد النهج التي لديك حق الوصول إليها.

وضع نظام المجموعة

إشعار

توضح هذه المقالة واجهة مستخدم أنظمة المجموعات القديمة. للحصول على معلومات حول واجهة مستخدم أنظمة المجموعات الجديدة (في المعاينة)، راجع مرجع تكوين الحساب. يتضمن ذلك بعض تغييرات المصطلحات للأنووع والأوضاع الخاصة بالوصول إلى نظام المجموعة. للمقارنة بين أنواع نظام المجموعة الجديدة والقديسة، راجع تغييرات واجهة مستخدم المجموعات وأوضاع الوصول إلى نظام المجموعة. في واجهة مستخدم المعاينة:

  • تسمى مجموعات الوضع القياسي الآن مجموعات وضع الوصول المشترك بلا عزل.
  • يسمى التزامن العالي مع قوائم التحكم بالوصول للجداول الآن مجموعات وضع الوصول المشترك.

يدعم Azure Databricks ثلاثة أوضاع نظام المجموعة: Standard و High Concurrency و Single Node. وضع نظام المجموعة الافتراضي هو قياسي.

هام

  • إذا تم تعيين مساحة العمل الخاصة بك إلى مخزن بيانات تعريف كتالوج Unity، فلن تتوفر مجموعات التزامن العالي. بدلا من ذلك، يمكنك استخدام وضع الوصول لضمان تكامل عناصر التحكم في الوصول وفرض ضمانات عزل قوية. راجع أيضا أوضاع الوصول.
  • لا يمكنك تغيير وضع نظام المجموعة بعد إنشاء نظام مجموعة. إذا كنت تريد وضع نظام مجموعة مختلف، يجب إنشاء نظام مجموعة جديد.

يتضمن تكوين نظام المجموعة إعداد إنهاء تلقائي تعتمد قيمته الافتراضية على وضع نظام المجموعة:

  • تنتهي مجموعات العقدة القياسية والفردية تلقائيا بعد 120 دقيقة بشكل افتراضي.
  • لا يتم إنهاء مجموعات التزامن العالي تلقائيا بشكل افتراضي.

أنظمة المجموعات القياسية

تحذير

يمكن مشاركة مجموعات الوضع القياسي (تسمى أحيانا بلا مجموعات مشتركة للعزل) من قبل مستخدمين متعددين، دون عزل بين المستخدمين. إذا كنت تستخدم وضع نظام المجموعة High Concurrency دون إعدادات أمان إضافية مثل Table ACLs أو Credential Passthrough، يتم استخدام نفس الإعدادات كتجمعات الوضع القياسي. يمكن لمسؤولي الحساب منع إنشاء بيانات الاعتماد الداخلية تلقائيا لمسؤولي مساحة عمل Databricks على هذه الأنواع من نظام المجموعة. للحصول على خيارات أكثر أمانا، توصي Databricks ببدائل مثل مجموعات التزامن العالية مع Table ACLs.

يوصى باستخدام نظام مجموعة قياسي للمستخدمين الفرديين فقط. يمكن للمجموعات القياسية تشغيل أحمال العمل التي تم تطويرها في Python وSQL وR وSc scala.

مجموعات عالية التزامن

نظام مجموعة التزامن العالي هو مورد سحابي مدار. تتمثل الفوائد الرئيسية لمجموعات التزامن العالي في أنها توفر مشاركة دقيقة لتحقيق أقصى استخدام للموارد والحد الأدنى من زمن انتقال الاستعلام.

يمكن لمجموعات التزامن العالي تشغيل أحمال العمل التي تم تطويرها في SQL وPython وR. يتم توفير أداء وأمان مجموعات التزامن العالي عن طريق تشغيل التعليمات البرمجية للمستخدم في عمليات منفصلة، وهو أمر غير ممكن في Scala.

بالإضافة إلى ذلك، تدعم مجموعات High Concurrency فقط التحكم في الوصول إلى الجدول.

لإنشاء نظام مجموعة عالية التزامن، قم بتعيين وضع نظام المجموعة إلى التزامن العالي.

وضع نظام مجموعة التزامن العالي

مجموعات عقدة واحدة

لا يحتوي نظام مجموعة عقدة واحدة على عمال ويعمل على تشغيل وظائف Spark على عقدة برنامج التشغيل.

في المقابل، تتطلب المجموعة القياسية عقدة عامل Spark واحدة على الأقل بالإضافة إلى عقدة برنامج التشغيل لتنفيذ مهام Spark.

لإنشاء مجموعة عقدة واحدة، قم بتعيين وضع نظام المجموعة إلى عقدة واحدة.

وضع نظام مجموعة عقدة واحدة

لمعرفة المزيد حول العمل مع مجموعات العقدة الواحدة، راجع حساب عقدة واحدة أو حوسبة متعددة العقد.

تجمعات

لتقليل وقت بدء نظام المجموعة، يمكنك إرفاق مجموعة بمجموعة معرفة مسبقا من المثيلات الخاملة، لعقد برنامج التشغيل والعامل. يتم إنشاء نظام المجموعة باستخدام مثيلات في التجمعات. إذا لم يكن لدى التجمع موارد الخامة كافية لإنشاء عقد برنامج التشغيل أو العامل المطلوبة، يتم توسيع التجمع عن طريق تخصيص مثيلات جديدة من موفر المثيل. عند إنهاء مجموعة مرفقة، يتم إرجاع المثيلات التي استخدمتها إلى التجمعات ويمكن إعادة استخدامها بواسطة مجموعة مختلفة.

إذا حددت تجمعا للعقد العاملة ولكن ليس لعقدة برنامج التشغيل، فإن عقدة برنامج التشغيل ترث التجمع من تكوين عقدة العامل.

هام

إذا حاولت تحديد تجمع لعقدة برنامج التشغيل ولكن ليس للعقد العاملة، يحدث خطأ ولا يتم إنشاء نظام المجموعة الخاص بك. يمنع هذا المطلب الموقف الذي يجب أن تنتظر فيه عقد برنامج التشغيل حتى يتم إنشاء العقد العاملة، أو العكس.

راجع مرجع تكوين التجمع لمعرفة المزيد حول العمل مع التجمعات في Azure Databricks.

وقت تشغيل Databricks

أوقات تشغيل Databricks هي مجموعة من المكونات الأساسية التي تعمل على مجموعاتك. تتضمن جميع أوقات تشغيل Databricks Apache Spark وإضافة مكونات وتحديثات تحسن قابلية الاستخدام والأداء والأمان. للحصول على التفاصيل، راجع إصدارات ملاحظات إصدار Databricks Runtime والتوافق.

يوفر Azure Databricks عدة أنواع من أوقات التشغيل والعديد من إصدارات أنواع وقت التشغيل هذه في القائمة المنسدلة Databricks Runtime Version عند إنشاء نظام مجموعة أو تحريره.

حدد إصدار وقت التشغيل

تسريع الفوتون

الفوتون متاح للمجموعات التي تقوم بتشغيل Databricks Runtime 9.1 LTS والإصدارات الأحدث.

لتمكين تسريع Photon، حدد خانة الاختيار Use Photon Acceleration .

إذا رغبت في ذلك، يمكنك تحديد نوع المثيل في القائمة المنسدلة نوع العامل ونوع برنامج التشغيل.

توصي Databricks بأنواع المثيلات التالية للحصول على السعر والأداء الأمثل:

  • Standard_E4ds_v4
  • Standard_E8ds_v4
  • Standard_E16ds_v4

يمكنك عرض نشاط Photon في واجهة مستخدم Spark. تظهر لقطة الشاشة التالية تفاصيل الاستعلام DAG. هناك مؤشران للفوتون في DAG. أولا، تبدأ عوامل تشغيل Photon ب "Photon"، على سبيل المثال، PhotonGroupingAgg. ثانيا، في DAG، تكون عوامل تشغيل الفوتون والمراحل خوخ ملونة، بينما تكون العناصر غير الفوتونية باللون الأزرق.

Photon DAG

صور Docker

بالنسبة لبعض إصدارات وقت تشغيل Databricks، يمكنك تحديد صورة Docker عند إنشاء نظام مجموعة. تتضمن أمثلة حالات الاستخدام تخصيص المكتبة وبيئة حاوية ذهبية لا تتغير وتكامل Docker CI/CD.

يمكنك أيضا استخدام صور Docker لإنشاء بيئات تعلم عميق مخصصة على أنظمة المجموعات باستخدام أجهزة GPU.

للحصول على إرشادات، راجع تخصيص الحاويات باستخدام Databricks Container Service وDatabricks Container Services على حساب GPU.

نوع عقدة نظام المجموعة

تتكون المجموعة من عقدة برنامج تشغيل واحدة وعقد عاملة صفرية أو أكثر.

يمكنك اختيار أنواع مثيل موفر السحابة المنفصلة لعقد برنامج التشغيل والعامل، على الرغم من أن عقدة برنامج التشغيل تستخدم بشكل افتراضي نفس نوع المثيل مثل عقدة العامل. تناسب مجموعات مختلفة من أنواع المثيلات حالات استخدام مختلفة، مثل أحمال العمل كثيفة الذاكرة أو كثيفة الحوسبة.

إشعار

إذا كانت متطلبات الأمان الخاصة بك تتضمن عزل الحساب، فحدد مثيل Standard_F72s_V2 كنوع العامل الخاص بك. تمثل أنواع المثيلات هذه الأجهزة الظاهرية المعزولة التي تستهلك المضيف الفعلي بأكمله وتوفر المستوى اللازم من العزل المطلوب لدعم، على سبيل المثال، أحمال عمل مستوى التأثير 5 (IL5) لوزارة الدفاع الأمريكية.

عقدة برنامج التشغيل

تحتفظ عقدة برنامج التشغيل بمعلومات حالة جميع دفاتر الملاحظات المرفقة بالمجموعة. تحتفظ عقدة برنامج التشغيل أيضا ب SparkContext وتفسر جميع الأوامر التي تقوم بتشغيلها من دفتر ملاحظات أو مكتبة على نظام المجموعة، وتشغل Apache Spark master الذي ينسق مع منفذي Spark.

القيمة الافتراضية لنوع عقدة برنامج التشغيل هي نفس نوع عقدة العامل. يمكنك اختيار نوع عقدة برنامج تشغيل أكبر مع ذاكرة أكبر إذا كنت تخطط للحصول على collect() الكثير من البيانات من عمال Spark وتحليلها في دفتر الملاحظات.

تلميح

نظرا لأن عقدة برنامج التشغيل تحتفظ بجميع معلومات حالة دفاتر الملاحظات المرفقة، تأكد من فصل دفاتر الملاحظات غير المستخدمة من عقدة برنامج التشغيل.

العقدة العاملة

تشغل عقد عامل Azure Databricks منفذي Spark والخدمات الأخرى المطلوبة للأداء السليم للمجموعات. عند توزيع حمل العمل الخاص بك مع Spark، تحدث جميع المعالجة الموزعة على العقد العاملة. يقوم Azure Databricks بتشغيل منفذ واحد لكل عقدة عاملة؛ لذلك يتم استخدام المصطلحين المنفذ والعامل بالتبادل في سياق بنية Azure Databricks.

تلميح

لتشغيل وظيفة Spark، تحتاج إلى عقدة عاملة واحدة على الأقل. إذا كان نظام المجموعة يحتوي على صفر عامل، يمكنك تشغيل أوامر غير Spark على عقدة برنامج التشغيل، ولكن ستفشل أوامر Spark.

أنواع مثيلات GPU

بالنسبة للمهام الصعبة حسابيا التي تتطلب أداء عاليا، مثل تلك المرتبطة بالتعلم العميق، يدعم Azure Databricks المجموعات المتسارعة مع وحدات معالجة الرسومات (GPUs). لمزيد من المعلومات، راجع الحوسبة الممكنة بواسطة وحدة معالجة الرسومات.

المثيلات الموضعية

لتوفير التكلفة، يمكنك اختيار استخدام المثيلات الموضعية، والمعروفة أيضا باسم Azure Spot VMs عن طريق تحديد خانة الاختيار مثيلات Spot.

تكوين الموضع

سيكون المثيل الأول دائما عند الطلب (عقدة برنامج التشغيل دائما عند الطلب) وستكون المثيلات اللاحقة مثيلات موضعية. إذا تم إخلاء المثيلات الموضعية بسبب عدم التوفر، يتم نشر المثيلات عند الطلب لاستبدال المثيلات التي تم إخلاؤها.

حجم نظام المجموعة والتحجيم التلقائي

عند إنشاء نظام مجموعة Azure Databricks، يمكنك إما توفير عدد ثابت من العاملين للمجموعة أو توفير الحد الأدنى والحد الأقصى لعدد العاملين للمجموعة.

عند توفير مجموعة ذات حجم ثابت، يضمن Azure Databricks أن مجموعتك تحتوي على العدد المحدد من العمال. عند توفير نطاق لعدد العمال، يختار Databricks العدد المناسب من العمال المطلوبين لتشغيل وظيفتك. ويشار إلى هذا باسم التحجيم التلقائي.

مع التحجيم التلقائي، يقوم Azure Databricks بإعادة تخصيص العمال ديناميكيا لحساب خصائص وظيفتك. قد تكون أجزاء معينة من البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك أكثر تطلبا من غيرها من الناحية الحسابية، ويضيف Databricks تلقائيا عمالا إضافيين خلال هذه المراحل من وظيفتك (ويزيلها عندما لا تكون هناك حاجة إليها).

يجعل التحجيم التلقائي من السهل تحقيق استخدام نظام المجموعة العالي، لأنك لا تحتاج إلى توفير نظام المجموعة لمطابقة حمل العمل. ينطبق هذا بشكل خاص على أحمال العمل التي تتغير متطلباتها بمرور الوقت (مثل استكشاف مجموعة بيانات خلال اليوم)، ولكن يمكن أن تنطبق أيضا على حمل عمل أقصر لمرة واحدة تكون متطلبات التوفير الخاصة به غير معروفة. وبالتالي، يوفر التوسع التلقائي ميزتين:

  • يمكن تشغيل أحمال العمل بشكل أسرع مقارنة بالمجموعة غير المتوفرة بأحجام ثابتة.
  • يمكن أن تقلل مجموعات التحجيم التلقائي من التكاليف الإجمالية مقارنة بمجموعة بحجم ثابت.

اعتمادا على الحجم الثابت للمجموعة وعبء العمل، يمنحك التحجيم التلقائي إحدى هاتين المزايا أو كليهما في نفس الوقت. يمكن أن يقل حجم نظام المجموعة عن الحد الأدنى لعدد العاملين المحددين عند إنهاء موفر السحابة للمثيلات. في هذه الحالة، يعيد Azure Databricks المحاولة باستمرار لإعادة توفير المثيلات من أجل الحفاظ على الحد الأدنى لعدد العمال.

إشعار

لا يتوفر التحجيم التلقائي للوظائف spark-submit .

كيفية عمل التحجيم التلقائي

  • يتدرج من الحد الأدنى إلى الحد الأقصى في خطوتين.
  • يمكن تقليص الحجم حتى إذا لم تكن المجموعة خاملة من خلال النظر في حالة ملف التبديل العشوائي.
  • يتدرج استنادا إلى نسبة مئوية من العقد الحالية.
  • في مجموعات الوظائف، يتم تقليص الحجم إذا لم يتم استخدام نظام المجموعة بشكل صحيح على مدى ال 40 ثانية الماضية.
  • في أنظمة المجموعات ذات الأغراض كافة، يتم تقليص الحجم إذا لم يتم استخدام نظام المجموعة بشكل كامل خلال آخر 150 ثانية.
  • spark.databricks.aggressiveWindowDownS تحدد خاصية تكوين Spark بالثوان عدد المرات التي يتخذ فيها نظام المجموعة قرارات تقليص الحجم. تؤدي زيادة القيمة إلى تقليص المجموعة ببطء أكبر. الحد الأقصى للقيمة هو 600.

تمكين التحجيم التلقائي وتكوينه

للسماح ل Azure Databricks بتغيير حجم مجموعتك تلقائيا، يمكنك تمكين التحجيم التلقائي للمجموعة وتوفير الحد الأدنى والحد الأقصى من العاملين.

  1. تمكين التوسع التلقائي.

    • مجموعة All-Purpose - في صفحة Create Cluster، حدد خانة الاختيار Enable autoscaling في المربع Autopilot Options :

      تمكين التحجيم التلقائي للمجموعات التفاعلية

    • مجموعة الوظائف - في صفحة تكوين نظام المجموعة، حدد خانة الاختيار تمكين التحجيم التلقائي في المربع خيارات Autopilot:

      تمكين التحجيم التلقائي لمجموعات الوظائف

  2. تكوين الحد الأدنى والحد الأقصى للعمال.

    تكوين الحد الأدنى والحد الأقصى للعمال

    عند تشغيل نظام المجموعة، تعرض صفحة تفاصيل نظام المجموعة عدد العمال المخصصين. يمكنك مقارنة عدد العمال المخصصين بتكوين العامل وإجراء التعديلات حسب الحاجة.

هام

إذا كنت تستخدم تجمع مثيل:

  • تأكد من أن حجم نظام المجموعة المطلوب أقل من أو يساوي الحد الأدنى لعدد المثيلات الخاملة في التجمع. إذا كان أكبر، فسيكون وقت بدء تشغيل نظام المجموعة مكافئا لنظام مجموعة لا يستخدم تجمعا.
  • تأكد من أن الحد الأقصى لحجم نظام المجموعة أقل من أو يساوي الحد الأقصى لسعة التجمع. إذا كان أكبر، فسيفشل إنشاء نظام المجموعة.

مثال التحجيم التلقائي

إذا قمت بإعادة تكوين مجموعة ثابتة لتكون مجموعة مقياس تلقائي، يقوم Azure Databricks على الفور بتغيير حجم نظام المجموعة ضمن الحد الأدنى والحد الأقصى ثم يبدأ التحجيم التلقائي. على سبيل المثال، يوضح الجدول التالي ما يحدث للمجموعات ذات حجم أولي معين إذا قمت بإعادة تكوين نظام مجموعة للتحجيم التلقائي بين 5 و10 عقد.

الحجم الأولي الحجم بعد إعادة التكوين
6 6
12 10
3 5

التحجيم التلقائي للتخزين المحلي

قد يكون من الصعب في كثير من الأحيان تقدير مقدار مساحة القرص التي ستستغرقها مهمة معينة. لحفظك من الاضطرار إلى تقدير عدد الجيجابايت من القرص المدار لإرفاقه بمجمعك في وقت الإنشاء، تمكن Azure Databricks تلقائيا التخزين المحلي للتحجيم التلقائي على جميع مجموعات Azure Databricks.

مع التخزين المحلي للتحجيم التلقائي، يراقب Azure Databricks مقدار مساحة القرص الخالية المتوفرة على عمال Spark في نظام المجموعة. إذا بدأ العامل في التشغيل منخفضا جدا على القرص، يقوم Databricks تلقائيا بإرفاق قرص مدار جديد بالعامل قبل نفاد مساحة القرص. يتم إرفاق الأقراص بحد أقصى 5 ТБ من إجمالي مساحة القرص لكل جهاز ظاهري (بما في ذلك التخزين المحلي الأولي للجهاز الظاهري).

يتم فصل الأقراص المدارة المرفقة بجهاز ظاهري فقط عند إرجاع الجهاز الظاهري إلى Azure. أي أنه لا يتم فصل الأقراص المدارة أبدا عن جهاز ظاهري طالما أنه جزء من نظام مجموعة قيد التشغيل. لتقليل استخدام القرص المدار، توصي Azure Databricks باستخدام هذه الميزة في مجموعة مكونة بحجم نظام المجموعة والتحجيم التلقائي أو الإنهاء غير المتوقع.

تشفير القرص المحلي

هام

هذه الميزة في المعاينة العامة.

قد تحتوي بعض أنواع المثيلات التي تستخدمها لتشغيل أنظمة المجموعات على أقراص مرفقة محليا. قد يخزن Azure Databricks بيانات عشوائية أو بيانات سريعة الزوال على هذه الأقراص المرفقة محليا. للتأكد من تشفير جميع البيانات الثابتة لجميع أنواع التخزين، بما في ذلك تبديل البيانات المخزنة مؤقتا على الأقراص المحلية لنظام المجموعة، يمكنك تمكين تشفير القرص المحلي.

هام

قد تعمل أحمال العمل الخاصة بك ببطء أكبر بسبب تأثير أداء قراءة وكتابة البيانات المشفرة من وإلى وحدات التخزين المحلية.

عند تمكين تشفير القرص المحلي، ينشئ Azure Databricks مفتاح تشفير محليا فريدا لكل عقدة نظام مجموعة ويستخدم لتشفير جميع البيانات المخزنة على الأقراص المحلية. نطاق المفتاح محلي لكل عقدة نظام مجموعة ويتم إتلافه مع عقدة نظام المجموعة نفسها. خلال مدة بقائه، يتواجد المفتاح في الذاكرة للتشفير وفك التشفير ويتم تخزينه مشفرا على القرص.

لتمكين تشفير القرص المحلي، يجب استخدام واجهة برمجة تطبيقات أنظمة المجموعات. أثناء إنشاء نظام المجموعة أو تحريرها، قم بتعيين:

{
  "enable_local_disk_encryption": true
}

راجع واجهة برمجة تطبيقات المجموعات للحصول على أمثلة حول كيفية استدعاء واجهات برمجة التطبيقات هذه.

فيما يلي مثال على استدعاء إنشاء نظام المجموعة الذي يمكن تشفير القرص المحلي:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

وضع الأمان

إذا تم تعيين مساحة العمل الخاصة بك إلى مخزن بيانات تعريف كتالوج Unity، يمكنك استخدام وضع الأمان بدلا من وضع نظام مجموعة التزامن العالي لضمان تكامل عناصر التحكم في الوصول وفرض ضمانات عزل قوية. لا يتوفر وضع مجموعة التزامن العالي مع كتالوج Unity.

ضمن خيارات متقدمة، حدد من أوضاع أمان نظام المجموعة التالية:

  • بلا: لا عزل. لا يفرض التحكم في الوصول إلى الجدول المحلي لمساحة العمل أو تمرير بيانات الاعتماد. يتعذر الوصول إلى بيانات كتالوج Unity.
  • مستخدم واحد: يمكن استخدامه من قبل مستخدم واحد فقط (بشكل افتراضي، المستخدم الذي أنشأ نظام المجموعة). لا يمكن للمستخدمين الآخرين إرفاق نظام المجموعة. عند الوصول إلى طريقة عرض من نظام مجموعة مع وضع أمان مستخدم واحد، يتم تنفيذ طريقة العرض بأذونات المستخدم. تدعم مجموعات المستخدمين الفرديين أحمال العمل باستخدام Python وSc scala وR. يتم دعم البرامج النصية Init وتثبيت المكتبة وتركيبات DBFS على مجموعات المستخدم الفردي. يجب أن تستخدم الوظائف التلقائية مجموعات مستخدم واحد.
  • عزل المستخدم: يمكن مشاركته من قبل عدة مستخدمين. يتم دعم أحمال عمل SQL فقط. يتم تعطيل تثبيت المكتبة والبرامج النصية init وتركيبات DBFS لفرض العزل الصارم بين مستخدمي نظام المجموعة.
  • جدول ACL فقط (قديم): يفرض التحكم في الوصول إلى الجدول المحلي لمساحة العمل، ولكن لا يمكنه الوصول إلى بيانات كتالوج Unity.
  • Passthrough فقط (قديم): يفرض تمرير بيانات الاعتماد المحلية لمساحة العمل، ولكن لا يمكنه الوصول إلى بيانات كتالوج Unity.

أوضاع الأمان الوحيدة المدعومة لأحمال عمل كتالوج Unity هي عزل المستخدم الفردي والمستخدم.

لمزيد من المعلومات، راجع أوضاع Access.

تكوين Spark

لضبط مهام Spark، يمكنك توفير خصائص تكوين Spark مخصصة في تكوين نظام المجموعة.

  1. في صفحة تكوين نظام المجموعة، انقر فوق تبديل خيارات متقدمة.

  2. انقر فوق علامة التبويب Spark.

    تكوين Spark

    في تكوين Spark، أدخل خصائص التكوين كزوج قيمة مفتاح واحد لكل سطر.

عند تكوين نظام مجموعة باستخدام واجهة برمجة تطبيقات نظام المجموعة، قم بتعيين خصائص Spark في spark_conf الحقل في Create new cluster API أو Update cluster configuration API.

لا توصي Databricks باستخدام البرامج النصية للتثبيت العمومي.

لتعيين خصائص Spark لجميع المجموعات، قم بإنشاء برنامج نصي عام للتهيئة:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

استرداد خاصية تكوين Spark من سر

توصي Databricks بتخزين المعلومات الحساسة، مثل كلمات المرور، في بيانات سرية بدلا من نص عادي. للإشارة إلى سر في تكوين Spark، استخدم بناء الجملة التالي:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

على سبيل المثال، لتعيين خاصية تكوين Spark التي تم استدعاؤها password إلى قيمة السر المخزن في secrets/acme_app/password:

spark.password {{secrets/acme-app/password}}

لمزيد من المعلومات، راجع بناء الجملة للإشارة إلى الأسرار في خاصية تكوين Spark أو متغير البيئة.

متغيرات البيئة

يمكنك تكوين متغيرات البيئة المخصصة التي يمكنك الوصول إليها من البرامج النصية init التي تعمل على نظام مجموعة. يوفر Databricks أيضا متغيرات بيئة محددة مسبقا يمكنك استخدامها في البرامج النصية init. لا يمكنك تجاوز متغيرات البيئة المعرفة مسبقا هذه.

  1. في صفحة تكوين نظام المجموعة، انقر فوق تبديل خيارات متقدمة.

  2. انقر فوق علامة التبويب Spark.

  3. تعيين متغيرات البيئة في حقل متغيرات البيئة.

    حقل متغيرات البيئة

يمكنك أيضا تعيين متغيرات البيئة باستخدام spark_env_vars الحقل في Create new cluster API أو Update cluster configuration API.

علامات نظام المجموعة

تسمح لك علامات نظام المجموعة بمراقبة تكلفة موارد السحابة المستخدمة من قبل مجموعات مختلفة في مؤسستك بسهولة. يمكنك تحديد العلامات كأزواج قيم المفاتيح عند إنشاء مجموعة، ويطبق Azure Databricks هذه العلامات على موارد السحابة مثل الأجهزة الظاهرية ووحدات تخزين القرص، بالإضافة إلى تقارير استخدام DBU.

بالنسبة للمجموعات التي تم تشغيلها من التجمعات، يتم تطبيق علامات نظام المجموعة المخصصة فقط على تقارير استخدام DBU ولا يتم نشرها إلى موارد السحابة.

للحصول على معلومات مفصلة حول كيفية عمل أنواع علامات المجموعة والتجمع معا، راجع مراقبة الاستخدام باستخدام العلامات.

للراحة، يطبق Azure Databricks أربع علامات افتراضية على كل مجموعة: Vendorو CreatorClusterNameو وClusterId.

بالإضافة إلى ذلك، في مجموعات الوظائف، يطبق Azure Databricks اثنتين من العلامات الافتراضية: RunName و JobId.

على الموارد المستخدمة من قبل Databricks SQL، يطبق Azure Databricks أيضا العلامة SqlWarehouseIdالافتراضية .

تحذير

لا تقم بتعيين علامة مخصصة مع المفتاح Name إلى نظام مجموعة. تحتوي كل مجموعة على علامة Name يتم تعيين قيمتها بواسطة Azure Databricks. إذا قمت بتغيير القيمة المقترنة بالمفتاح Name، فلن يمكن تعقب نظام المجموعة بواسطة Azure Databricks. ونتيجة لذلك، قد لا يتم إنهاء المجموعة بعد أن تصبح الخامة وستستمر في تحمل تكاليف الاستخدام.

يمكنك إضافة علامات مخصصة عند إنشاء نظام مجموعة. لتكوين علامات نظام المجموعة:

  1. في صفحة تكوين نظام المجموعة، انقر فوق تبديل خيارات متقدمة.

  2. في أسفل الصفحة، انقر فوق علامة التبويب علامات .

    علامة التبويب علامات

  3. إضافة زوج قيم المفاتيح لكل علامة مخصصة. يمكنك إضافة ما يصل إلى 43 علامة مخصصة.

وصول SSH إلى المجموعات

لأسباب أمنية، في Azure Databricks يتم إغلاق منفذ SSH بشكل افتراضي. إذا كنت ترغب في تمكين وصول SSH إلى مجموعات Spark، فاتصل بدعم Azure Databricks.

إشعار

يمكن تمكين SSH فقط إذا تم نشر مساحة العمل الخاصة بك في شبكة Azure الظاهرية الخاصة بك.

تسليم سجل نظام المجموعة

عند إنشاء نظام مجموعة، يمكنك تحديد موقع لتسليم سجلات عقدة برنامج تشغيل Spark وعقد العامل والأحداث. يتم تسليم السجلات كل خمس دقائق إلى الوجهة التي اخترتها. عند إنهاء نظام مجموعة، يضمن Azure Databricks تسليم جميع السجلات التي تم إنشاؤها حتى يتم إنهاء نظام المجموعة.

تعتمد وجهة السجلات على معرف نظام المجموعة. إذا كانت الوجهة المحددة هي dbfs:/cluster-log-delivery، يتم تسليم سجلات نظام المجموعة ل 0630-191345-leap375 إلى dbfs:/cluster-log-delivery/0630-191345-leap375.

لتكوين موقع تسليم السجل:

  1. في صفحة تكوين نظام المجموعة، انقر فوق تبديل خيارات متقدمة.

  2. انقر فوق علامة التبويب تسجيل.

    تسليم سجل نظام المجموعة

  3. حدد نوع الوجهة.

  4. أدخل مسار سجل نظام المجموعة.

إشعار

تتوفر هذه الميزة أيضا في واجهة برمجة تطبيقات REST. راجع واجهة برمجة تطبيقات المجموعات.

البرامج النصية Init

تهيئة عقدة نظام المجموعة - أو init - هو برنامج نصي shell يتم تشغيله أثناء بدء التشغيل لكل عقدة نظام مجموعة قبل بدء تشغيل برنامج تشغيل Spark أو JVM العامل. يمكنك استخدام البرامج النصية للتهيئة لتثبيت الحزم والمكتبات غير المضمنة في وقت تشغيل Databricks، أو تعديل مسار فئة نظام JVM، أو تعيين خصائص النظام ومتغيرات البيئة المستخدمة من قبل JVM، أو تعديل معلمات تكوين Spark، من بين مهام التكوين الأخرى.

يمكنك إرفاق البرامج النصية init إلى مجموعة عن طريق توسيع قسم Advanced Options والنقر فوق علامة التبويب Init Scripts .

للحصول على إرشادات مفصلة، راجع ما هي البرامج النصية للتثبيت؟.