أفضل الممارسات: تكوين الكتلة

يوفر Azure Databricks عددا من الخيارات عند إنشاء وتكوين الكتل لمساعدتك في الحصول على أفضل أداء بأقل تكلفة. ومع ذلك، يمكن لهذه المرونة أن تخلق تحديات عندما تحاول تحديد التكوينات المثلى لأحمال العمل. النظر بعناية كيف سيستخدم المستخدمون الكتل سيساعد في توجيه خيارات التكوين عند إنشاء كتل جديدة أو تكوين الكتل الموجودة. بعض الأشياء التي يجب مراعاتها عند تحديد خيارات التكوين هي:

  • ما نوع المستخدم الذي سيستخدم نظام المجموعة؟ قد يقوم عالم البيانات بتشغيل أنواع وظائف مختلفة بمتطلبات مختلفة عن مهندس بيانات أو محلل بيانات.
  • ما هي أنواع أحمال العمل التي سيقوم المستخدمون بتشغيلها على نظام المجموعة؟ على سبيل المثال، من المحتمل أن يكون لوظائف استخراج الدفعات وتحويلها وتحميلها متطلبات مختلفة عن أعباء العمل التحليلية.
  • ما هو مستوى اتفاقية مستوى الخدمة (SLA) التي تحتاج إلى تلبيتها؟
  • ما هي قيود الميزانية لديك؟

توفر هذه المقالة توصيات تكوين الكتلة لسيناريوهات مختلفة استنادا إلى هذه الاعتبارات. تتناول هذه المقالة أيضا ميزات محددة من مجموعات Azure Databricks والاعتبارات التي يجب وضعها في الاعتبار لهذه الميزات.

تتطلب قرارات التكوين المفاضلة بين التكلفة والأداء. تتضمن التكلفة الأساسية للكتلة وحدات Databricks (DBUs) المستهلكة من قبل الكتلة وتكلفة الموارد الأساسية اللازمة لتشغيل الكتلة. ما قد لا يكون واضحا هي التكاليف الثانوية مثل التكلفة التي تتحملها عملك من عدم تلبية جيش تحرير السودان ، وانخفاض كفاءة الموظف ، أو الهدر المحتمل للموارد بسبب سوء الضوابط.

ميزات الكتلة

قبل مناقشة سيناريوهات تكوين الكتلة أكثر تفصيلا، من المهم فهم بعض ميزات مجموعات Azure Databricks وأفضل طريقة لاستخدام هذه الميزات.

مجموعات الأغراض كافة و مجموعات الوظائف

عند إنشاء كتلة حدد نوع كتلة: كتلة لجميع الأغراض أو كتلة مهمة. يمكن مشاركة المجموعات متعددة الأغراض من قبل مستخدمين متعددين وهي الأفضل لإجراء تحليل مخصص أو استكشاف البيانات أو التطوير. بمجرد الانتهاء من تنفيذ المعالجة الخاصة بك والاستعداد لتشغيل التعليمات البرمجية الخاصة بك، قم بالتبديل إلى تشغيلها على مجموعة مهام. تنتهي مجموعات الوظائف عند انتهاء المهمة، مما يقلل من استخدام الموارد والتكلفة.

وضع الكتلة

يدعم Azure Databricks ثلاثة أوضاع نظام المجموعة:قياسية، التزامن العالي، وعقدة واحدة. يستخدم معظم المستخدمين العادية الكتل القياسية أو عقدة واحدة.

  • تعتبر المجموعات القياسية مثالية لمعالجة كميات كبيرة من البيانات باستخدام Apache Spark.
  • مجموعات عقدة واحدة مخصصة للوظائف التي تستخدم كميات صغيرة من البيانات أو أحمال العمل غير الموزعة مثل مكتبات التعلم الآلي عقدة واحدة.
  • تعتبر مجموعات التزامن العالية مثالية لمجموعات المستخدمين الذين يحتاجون إلى مشاركة الموارد أو تشغيل مهام مخصصة. يقوم المسؤولون عادة بإنشاء مجموعات التزامن العالي. توصي مجمعات البيانات بتمكين التحجيم التلقائي لمجموعات التزامن العالية.

حالات عند الطلب وحالات فورية

لتوفير التكلفة، يدعم Azure Databricks إنشاء مجموعات باستخدام مجموعة من مثيلات عند الطلب والمثيلات الفورية. يمكنك استخدام مثيلات spot للاستفادة من السعة غير المستخدمة على Azure لتقليل تكلفة تشغيل التطبيقات الخاصة بك، وزيادة سعة حساب التطبيق الخاص بك، وزيادة الإنتاجية.

التكلس التلقائي

يسمح التحجيم التلقائي للتجمعات تغيير الحجم تلقائيا استنادا إلى أحمال العمل. يمكن أن يفيد التحجيم التلقائي العديد من حالات الاستخدام والسيناريوهات من منظور التكلفة والأداء، ولكن قد يكون من الصعب فهم متى وكيف تستخدم التحجيم التلقائي. فيما يلي بعض الاعتبارات لتحديد ما إذا كان يجب استخدام autoscaling وكيفية الحصول على أكبر قدر من الفائدة:

  • عادة ما يقلل التحجيم التلقائي التكاليف مقارنة بمجموعة ثابتة الحجم.
  • يمكن تشغيل أحمال العمل التحجيم التلقائي أسرع مقارنة مع كتلة ذات حجم ثابت أقل من توفير.
  • بعض أعباء العمل غير متوافقة مع مجموعات التحجيم التلقائي، بما في ذلك وظائف إرسال الشرارة وبعض حزم الثعبان.
  • مع مجموعات المستخدم الواحد لجميع الأغراض ، قد يجد المستخدمون أن التحجيم التلقائي يبطئ تطورهم أو تحليلهم عندما يتم تعيين الحد الأدنى لعدد العمال منخفضا جدا. ويرجع ذلك إلى أن الأوامر أو الاستعلامات التي يقومون بتشغيلها غالبا ما تكون متباعدة عدة دقائق، والوقت الذي تكون فيه الكتلة خاملة وقد يتم تقليصها لتوفير التكاليف. عند تنفيذ الأمر التالي، سيحاول مدير الكتلة توسيع نطاق، مع أخذ بضع دقائق أثناء استرداد المثيلات من موفر مجموعة النظراء. خلال هذا الوقت، قد يتم تشغيل المهام بموارد غير كافية، مما يؤدي إلى إبطاء الوقت لاسترداد النتائج. وفي حين أن زيادة الحد الأدنى لعدد العمال يساعد، فإنه يزيد أيضا من التكلفة. وهذا مثال آخر على ضرورة موازنة التكلفة والأداء.
  • إذا كان يتم استخدام التخزين المؤقت دلتا، من المهم أن نتذكر أن يتم فقدان أية بيانات المخزنة مؤقتا على عقدة إذا تم إنهاء تلك العقدة. إذا كان الاحتفاظ بالبيانات المخزنة مؤقتا مهما لعبء العمل، ففكر في استخدام كتلة ثابتة الحجم.
  • إذا كان لديك كتلة مهمة تشغيل حمل عمل ETL، يمكنك أحيانا حجم الكتلة بشكل مناسب عند ضبط إذا كنت تعرف المهمة الخاصة بك من غير المحتمل أن تتغير. ومع ذلك، يمنحك التحجيم التلقائي مرونة إذا زادت أحجام البيانات. تجدر الإشارة أيضا إلى أن التحجيم التلقائي الأمثل يمكن أن يقلل من النفقات مع الوظائف طويلة الأمد إذا كانت هناك فترات طويلة عندما يكون نظام المجموعة غير مستغل بشكل صحيح أو في انتظار النتائج من عملية أخرى. مرة أخرى، على الرغم من ذلك، قد تواجه المهمة تأخيرات طفيفة كما يحاول الكتلة لتوسيع نطاق بشكل مناسب. إذا كان لديك SLAs ضيق لوظيفة، قد يكون كتلة ثابتة الحجم خيار أفضل أو النظر في استخدام تجمع Azure Databricks لتقليل أوقات بدء الكتلة.

يدعم Azure Databricks أيضا التخزين المحلي للتحجيم التلقائي. مع التخزين المحلي التلقائي، تراقب Azure Databricks مقدار المساحة الحرة المتوفرة على القرص على عمال Spark في نظام المجموعة. إذا بدأ عامل تشغيل منخفض على القرص، يقوم Azure Databricks تلقائيا بإرفاق وحدة تخزين مدارة جديدة بالعامل قبل نفاد مساحة القرص.

برك

تقلل المسابح من أوقات بدء الكتلة وتوسيع نطاقها من خلال الاحتفاظ بمجموعة من المثيلات المتوفرة الجاهزة للاستخدام. توصي مجمعات البيانات بالاستفادة من المجمعات لتحسين وقت المعالجة مع تقليل التكلفة إلى أدنى حد.

إصدارات وقت التشغيل ل Databricks

توصي Databricks باستخدام أحدث إصدار Databricks وقت التشغيل للتجمعات لجميع الأغراض. استخدام أحدث إصدار سيضمن لك أحدث التحسينات والتوافق الأكثر حداثة بين التعليمات البرمجية وحزم محملة مسبقا.

بالنسبة لمجموعات الوظائف التي تشغل أعباء العمل التشغيلية، فكر في استخدام إصدار Databricks Databricks (LTS) لفترة طويلة. سيضمن استخدام إصدار LTS عدم تعرضك لمشكلات التوافق، كما يمكنه اختبار حمل العمل قبل الترقية. إذا كان لديك حالة استخدام متقدمة حول التعلم الآلي أو علم الجينوم، ففكر في إصدارات Databricks Runtime المتخصصة.

نهج الكتلة

تسمح نهج الكتلة Azure Databricks المسؤولين لفرض عناصر التحكم على إنشاء وتكوين الكتل. توصي Databricks باستخدام نهج المجموعات للمساعدة في تطبيق التوصيات التي تمت مناقشتها في هذا الدليل. تعرف على المزيد حول نهج الكتلة في دليل أفضل الممارسات لسياسات الكتلة.

الإنهاء التلقائي

لن يفكر العديد من المستخدمين في إنهاء مجموعاتهم عند الانتهاء من استخدامها. لحسن الحظ، يتم إنهاء الكتل تلقائيا بعد فترة محددة، مع افتراضية من 120 دقيقة.

يمكن للمسؤولين تغيير هذا الإعداد الافتراضي عند إنشاء نهج نظام المجموعة. تقليل هذا الإعداد يمكن أن تخفض التكلفة عن طريق تقليل الوقت الذي الكتل خاملة. من المهم أن نتذكر أنه عند إنهاء كتلة يتم فقدان كافة الحالات، بما في ذلك كافة المتغيرات والجداول المؤقتة ومخابئ الوظائف والكائنات وهكذا دواليك. كل هذه الحالة سوف تحتاج إلى استعادة عند بدء تشغيل الكتلة مرة أخرى. إذا خرج مطور لقضاء استراحة غداء لمدة 30 دقيقة ، فسيكون من الإسراف قضاء نفس القدر من الوقت في إعادة دفتر الملاحظات إلى نفس الحالة كما كان من قبل.

هام

تستمر الكتل الخاملة في تجميع رسوم مثيل DBU والسحابة أثناء فترة عدم النشاط قبل الإنهاء.

جمع القمامة

في حين أنه قد يكون أقل وضوحا من الاعتبارات الأخرى التي تمت مناقشتها في هذه المقالة، يمكن أن يساعد الانتباه إلى جمع البيانات المهملة في تحسين أداء المهمة على المجموعات الخاصة بك. يمكن أن يساعد توفير كمية كبيرة من ذاكرة الوصول العشوائي في أداء المهام بشكل أكثر كفاءة ولكن يمكن أن يؤدي أيضا إلى تأخير أثناء جمع البيانات المهملة.

لتقليل تأثير عمليات مسح تجميع البيانات المهملة الطويلة، تجنب نشر الكتل ذات كميات كبيرة من ذاكرة الوصول العشوائي التي تم تكوينها لكل مثيل. وجود ذاكرة وصول عشوائي أكثر المخصصة للمنفذ سيؤدي إلى أوقات أطول لجمع البيانات المهملة. بدلا من ذلك، تكوين مثيلات ذات أحجام ذاكرة الوصول العشوائي أصغر ونشر مثيلات أكثر إذا كنت بحاجة إلى ذاكرة أكثر للوظائف الخاصة بك. ومع ذلك، هناك حالات حيث يوصى عقد أقل مع ذاكرة الوصول العشوائي أكثر، على سبيل المثال، أعباء العمل التي تتطلب الكثير من المراوغات، كما هو موضح في اعتبارات تغيير حجم الكتلة.

التحكم في الوصول إلى الكتلة

يمكنك تكوين نوعين من أذونات نظام المجموعة:

  • يتحكم إذن السماح بإنشاء الكتلة في قدرة المستخدمين على إنشاء كتل.
  • تتحكم أذونات مستوى الكتلة في القدرة على استخدام كتلة معينة وتعديلها.

لمعرفة المزيد حول تكوين أذونات نظام المجموعة، راجع التحكم في الوصول إلى نظام المجموعة.

يمكنك إنشاء كتلة إذا كان لديك إما نظام المجموعة إنشاء أذونات أو الوصول إلى نهج نظام مجموعة، والذي يسمح لك بإنشاء أي كتلة ضمن مواصفات النهج. منشئ الكتلة هو المالك ولديه أذونات إدارة يمكن، والتي ستمكنهم من مشاركتها مع أي مستخدم آخر ضمن قيود أذونات الوصول إلى البيانات من الكتلة.

فهم أذونات الكتلة و نهج الكتلة مهمة عند اتخاذ قرار بشأن تكوينات الكتلة للسيناريوهات الشائعة.

علامات الكتلة

تسمح لك علامات الكتلة بمراقبة تكلفة موارد السحابة التي تستخدمها مجموعات مختلفة في مؤسستك بسهولة. يمكنك تحديد العلامات كسلاسل قيمة المفتاح عند إنشاء كتلة، و Azure Databricks تطبيق هذه العلامات على موارد مجموعة النظراء، مثل المثيلات ووحدات تخزين EBS. تعرف على المزيد حول فرض العلامة في دليل أفضل الممارسات لسياسات نظام المجموعة.

اعتبارات تغيير حجم الكتلة

يقوم Azure Databricks بتشغيل منفذ واحد لكل عقدة عامل. لذلك يتم استخدام المنفذ والعامل المصطلحات بالتبادل في سياق هندسة Azure Databricks. غالبا ما يفكر الناس في حجم المجموعة من حيث عدد العمال، ولكن هناك عوامل مهمة أخرى يجب مراعاتها:

  • مجموع النوى المنفذ (حساب): العدد الإجمالي للنوى عبر جميع المنفذين. يحدد هذا التوازي الأقصى من كتلة.
  • إجمالي ذاكرة المنفذ: إجمالي مقدار ذاكرة الوصول العشوائي عبر كافة المنفذين. يحدد هذا مقدار البيانات التي يمكن تخزينها في الذاكرة قبل أن تسرب إلى القرص.
  • المنفذ التخزين المحلي: نوع وكمية تخزين القرص المحلي. يستخدم القرص المحلي في المقام الأول في حالة الانسكابات أثناء المراوغة والتخزين المؤقت.

وتشمل الاعتبارات الإضافية نوع المثيل العامل وحجمه، مما يؤثر أيضا على العوامل المذكورة أعلاه. عند تغيير حجم الكتلة، ضع في اعتبارك:

  • ما مقدار البيانات التي يستهلكها عبء العمل؟
  • ما هو التعقيد الحسابي لعبء العمل الخاص بك؟
  • من أين تقرأ البيانات؟
  • كيف يتم تقسيم البيانات في التخزين الخارجي؟
  • ما مقدار التوازي الذي تحتاجه؟

الإجابة على هذه الأسئلة سوف تساعدك على تحديد تكوينات الكتلة الأمثل استنادا إلى أعباء العمل. بالنسبة لأحمال العمل البسيطة على نمط ETL التي تستخدم تحويلات ضيقة فقط (تحويلات حيث سيساهم كل قسم إدخال في قسم إخراج واحد فقط)، ركز على تكوين محسن لحساب. إذا كنت تتوقع الكثير من المراوغات ، فإن كمية الذاكرة مهمة ، بالإضافة إلى التخزين لحساب انسكاب البيانات. يمكن أن يقلل عدد أقل من المثيلات الكبيرة من الإدخال/إخراج الشبكة عند نقل البيانات بين الأجهزة أثناء أحمال العمل الثقيلة.

هناك توازن بين عدد العمال وحجم أنواع مثيل العامل. تحتوي المجموعة التي تضم اثنين من العمال، ولكل منها 40 نواة و100 غيغابايت من ذاكرة الوصول العشوائي، نفس الحوسبة والذاكرة مثل مجموعة عمال ثمانية مع 10 نواة و25 غيغابايت من ذاكرة الوصول العشوائي.

إذا كنت تتوقع العديد من re-reads من نفس البيانات، ثم قد تستفيد أعباء العمل الخاصة بك من التخزين المؤقت. خذ بعين الاعتبار تكوين التخزين الأمثل مع ذاكرة التخزين المؤقت دلتا.

أمثلة تغيير حجم الكتلة

تظهر الأمثلة التالية توصيات الكتلة استنادا إلى أنواع معينة من أعباء العمل. تتضمن هذه الأمثلة أيضا تكوينات لتجنب و لماذا هذه التكوينات غير مناسبة لأنواع حمل العمل.

تحليل البيانات

يقوم محللو البيانات عادة بمعالجة تتطلب بيانات من أقسام متعددة، مما يؤدي إلى العديد من عمليات التبديل. يمكن أن تقلل كتلة مع عدد أصغر من العقد شبكة الاتصال والقرص الإدخال/إخراج اللازمة لتنفيذ هذه المراوغات. الكتلة A في الرسم التخطيطي التالي هو الخيار الأفضل، خاصة بالنسبة للتجمعات التي تدعم محلل واحد.

من المرجح أن يوفر نظام المجموعة D أسوأ أداء نظرا لأن عددا أكبر من العقد ذات الذاكرة والتخزين الأقل سيتطلب المزيد من خلط البيانات لإكمال المعالجة.

تغيير حجم كتلة تحليل البيانات

من المحتمل أن تتطلب أعباء العمل التحليلية قراءة نفس البيانات بشكل متكرر، لذا فإن أنواع العاملين الموصى بها هي التخزين الأمثل مع تمكين ذاكرة التخزين المؤقت في دلتا.

وتشمل الميزات الإضافية الموصى بها لأعباء العمل التحليلية ما يلي:

  • تمكين الإنهاء التلقائي لضمان إنهاء الكتل بعد فترة من عدم النشاط.
  • فكر في تمكين التحجيم التلقائي استنادا إلى عبء العمل النموذجي للمحلل.
  • خذ بعين الاعتبار استخدام تجمعات، والتي سوف تسمح تقييد الكتل لأنواع مثيل معتمد مسبقا وضمان تكوينات الكتلة متناسقة.

الميزات التي ربما لا تكون مفيدة:

  • التخزين التلقائي، لأن هذا المستخدم ربما لن تنتج الكثير من البيانات.
  • مجموعات التزامن عالية، منذ هذه الكتلة لمستخدم واحد، ومجموعات التزامن العالية هي الأنسب للاستخدام المشترك.

الدفعة الأساسية ETL

عادة ما تستفيد مهام ETL الدفعية البسيطة التي لا تتطلب تحويلات واسعة، مثل الصلات أو التجميعات، من المجموعات التي تم تحسينها حسب الحساب. بالنسبة لهذه الأنواع من أعباء العمل، أي من الكتل في الرسم التخطيطي التالي من المحتمل أن تكون مقبولة.

تغيير حجم كتلة ETL الدفعة الأساسية

يوصى بأنواع العاملين المحسنة لحساب؛ هذه ستكون أرخص، وهذه أعباء العمل من المرجح أن لا تتطلب ذاكرة كبيرة أو التخزين.

قد يوفر استخدام تجمع فائدة للتجمعات التي تدعم مهام ETL البسيطة عن طريق تقليل أوقات بدء تشغيل الكتلة وتقليل إجمالي وقت التشغيل عند تشغيل خطوط أنابيب المهام. ومع ذلك، لأن هذه الأنواع من أحمال العمل عادة تشغيل مهام مجدولة حيث تعمل الكتلة فقط طويلة بما يكفي لإكمال المهمة، استخدام تجمع قد لا توفر فائدة.

الميزات التالية ربما ليست مفيدة:

  • التخزين المؤقت دلتا، منذ إعادة قراءة البيانات غير متوقع.
  • إنهاء تلقائي ربما غير مطلوب نظرا لأن هذه هي المحتملة جدولة المهام.
  • لا ينصح بالتحجيم التلقائي حيث يجب تكوين الحساب والتخزين مسبقا لحالة الاستخدام.
  • مجموعات التزامن العالية مخصصة للمستخدمين المتعددين ولن تستفيد من نظام مجموعة تقوم بتشغيل مهمة واحدة.

مجموعة معقدة ETL

وظائف ETL أكثر تعقيدا، مثل معالجة تتطلب الاتحادات وينضم عبر جداول متعددة، ربما تعمل بشكل أفضل عندما يمكنك تقليل كمية البيانات تعديلا. نظرا لأن تقليل عدد العاملين في نظام مجموعة سيساعد على تقليل خلطات، يجب مراعاة كتلة أصغر مثل الكتلة A في الرسم التخطيطي التالي عبر كتلة أكبر مثل الكتلة D.

تغيير حجم كتلة ETL المعقدة

يمكن أن تكون التحويلات المعقدة كثيفة الحوسبة، لذلك بالنسبة لبعض أعباء العمل التي تصل إلى العدد الأمثل من النوى قد تتطلب إضافة عقد إضافية إلى الكتلة.

مثل وظائف ETL بسيطة، يوصى بأنواع العاملين المحسنة لحساب; هذه ستكون أرخص، وهذه أعباء العمل من المرجح أن لا تتطلب ذاكرة كبيرة أو التخزين. أيضا، مثل مهام ETL بسيطة، ميزة الكتلة الرئيسية للنظر في تجمعات لتقليل أوقات إطلاق الكتلة وتقليل إجمالي وقت التشغيل عند تشغيل خطوط أنابيب المهام.

الميزات التالية ربما ليست مفيدة:

  • التخزين المؤقت دلتا، منذ إعادة قراءة البيانات غير متوقع.
  • إنهاء تلقائي ربما غير مطلوب نظرا لأن هذه هي المحتملة جدولة المهام.
  • لا ينصح بالتحجيم التلقائي حيث يجب تكوين الحساب والتخزين مسبقا لحالة الاستخدام.
  • مجموعات التزامن العالية مخصصة للمستخدمين المتعددين ولن تستفيد من نظام مجموعة تقوم بتشغيل مهمة واحدة.

تدريب نماذج التعلم الآلي

وبما أن التكرارات الأولية للتدريب على نموذج التعلم الآلي غالبا ما تكون تجريبية، فإن مجموعة أصغر مثل الكتلة A هي خيار جيد. كما أن وجود مجموعة أصغر حجما سيقلل من أثر المراوغات.

إذا كان الاستقرار هو مصدر قلق، أو بالنسبة للمراحل المتقدمة، قد يكون كتلة أكبر مثل الكتلة B أو C خيارا جيدا.

لا ينصح كتلة كبيرة مثل الكتلة D بسبب الحمل خلط البيانات بين العقد.

تغيير حجم مجموعة التعلم الآلي

أنواع العامل الموصى بها هي التخزين الأمثل مع تمكين التخزين المؤقت دلتا لحساب قراءات متكررة من نفس البيانات وتمكين التخزين المؤقت للبيانات التدريب. إذا لم تكن خيارات الحوسبة والتخزين المتوفرة من قبل عقد التخزين المحسنة كافية، ففكر في العقد المحسنة ل GPU. الجانب السلبي المحتمل هو عدم وجود دعم التخزين المؤقت دلتا مع هذه العقد.

وتشمل الميزات الإضافية الموصى بها لأعباء العمل التحليلية ما يلي:

  • تمكين الإنهاء التلقائي لضمان إنهاء الكتل بعد فترة من عدم النشاط.
  • فكر في تمكين التحجيم التلقائي استنادا إلى عبء العمل النموذجي للمحلل.
  • استخدم تجمعات، والتي ستسمح بتقييد الكتل لأنواع المثيلات المعتمدة مسبقا وضمان تكوينات نظام المجموعة متناسقة.

الميزات التي ربما لا تكون مفيدة:

  • التحجيم التلقائي، حيث يمكن فقدان البيانات المخزنة مؤقتا عند إزالة العقد كمقياس كتلة لأسفل. بالإضافة إلى ذلك، غالبا ما تستهلك وظائف التعلم الآلي النموذجية جميع العقد المتاحة، وفي هذه الحالة لن يوفر التحجيم التلقائي أي فائدة.
  • التخزين التلقائي، لأن هذا المستخدم ربما لن تنتج الكثير من البيانات.
  • مجموعات التزامن عالية، منذ هذه الكتلة لمستخدم واحد، ومجموعات التزامن العالية هي الأنسب للاستخدام المشترك.

سيناريوهات شائعة

توفر المقاطع التالية توصيات إضافية لتكوين الكتل لأنماط استخدام الكتلة الشائعة:

  • مستخدمين متعددين تشغيل تحليل البيانات ومعالجة مخصصة.
  • حالات الاستخدام المتخصصة مثل التعلم الآلي.
  • دعم مهام الدفعات المجدولة.

مجموعات متعددة المستخدمين

السيناريو

تحتاج إلى توفير وصول العديد من المستخدمين إلى البيانات لتشغيل تحليل البيانات والاستعلامات المخصصة. قد يتقلب استخدام الكتلة بمرور الوقت، ومعظم الوظائف ليست كثيفة الموارد. يحتاج المستخدمون في الغالب إلى الوصول للقراءة فقط إلى البيانات ويرغبون في إجراء تحليلات أو إنشاء لوحات معلومات من خلال واجهة مستخدم بسيطة.

النهج الموصى به لتوفير الكتلة هو نهج مختلط لتوفير العقدة في الكتلة جنبا إلى جنب مع autoscaling. يتضمن النهج المختلط تحديد عدد مثيلات عند الطلب والمثيلات الموضعية للكتلة وتمكين التحجيم التلقائي بين الحد الأدنى والحد الأقصى لعدد المثيلات.

سيناريو متعدد المستخدمين

نظام المجموعة هذا متوفر دائما و المشتركة من قبل المستخدمين الذين ينتمون إلى مجموعة بشكل افتراضي. تمكين التحجيم التلقائي يسمح الكتلة لتوسيع صعودا وهبوطا اعتمادا على الحمل.

ليس لدى المستخدمين حق الوصول إلى بدء/إيقاف الكتلة، ولكن المثيلات الأولية عند الطلب متوفرة مباشرة للرد على استعلامات المستخدم. إذا تطلب استعلام المستخدم سعة أكبر، فإن التحجيم التلقائي يقوم تلقائيا بتوفير المزيد من العقد (غالبا مثيلات Spot) لاستيعاب حمل العمل.

لدى Azure Databricks ميزات أخرى لتحسين حالات الاستخدام متعدد الإيجارات:

يحافظ هذا النهج على انخفاض التكلفة الإجمالية من خلال:

  • باستخدام نموذج نظام مجموعة مشترك.
  • استخدام مزيج من الحالات عند الطلب وبقعة.
  • استخدام التحجيم التلقائي لتجنب دفع ثمن المجموعات غير المستغلة بشكل جيد.

أعباء العمل المتخصصة

السيناريو

تحتاج إلى توفير مجموعات لحالات الاستخدام المتخصصة أو الفرق داخل مؤسستك، على سبيل المثال، علماء البيانات الذين يديرون خوارزميات معقدة لاستكشاف البيانات والتعلم الآلي. نمط نموذجي هو أن المستخدم يحتاج إلى كتلة لفترة قصيرة لتشغيل تحليله.

أفضل طريقة لهذا النوع من حمل العمل هو إنشاء نهج نظام المجموعة مع تكوينات محددة مسبقا لنطاقات الإعدادات الافتراضية والثابتة. قد تتضمن هذه الإعدادات عدد المثيلات وأنواع المثيلات والمثيلات الفورية مقابل مثيلات عند الطلب والأدوار والمكتبات التي سيتم تثبيتها وما إلى ذلك. يسمح استخدام نهج نظام المجموعة للمستخدمين الذين لديهم متطلبات أكثر تقدما بتديع المجموعات التي يمكنهم تكوينها بسرعة حسب الحاجة لحالة الاستخدام الخاصة بهم وفرض التكلفة والامتثال للسياسات.

أعباء العمل المتخصصة

يوفر هذا الأسلوب المزيد من التحكم للمستخدمين مع الحفاظ على القدرة على إبقاء التكلفة تحت السيطرة من خلال تكوينات الكتلة المحددة مسبقا. يسمح لك هذا أيضا بتكوين مجموعات لمجموعات مختلفة من المستخدمين الذين لديهم أذونات للوصول إلى مجموعات بيانات مختلفة.

أحد الجوانب السلبية لهذا الأسلوب هو أن المستخدمين يجب أن يعملوا مع المسؤولين لأي تغييرات على المجموعات، مثل التكوين والمكتبات المثبتة وما إلى ذلك.

أعباء العمل الدفعية

السيناريو

تحتاج إلى توفير مجموعات لوظائف الدفعات المجدولة، مثل مهام إنتاج ETL التي تقوم بإعداد البيانات. أفضل الممارسات المقترحة هي إطلاق مجموعة جديدة لكل تشغيل وظيفة. يساعد تشغيل كل مهمة على كتلة جديدة تجنب الفشل وSLAs غاب بسبب أعباء العمل الأخرى قيد التشغيل على كتلة مشتركة. اعتمادا على مستوى الأهمية الحاسمة للوظيفة، يمكنك استخدام جميع الحالات عند الطلب لتلبية اتفاقات مستوى سطح البحر أو التوازن بين الحالات الفورية والمطلب عليها لتحقيق وفورات في التكاليف.

أعباء العمل الدفعية المجدولة