أفضل الممارسات: التجمعات

تشرح هذه المقالة ماهية التجمعات، وكيف يمكنك تكوينها على أفضل نحو. للحصول على معلومات حول إنشاء تجمع، راجع إنشاء تجمع.

ما هي تجمعات Azure Databricks؟

تجمعات Azure Databricks هي مجموعة من المثيلات الخاملة الجاهزة للاستخدام. عند إنشاء عقد نظام المجموعة باستخدام المثيلات الخاملة، يتم تقليل أوقات بدء المجموعة والتحجيم التلقائي. إذا لم يكن التجمع يحتوي على مثيلات الخامة، يتوسع التجمع عن طريق تخصيص مثيل جديد من موفر المثيل من أجل استيعاب طلب نظام المجموعة. عندما يصدر نظام مجموعة مثيلا، فإنه يعود إلى التجمع وهو مجاني لمجموعة أخرى لاستخدامها. يمكن فقط للمجموعات المرفقة بتجمع استخدام مثيلات هذا التجمع الخاملة.

يمكنك تحديد تجمع مختلف لعقدة برنامج التشغيل والعقد العاملة، أو استخدام نفس التجمع لكليهما.

لا تفرض Azure Databricks رسوما على وحدات DBUs بينما تكون المثيلات الخامة في التجمع. يتم تطبيق فوترة موفر المثيل. راجع التسعير.

يمكنك إدارة التجمعات باستخدام واجهة المستخدم أو تجمعات المثيلات CLI (قديم) أو عن طريق استدعاء واجهة برمجة تطبيقات تجمعات المثيلات.

توصيات التجمع

يوفر النظام الأساسي Azure Databricks طريقة فعالة وفعالة من حيث التكلفة لإدارة البنية الأساسية للتحليينات. توصي Azure Databricks بأفضل الممارسات التالية عند استخدام التجمعات:

  • إنشاء تجمعات باستخدام أنواع المثيلات وأوقات تشغيل Azure Databricks استنادا إلى أحمال العمل المستهدفة.
  • عندما يكون ذلك ممكنا، قم بتعبئة التجمعات بمثيلات موضعية لتقليل التكاليف.
  • قم بتعبئة التجمعات بمثيلات عند الطلب للوظائف بأوقات تنفيذ قصيرة ومتطلبات وقت تنفيذ صارمة.
  • استخدم علامات التجمع وعلامات نظام المجموعة لإدارة الفوترة.
  • استخدم خيارات تكوين التجمع لتقليل التكلفة.
  • ملء التجمعات مسبقا للتأكد من توفر المثيلات عندما تحتاجها المجموعات.

إنشاء تجمعات استنادا إلى أحمال العمل

إذا كانت عقدة برنامج التشغيل والعقد العاملة لديك لها متطلبات مختلفة، فبادر بإنشاء تجمع مختلف لكل منها.

يمكنك تقليل وقت الحصول على المثيل عن طريق إنشاء تجمع لكل نوع مثيل ووقت تشغيل Azure Databricks الذي تستخدمه مؤسستك بشكل شائع. على سبيل المثال، إذا كانت معظم مجموعات هندسة البيانات تستخدم نوع المثيل A، فإن مجموعات علوم البيانات تستخدم نوع المثيل B، وتستخدم مجموعات التحليلات نوع المثيل C، قم بإنشاء تجمع مع كل نوع مثيل.

تكوين التجمعات لاستخدام المثيلات عند الطلب للوظائف ذات أوقات التنفيذ القصيرة ومتطلبات وقت التنفيذ الصارمة. استخدم المثيلات عند الطلب لمنع فقدان المثيلات المكتسبة إلى مقدم عرض أعلى في السوق الفورية.

تكوين التجمعات لاستخدام المثيلات الموضعية للمجموعات التي تدعم التطوير التفاعلي أو الوظائف التي تعطي الأولوية لتوفير التكاليف على الموثوقية.

تجمعات العلامات لإدارة التكلفة والفوترة

تسمح لك مجموعات وضع العلامات إلى مركز التكلفة الصحيح بإدارة التكلفة واسترداد تكاليف الاستخدام. يمكنك استخدام علامات مخصصة متعددة لربط مراكز تكلفة متعددة بتجمع. ومع ذلك، من المهم فهم كيفية نشر العلامات عند إنشاء نظام مجموعة من التجمعات. تنتشر العلامات من التجمعات إلى مثيلات موفر السحابة الأساسية، ولكن علامات نظام المجموعة لا تنتشر. تطبيق جميع العلامات المخصصة المطلوبة لإدارة استرداد تكلفة حساب موفر السحابة على التجمع.

يتم نشر علامات التجمع وعلامات نظام المجموعة إلى فوترة Azure Databricks. يمكنك استخدام مجموعة من علامات المجموعة والتجمع لإدارة استرداد تكاليف وحدات Azure Databricks.

لمعرفة المزيد، راجع مراقبة الاستخدام باستخدام العلامات.

تكوين التجمعات للتحكم في التكلفة

يمكنك استخدام خيارات التكوين التالية للمساعدة في التحكم في تكلفة التجمعات:

  • قم بتعيين Min Idle instances إلى 0 لتجنب الدفع للمثيلات قيد التشغيل التي لا تقوم بعمل. المقايضة هي زيادة محتملة في الوقت عندما تحتاج المجموعة إلى الحصول على مثيل جديد.
  • قم بتعيين وقت الإنهاء التلقائي لمثيل الخمول لتوفير مخزن مؤقت بين وقت تحرير المثيل من نظام المجموعة ومتى يتم إسقاطه من التجمع. قم بتعيين هذا إلى فترة تسمح لك بتقليص التكلفة مع ضمان توفر مثيلات للمهام المجدولة. على سبيل المثال، تمت جدولة المهمة A للتشغيل في الساعة 8:00 صباحا وتستغرق 40 دقيقة لإكمالها. من المقرر تشغيل المهمة B في الساعة 9:00 صباحا وتستغرق 30 دقيقة لإكمالها. قم بتعيين قيمة الإنهاء التلقائي لمثيل الخمول إلى 20 دقيقة للتأكد من أن المثيلات التي تم إرجاعها إلى التجمع عند اكتمال المهمة A متوفرة عند بدء المهمة B. ما لم تطالب بها مجموعة أخرى، يتم إنهاء هذه المثيلات بعد 20 دقيقة من انتهاء المهمة B.
  • تعيين الحد الأقصى للسعة استنادا إلى الاستخدام المتوقع. يؤدي هذا إلى تعيين الحد الأقصى لعدد المثيلات المستخدمة وال الخاملة في التجمع. إذا طلبت وظيفة أو مجموعة مثيلا من تجمع بأقصى سعته، يفشل الطلب، ولا تحصل المجموعة على المزيد من المثيلات. لذلك، توصي Databricks بتعيين الحد الأقصى للسعة فقط إذا كان هناك حصة نسبية صارمة للمثيل أو قيد الموازنة.

تعبئة التجمعات مسبقا

للاستفادة الكاملة من التجمعات، يمكنك ملء التجمعات التي تم إنشاؤها حديثا مسبقا. قم بتعيين Min Idle instances أكبر من الصفر في تكوين التجمع. بدلا من ذلك، إذا كنت تتبع التوصية لتعيين هذه القيمة إلى صفر، فاستخدم مهمة بداية للتأكد من أن التجمعات التي تم إنشاؤها حديثا لديها مثيلات متاحة للمجموعات للوصول إليها.

مع نهج وظيفة البداية، قم بجدولة وظيفة بمتطلبات وقت تنفيذ مرنة للتشغيل قبل المهام ذات متطلبات أداء أكثر صرامة أو قبل أن يبدأ المستخدمون في استخدام أنظمة المجموعات التفاعلية. بعد انتهاء المهمة، يتم تحرير المثيلات المستخدمة للوظيفة مرة أخرى إلى التجمع. تعيين إعداد Min Idle instance إلى 0 وتعيين وقت الإنهاء التلقائي لمثيل الخمول مرتفعا بما يكفي لضمان بقاء المثيلات الخاملة متاحة للوظائف اللاحقة.

يسمح استخدام وظيفة البداية لمثيلات التجمع بالتدبير وملء التجمع والبقاء متوفرا لمهمة انتقال البيانات من الخادم أو المجموعات التفاعلية.