Рекомендации по пулу

В этой статье объясняется, какие пулы и как их лучше настроить. Дополнительные сведения о создании пула см . в справочнике по конфигурации пула.

Рекомендации по пулу

При создании пула следует учитывать следующее:

  • Создавайте пулы, используя типы экземпляров и среды выполнения Azure Databricks на основе целевых рабочих нагрузок.
  • По возможности заполняйте пулы точечными экземплярами, чтобы снизить затраты.
  • Заполните пулы экземплярами по требованию для заданий с коротким временем выполнения и строгими требованиями к времени выполнения.
  • Используйте теги пулов и теги кластеров для управления выставлением счетов.
  • Предварительно заполняйте пулы, чтобы гарантировать доступность экземпляров, когда они нужны кластерам.

Создание пулов на основе рабочих нагрузок

Если у вашего узла драйвера и рабочих узлов разные требования, создайте для каждого отдельный пул.

Вы можете сократить время получения экземпляра, создав пул для каждого типа экземпляра и среды выполнения Azure Databricks, которые обычно используются в вашей организации. Например, если большинство кластеров инжиниринга данных используют тип экземпляра A, кластеры обработки данных используют экземпляр типа B, а кластеры аналитики используют экземпляр типа C, создайте пул с каждым типом экземпляра.

Настройте пулы для использования экземпляров по запросу для заданий с коротким временем выполнения и строгими требованиями к времени выполнения. Используйте экземпляры по запросу, чтобы предотвратить потерю полученных экземпляров.

Настройте пулы для использования точечных экземпляров для кластеров, поддерживающих интерактивную разработку, или заданий, для которых экономия средств важнее надежности.

Добавление тегов пулам для управления затратами и выставлением счетов

Добавление тегов пулам для правильного центра затрат позволяет управлять расходами и возвратными платежами за использование. Вы можете использовать несколько настраиваемых тегов, чтобы связать несколько центров затрат с пулом. Но важно понимать, как распространяются теги, когда кластер создается из пулов. Теги из пулов распространяются на базовые экземпляры поставщика облачных служб, но теги кластера не распространяются. Примените к пулу все настраиваемые теги, необходимые для управления возвратными платежами, связанными с затратами на вычисления поставщика облачных услуг.

Теги пула и теги кластера распространяются на выставление счетов Azure Databricks. Вы можете использовать комбинацию тегов кластера и пула для управления возвратным платежом для единиц Azure Databricks.

Дополнительные сведения см. в статье "Мониторинг использования с помощью тегов".

Настройка пулов для управления затратами

Вы можете использовать следующие параметры конфигурации, чтобы управлять затратами на пулы:

  • Задайте для параметра Минимальное количество бездействующих экземпляров значение 0, чтобы не платить за запущенные экземпляры, которые не работают. Компромиссом является возможное увеличение времени, когда кластеру необходимо получить новый экземпляр.
  • Настройте параметр Автоматическое завершение работы бездействующего экземпляра, чтобы обеспечить буфер между моментом выпуска экземпляра из кластера и его удалением из пула. Задайте период, который позволяет минимизировать затраты, обеспечивая при этом доступность экземпляров для запланированных заданий. Например, задание А запланировано на 8:00 и выполняется 40 минут. Задание B запланировано на 9:00 и выполняется 30 минут. Установите для этого параметра значение 20 минут, чтобы гарантировать, что экземпляры, возвращенные в пул после завершения задания А, будут доступны при запуске задания B. Если на них не будет претендовать другой кластер, работа этих экземпляров завершится через 20 минут после завершения задания B.
  • Настройте параметр Максимальная емкость в зависимости от ожидаемого использования. Это устанавливает максимальное ограничение для количества используемых и бездействующих экземпляров в пуле. Если задание или кластер запрашивает экземпляр из пула с максимальной емкостью, запрос завершится ошибкой, и кластер не получит больше экземпляров. Поэтому Databricks рекомендует устанавливать максимальную емкость, только если существует строгая квота на экземпляры или ограничение бюджета.

Предварительное заполнение пулов

Чтобы в полной мере воспользоваться преимуществами пулов, вы можете предварительно заполнять новые пулы. Установите в конфигурации пула для параметра Минимальное количество бездействующих экземпляров значение большее нуля. Если же вы следуете рекомендации установить для этого значения нулевое значение, используйте начальное задание, чтобы убедиться, что новые пулы имеют доступные экземпляры для доступа к кластерам.

В рамках этого подхода запланируйте выполнение задания с гибкими требованиями к времени выполнения перед заданиями с более строгими требованиями к производительности или до того, как пользователи начнут использовать интерактивные кластеры. После завершения задания экземпляры, используемые для задания, возвращаются в пул. Задайте для параметра Минимальное количество бездействующих экземпляров значение 0, а для параметра Автоматическое завершение работы бездействующего экземпляра укажите достаточно времени, чтобы гарантировать, что бездействующие экземпляры останутся доступными для последующих заданий.

Использование начального задания позволяет экземплярам пула запускаться, заполнять пул и оставаться доступными для последующих заданий или интерактивных кластеров.