BanditPolicy Класс

Определяет политику раннего завершения на основе критериев резерва времени, а также частоту и интервал задержки для оценки.

Инициализируйте BanditPolicy с коэффициентом резерва, slack_amount и интервалом оценки.

Наследование
azureml.train.hyperdrive.policy.EarlyTerminationPolicy
BanditPolicy

Конструктор

BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)

Параметры

Имя Описание
slack_factor

Коэффициент, используемый для вычисления допустимого отхождения от выполнения эксперимента с наибольшей эффективностью.

значение по умолчанию: None
slack_amount

Допустимое абсолютное отхождение от выполнения с наибольшей эффективностью.

значение по умолчанию: None
evaluation_interval
int

Частота применения политики.

значение по умолчанию: 1
delay_evaluation
int

Число интервалов, для которых откладывается первая оценка политики. Если этот параметр указан, политика применяет все кратные evaluation_interval, которые больше или равны delay_evaluation.

значение по умолчанию: 0
slack_factor
Обязательно

Коэффициент, используемый для вычисления допустимого отхождения от выполнения эксперимента с наибольшей эффективностью.

slack_amount
Обязательно

Допустимое абсолютное отхождение от выполнения с наибольшей эффективностью.

evaluation_interval
Обязательно
int

Частота применения политики.

delay_evaluation
Обязательно
int

Число интервалов, для которых откладывается первая оценка политики. Если этот параметр указан, политика применяет все кратные evaluation_interval, которые больше или равны delay_evaluation.

Комментарии

Политика Bandit принимает следующие параметры конфигурации:

  • slack_factor: резерв времени, допустимый применительно к обучающему выполнению с самой высокой эффективностью. Этот коэффициент задает резерв времени как отношение.

  • slack_amount: резерв времени, допустимый применительно к обучающему выполнению с самой высокой эффективностью. Этот коэффициент задает резерв времени как абсолютную величину.

  • evaluation_interval: Необязательный параметр. Частота применения политики. Каждый раз, когда сценарий обучения регистрирует основную метрику, это считается одним интервалом.

  • delay_evaluation: Необязательный параметр. Количество интервалов для задержки оценки политики. Используйте этот параметр, чтобы избежать преждевременного завершения обучающих выполнений. Если этот параметр указан, политика применяет все кратные evaluation_interval, которые больше или равны delay_evaluation.

Все выполнения, которые выходят за пределы коэффициента или величины резерва времени метрики оценки по отношению к наиболее эффективному выполнению, будут завершены.

Рассмотрим политику Bandit с slack_factor = 0,2 и evaluation_interval = 100. Предположим, что выполнение X является наиболее эффективным выполнением со значением AUC (метрика производительности), равным 0,8, через 100 интервалов. Далее предположим, что лучшим результатом AUC для выполнения является Y. Эта политика сравнивает значение (Y + Y * 0,2) с 0,8, и если оно меньше, то отменяет выполнение. Если delay_evaluation = 200, то первое применение политики будет на интервале 200.

Теперь рассмотрим политику Bandit с slack_amount = 0,2 и evaluation_interval = 100. Если выполнение 3 в данный момент является наиболее эффективным со значением AUC (метрика производительности), равным 0,8, через 100 интервалов, то все операции, выполняемые с AUC меньше 0,6 (0,8 – 0,2) после 100 итераций, будут завершены. Аналогичным образом delay_evaluation можно также использовать, чтобы задержать первую оценку политики завершения на определенное число последовательностей.

Дополнительные сведения о применении политик раннего завершения см. в разделе Настройка гиперпараметров модели.

Атрибуты

delay_evaluation

Возвращает число последовательностей, на которое задерживается первая оценка.

Возвращаемое значение

Тип Описание
int

Оценка с задержкой.

evaluation_interval

Возвращает значение интервала оценки.

Возвращаемое значение

Тип Описание
int

Интервал оценки.

slack_factor

Возвращение коэффициента резерва времени применительно к обучающему выполнению с самой высокой эффективностью.

Возвращаемое значение

Тип Описание

Коэффициент резерва времени.

POLICY_NAME

POLICY_NAME = 'Bandit'