RegressionJob Класс

Настройка для задания регрессии AutoML.

Инициализация новой задачи регрессии AutoML.

Наследование
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
RegressionJob

Конструктор

RegressionJob(*, primary_metric: str | None = None, **kwargs)

Параметры

primary_metric
str
Обязательно

Основная метрика, используемая для оптимизации

kwargs
dict
Обязательно

Аргументы, относящиеся к заданию

Методы

dump

Помещает содержимое задания в файл в формате YAML.

set_data

Определите конфигурацию данных.

set_featurization

Определите конфигурацию конструирования признаков.

set_limits

Задайте ограничения для задания.

set_training

Метод для настройки параметров, связанных с обучением.

dump

Помещает содержимое задания в файл в формате YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Параметры

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Обязательно

Локальный путь или файловый поток для записи содержимого YAML. Если dest — это путь к файлу, будет создан новый файл. Если dest является открытым файлом, файл будет записан в напрямую.

kwargs
dict

Дополнительные аргументы для передачи сериализатору YAML.

Исключения

Возникает, если dest является путем к файлу и файл уже существует.

Возникает, если dest является открытым файлом и файл недоступен для записи.

set_data

Определите конфигурацию данных.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Параметры

training_data
Input

Обучающие данные.

target_column_name
str

Имя целевого столбца.

weight_column_name
Optional[str]

Имя столбца веса, по умолчанию — Нет

validation_data
Optional[Input]

Данные проверки, по умолчанию — Нет.

validation_data_size
Optional[float]

Размер проверочных данных, по умолчанию — Нет.

n_cross_validations
Optional[Union[str, int]]

n_cross_validations значение по умолчанию — Нет.

cv_split_column_names
Optional[List[str]]

cv_split_column_names по умолчанию — Нет.

test_data
Optional[Input]

Тестовые данные, по умолчанию — Нет.

test_data_size
Optional[float]

Размер тестовых данных, по умолчанию — Нет.

Исключения

Возникает, если dest является путем к файлу и файл уже существует.

Возникает, если dest является открытым файлом и файл недоступен для записи.

set_featurization

Определите конфигурацию конструирования признаков.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Параметры

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Список имен преобразователей, блокируемых во время создания признаков, по умолчанию — Нет.

column_name_and_types
Optional[Dict[str, str]]

Словарь имен столбцов и типов признаков, используемых для обновления назначения столбцов, по умолчанию имеет значение Нет.

dataset_language
Optional[str]

Трехсимвой код ISO 639-3 для языков, содержащихся в наборе данных. Языки, отличные от английского, поддерживаются только при использовании вычислительных ресурсов с поддержкой GPU. Если набор данных содержит несколько языков, следует использовать language_code "mul". Чтобы найти коды ISO 639-3 для разных языков, см. раздел https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, по умолчанию используется значение Нет.

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Словарь преобразователя и соответствующих параметров настройки по умолчанию имеет значение Нет.

mode
Optional[str]

"off", "auto", по умолчанию — "auto", по умолчанию — Нет.

enable_dnn_featurization
Optional[bool]

Указывает, следует ли включать методы проектирования признаков на основе DNN, по умолчанию используется значение Нет.

Исключения

Возникает, если dest является путем к файлу и файл уже существует.

Возникает, если dest является открытым файлом и файл недоступен для записи.

set_limits

Задайте ограничения для задания.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Параметры

enable_early_termination
Optional[bool]

Указывает, следует ли включить досрочное завершение, если оценка не улучшается в краткосрочной перспективе, по умолчанию используется значение Нет.

Логика ранней остановки:

  • К первым 20 итерациям (ориентирам) ранняя остановка не применяется.

  • Период возможности ранней остановки начинается с 21-й итерации и ищет early_stopping_n_iters итераций

    (в настоящее время установлено значение 10). Это означает, что первая итерация, в которой может произойти остановка — 31-я.

  • AutoML по-прежнему планирует 2 итерации ансамбля после ранней остановки, что может привести к повышению оценки.

  • Ранняя остановка активируется, если абсолютное значение вычисленной наилучшей оценки остается неизменным для прошлых

    итераций early_stopping_n_iters, то есть, если для итераций early_stopping_n_iters улучшения оценки не наблюдается.

exit_score
Optional[float]

Целевая оценка для эксперимента. При достижении этого показателя выполнение эксперимента завершается. Если значение не указано (без критериев), эксперимент выполняется до тех пор, пока показатель основной метрики не перестанет улучшаться. Дополнительные сведения о критериях выхода см. в этой статье , по умолчанию используется значение None.

max_concurrent_trials
Optional[int]

Это максимальное число итераций, которые будут выполняться параллельно. Значение по умолчанию — 1.

  • Кластеры AmlCompute поддерживают одну итерацию, выполняемую на каждом узле.

Для нескольких родительских выполнений экспериментов AutoML, запущенных параллельно в одном кластере AmlCompute, сумма значений max_concurrent_trials для всех экспериментов не должна превышать максимальное количество узлов. В противном случае выполнения будут ставиться в очередь до тех пор, пока узлы не станут доступны.

  • DSVM поддерживает несколько итераций на один узел. max_concurrent_trials Должны

значение меньше или равно количеству ядер на DSVM. Для параллельного выполнения нескольких экспериментов на одном DSVM, сумма значений max_concurrent_trials для всех экспериментов должна быть меньше или равна максимальному количеству узлов.

  • Databricks — max_concurrent_trials должно быть меньше или равно количеству

рабочие узлы в Databricks.

max_concurrent_trials не применяется к локальным выполнениям. Ранее этот параметр назывался concurrent_iterations.

max_cores_per_trial
Optional[int]

Максимальное количество потоков, используемых для заданной итерации обучения. Допустимые значения:

  • Больше 1, но не больше максимального количества ядер в целевом объекте вычислений.

  • Равно −1, что означает использование всех возможных ядер на итерацию для каждого дочернего выполнения.

  • Равно 1, значение по умолчанию.

max_nodes
Optional[int]

[Экспериментальный] Максимальное количество узлов, используемых для распределенного обучения.

  • Для прогнозирования каждая модель обучается с помощью узлов max(2, int(max_nodes / max_concurrent_trials)).

  • Для классификации и регрессии каждая модель обучается с помощью max_nodes узлов.

Примечание. Этот параметр находится в общедоступной предварительной версии и может измениться в будущем.

max_trials
Optional[int]

Общее количество различных сочетаний алгоритмов и параметров для проверки во время эксперимента автоматизированного ML. Если значение не указано, по умолчанию используется 1000 итераций.

timeout_minutes
Optional[int]

Максимальное количество времени в минутах, в течение которого могут быть пройдены все итерации до завершения эксперимента. Если значение не указано, время ожидания эксперимента по умолчанию составляет 6 дней. Чтобы указать время ожидания меньше или равное 1 часу, убедитесь, что размер набора данных не превышает 10 000 000 (столбец времени строк) или результаты ошибок. По умолчанию используется значение Нет.

trial_timeout_minutes
Optional[int]

Максимальное время в минутах, в течение которого каждая итерация может выполняться до завершения. Если не указано, используется значение 1 месяц или 43200 минут, по умолчанию — Нет.

Исключения

Возникает, если dest является путем к файлу и файл уже существует.

Возникает, если dest является открытым файлом и файл недоступен для записи.

set_training

Метод для настройки параметров, связанных с обучением.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Параметры

enable_onnx_compatible_models
Optional[bool]

Следует ли включить или отключить принудительное применение моделей, совместимых с ONNX. Значение по умолчанию — False. Дополнительные сведения об Open Neural Network Exchange (ONNX) и Машинном обучении Azure см. в этой статье.

enable_dnn_training
Optional[bool]

Следует ли включать модели на основе DNN во время выбора модели. Однако для задач DNN NLP значением по умолчанию будет True, а для всех остальных задач AutoML — False.

enable_model_explainability
Optional[bool]

Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении. значение по умолчанию — Нет.

enable_stack_ensemble
Optional[bool]

Указывает, следует ли включить или отключить итерацию StackEnsemble. Если установлен флаг enable_onnx_compatible_models, то итерация StackEnsemble будет отключена. Аналогично, для задач временных рядов итерация StackEnsemble будет по умолчанию отключена во избежание рисков, связанных с чрезмерной лжевзаимосвязью из-за небольшого размера набора данных для обучения, используемого для подбора средства обучения по метаданным. Дополнительные сведения об ансамблях см. в разделе Конфигурация ансамбля , по умолчанию — Нет.

enable_vote_ensemble
Optional[bool]

Указывает, следует ли включить или отключить итерацию VotingEnsemble. Дополнительные сведения об ансамблях см. в разделе Конфигурация ансамбля , по умолчанию — Нет.

stack_ensemble_settings
Optional[StackEnsembleSettings]

Параметры итерации StackEnsemble, по умолчанию — Нет.

ensemble_model_download_timeout
Optional[int]

Во время создания моделей VotingEnsemble и StackEnsemble скачиваются несколько подходящих моделей из предыдущих дочерних запусков. Настройте этот параметр с более высоким значением, чем 300 с. Если требуется больше времени, по умолчанию используется значение Нет.

allowed_training_algorithms
Optional[List[str]]

Список имен моделей для поиска эксперимента. Если не указано, используются все модели, поддерживаемые для задачи, за вычетом всех указанных в blocked_training_algorithms или нерекомендуемых моделях TensorFlow. По умолчанию используется значение None.

blocked_training_algorithms
Optional[List[str]]

Список алгоритмов, которые следует игнорировать для эксперимента. По умолчанию используется значение Нет.

training_mode
Optional[Union[str, TabularTrainingMode]]

[Экспериментальный] Используемый режим обучения. Возможные значения:

  • distributed — обеспечивает распределенное обучение поддерживаемых алгоритмов.

  • non_distributed — отключает распределенное обучение.

  • auto — в настоящее время это то же самое, что и non_distributed. В будущем это может измениться.

Примечание. Этот параметр находится в общедоступной предварительной версии и может измениться в будущем.

Исключения

Возникает, если dest является путем к файлу и файл уже существует.

Возникает, если dest является открытым файлом и файл недоступен для записи.

Атрибуты

base_path

Базовый путь к ресурсу.

Возвращаемое значение

Базовый путь к ресурсу.

Возвращаемый тип

str

creation_context

Контекст создания ресурса.

Возвращаемое значение

Метаданные создания для ресурса.

Возвращаемый тип

featurization

Получение параметров табличного конструирования признаков для задания AutoML.

Возвращаемое значение

Параметры табличных признаков для задания AutoML

Возвращаемый тип

id

Идентификатор ресурса.

Возвращаемое значение

Глобальный идентификатор ресурса, идентификатор Azure Resource Manager (ARM).

Возвращаемый тип

inputs

limits

Получение табличных ограничений для задания AutoML.

Возвращаемое значение

Табличные ограничения для задания AutoML

Возвращаемый тип

log_files

Выходные файлы задания.

Возвращаемое значение

Словарь имен журналов и URL-адресов.

Возвращаемый тип

log_verbosity

Получите подробные сведения о журнале для задания AutoML.

Возвращаемое значение

Детализация журнала для задания AutoML

Возвращаемый тип

<xref:LogVerbosity>

outputs

primary_metric

status

Состояние задания.

Обычно возвращаются значения Running (Выполняется), Completed (Завершено) и Failed (Сбой). Все возможные значения:

  • NotStarted — это временное состояние, в которое находятся клиентские объекты run до отправки в облако.

  • Starting — началась обработка запуска в облаке. На этом этапе вызывающий объект имеет идентификатор запуска.

  • Подготовка. Для отправки задания создается вычисление по запросу.

  • Подготовка — среда выполнения подготавливается и находится в одном из двух этапов:

    • Сборка образа Docker

    • настройка среды conda.

  • В очереди — задание помещается в очередь в целевом объекте вычислений. Например, в BatchAI задание находится в состоянии очереди.

    ожидая готовности всех запрошенных узлов.

  • Выполнение — задание началось для выполнения в целевом объекте вычислений.

  • Завершение — выполнение пользовательского кода завершено, а выполнение выполняется в этапах постобработки.

  • CancelRequested — для задания запрошена отмена.

  • Завершено — выполнение выполнено успешно. Сюда входит выполнение пользовательского кода и выполнение.

    пользовательского кода и запуска.

  • Failed — сбой запуска. Подробное описание причины как правило предоставляет свойство Error.

  • Canceled — применяется после запроса отмены и указывает, что выполнение теперь успешно отменено.

  • NotResponding — для запусков с включенными пульсами недавно не отправлялся пульс.

Возвращаемое значение

Состояние задания.

Возвращаемый тип

studio_url

Конечная точка Студии машинного обучения Azure.

Возвращаемое значение

URL-адрес страницы сведений о задании.

Возвращаемый тип

task_type

Получение типа задачи.

Возвращаемое значение

Тип выполняемой задачи. Возможные значения: "классификация", "регрессия", "прогнозирование".

Возвращаемый тип

str

test_data

Получение тестовых данных.

Возвращаемое значение

Тестовые входные данные

Возвращаемый тип

training

training_data

Получение обучающих данных.

Возвращаемое значение

Входные данные для обучения

Возвращаемый тип

type

Тип задания.

Возвращаемое значение

Тип задания.

Возвращаемый тип

validation_data

Получение данных проверки.

Возвращаемое значение

Входные данные проверки

Возвращаемый тип