AutoMLPipelineBuilder 类

注意

这是一个试验性的类,随时可能更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental

管道生成器类。

此类用于通过使用高级建模技术为 AutoML 训练生成管道(包括许多模型和分层时序)。

继承
builtins.object
AutoMLPipelineBuilder

构造函数

AutoMLPipelineBuilder(*args, **kwargs)

方法

get_many_models_batch_inference_steps

获取管道步骤 AutoML 多个模型推理。

此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。

get_many_models_train_steps

获取管道步骤 AutoML 多个模型训练。

此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。

get_many_models_batch_inference_steps

获取管道步骤 AutoML 多个模型推理。

此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。

static get_many_models_batch_inference_steps(experiment: azureml.core.experiment.Experiment, inference_data: Union[azureml.data.file_dataset.FileDataset, azureml.data.tabular_dataset.TabularDataset, azureml.data.dataset_consumption_config.DatasetConsumptionConfig], compute_target: Union[str, azureml.core.compute.compute.ComputeTarget], node_count: int, process_count_per_node: int = 2, run_invocation_timeout: int = 3700, mini_batch_size=10, inference_pipeline_parameters: Optional[Union[azureml.train.automl.runtime._hts.hts_parameters.HTSInferenceParameters, azureml.train.automl.runtime._many_models.many_models_parameters.ManyModelsInferenceParameters]] = None, output_datastore: Optional[Union[azureml.core.datastore.Datastore, azureml.data.output_dataset_config.OutputDatasetConfig]] = None, train_run_id: Optional[str] = None, train_experiment_name: Optional[str] = None, inference_env: Optional[azureml.core.environment.Environment] = None, time_column_name: Optional[str] = None, target_column_name: Optional[str] = None, partition_column_names: Optional[List[str]] = None, arguments: Optional[List[str]] = None, append_row_file_name: Optional[str] = None) -> List[azureml.pipeline.core.builder.PipelineStep]

参数

experiment
必需

试验对象。

inference_data
必需

用于训练的数据。

compute_target
必需

管道步骤要使用的计算目标名称或计算目标。

node_count
必需

可分发工作时管道步骤要使用的节点数。 如果使用 amlcompute,则该值应小于或等于计算目标的 max_nodes。

process_count_per_node
默认值: 2

可分发工作时每个节点使用的进程数。 此值应小于或等于计算目标的核心数。

run_invocation_timeout
默认值: 3700

指定推理批处理的超时。

mini_batch_size
默认值: 10

最小批处理大小,指示计算上一个进程将处理的批处理数。

output_datastore
默认值: None

要用于输出的数据存储或 outputdatasetconfig。 如果指定,会将任何管道输出写入该位置。 如果未指定,将使用默认数据存储。

train_run_id
默认值: None

训练运行 ID,用于为推理获取适当的环境。

train_experiment_name
默认值: None

训练试验名称,用于为推理获取适当的环境。

inference_env
默认值: None

指定用于训练的环境定义。 如果未指定,将使用最新特选环境。

time_column_name
默认值: None

可选参数,用于时序

target_column_name
默认值: None

仅当推理数据包含目标列时,才需要传递。

arguments
默认值: None

要传递到训练脚本的参数。

partition_column_names
默认值: None

分区列名称。

inference_pipeline_parameters
默认值: None

用于推理的管道参数。

append_row_file_name
默认值: None

输出文件的名称 (可选,默认值为“parallel_run_step.txt”) 。 支持“txt”和“csv”文件扩展名。 “txt”文件扩展名以“txt”格式生成输出,其中包含空格作为分隔符而不带列名。 “csv”文件扩展名使用逗号作为分隔符和列名以“csv”格式生成输出。

返回

将使用推理数据执行批处理推理的步骤列表,

get_many_models_train_steps

获取管道步骤 AutoML 多个模型训练。

此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。

static get_many_models_train_steps(experiment: azureml.core.experiment.Experiment, train_data: Union[azureml.data.file_dataset.FileDataset, azureml.data.tabular_dataset.TabularDataset, azureml.data.dataset_consumption_config.DatasetConsumptionConfig], compute_target: Union[str, azureml.core.compute.compute.ComputeTarget], node_count: int, automl_settings: Optional[Dict[str, Any]] = None, partition_column_names: Optional[List[str]] = None, process_count_per_node: int = 2, run_invocation_timeout: int = 3700, train_pipeline_parameters: Optional[Union[azureml.train.automl.runtime._many_models.many_models_parameters.ManyModelsTrainParameters, azureml.train.automl.runtime._hts.hts_parameters.HTSTrainParameters]] = None, output_datastore: Optional[azureml.core.datastore.Datastore] = None, train_env: Optional[str] = None, arguments: Optional[List[Union[str, int]]] = None) -> List[azureml.pipeline.core.builder.PipelineStep]

参数

experiment
必需

试验对象。

automl_settings
必需

用于在训练期间触发 AutoML 运行的 AutoML 配置设置。

train_data
必需

用于训练的数据。

compute_target
必需

管道步骤要使用的计算目标名称或计算目标。

train_pipeline_parameters
默认值: None

用于获取训练管道的管道参数。

partition_column_names
默认值: None

用于对输入数据进行分区的列名称。

node_count
默认值: 2

可分发工作时管道步骤要使用的节点数。 如果使用 amlcompute,则该值应小于或等于计算目标的 max_nodes。

process_count_per_node
默认值: 3700

可分发工作时每个节点使用的进程数。 此值应小于或等于计算目标的核心数。

run_invocation_timeout
默认值: None

指定每个 AutoML 运行的超时。

output_datastore
默认值: None

要用于输出的数据存储。 如果指定,会将任何管道输出写入该位置。 如果未指定,将使用默认数据存储。

train_env
默认值: None

指定用于训练的环境定义。 如果未指定,将使用最新特选环境。

arguments
默认值: None

要传递到训练脚本的参数。

返回

步骤列表,它将数据预处理到所需的 training_level(在 automl_settings 中设置),并训练和注册 automl 模型。