AutoMLPipelineBuilder 类
注意
这是一个试验性的类,随时可能更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental。
管道生成器类。
此类用于通过使用高级建模技术为 AutoML 训练生成管道(包括许多模型和分层时序)。
- 继承
-
builtins.objectAutoMLPipelineBuilder
构造函数
AutoMLPipelineBuilder(*args, **kwargs)
方法
| get_many_models_batch_inference_steps |
获取管道步骤 AutoML 多个模型推理。 此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。 |
| get_many_models_train_steps |
获取管道步骤 AutoML 多个模型训练。 此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。 |
get_many_models_batch_inference_steps
获取管道步骤 AutoML 多个模型推理。
此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。
static get_many_models_batch_inference_steps(experiment: azureml.core.experiment.Experiment, inference_data: Union[azureml.data.file_dataset.FileDataset, azureml.data.tabular_dataset.TabularDataset, azureml.data.dataset_consumption_config.DatasetConsumptionConfig], compute_target: Union[str, azureml.core.compute.compute.ComputeTarget], node_count: int, process_count_per_node: int = 2, run_invocation_timeout: int = 3700, mini_batch_size=10, inference_pipeline_parameters: Optional[Union[azureml.train.automl.runtime._hts.hts_parameters.HTSInferenceParameters, azureml.train.automl.runtime._many_models.many_models_parameters.ManyModelsInferenceParameters]] = None, output_datastore: Optional[Union[azureml.core.datastore.Datastore, azureml.data.output_dataset_config.OutputDatasetConfig]] = None, train_run_id: Optional[str] = None, train_experiment_name: Optional[str] = None, inference_env: Optional[azureml.core.environment.Environment] = None, time_column_name: Optional[str] = None, target_column_name: Optional[str] = None, partition_column_names: Optional[List[str]] = None, arguments: Optional[List[str]] = None, append_row_file_name: Optional[str] = None) -> List[azureml.pipeline.core.builder.PipelineStep]
参数
- experiment
试验对象。
- inference_data
用于训练的数据。
- compute_target
管道步骤要使用的计算目标名称或计算目标。
- node_count
可分发工作时管道步骤要使用的节点数。 如果使用 amlcompute,则该值应小于或等于计算目标的 max_nodes。
- process_count_per_node
可分发工作时每个节点使用的进程数。 此值应小于或等于计算目标的核心数。
- run_invocation_timeout
指定推理批处理的超时。
- mini_batch_size
最小批处理大小,指示计算上一个进程将处理的批处理数。
- output_datastore
要用于输出的数据存储或 outputdatasetconfig。 如果指定,会将任何管道输出写入该位置。 如果未指定,将使用默认数据存储。
- train_run_id
训练运行 ID,用于为推理获取适当的环境。
- train_experiment_name
训练试验名称,用于为推理获取适当的环境。
- inference_env
指定用于训练的环境定义。 如果未指定,将使用最新特选环境。
- time_column_name
可选参数,用于时序
- target_column_name
仅当推理数据包含目标列时,才需要传递。
- arguments
要传递到训练脚本的参数。
- partition_column_names
分区列名称。
- inference_pipeline_parameters
用于推理的管道参数。
- append_row_file_name
输出文件的名称 (可选,默认值为“parallel_run_step.txt”) 。 支持“txt”和“csv”文件扩展名。 “txt”文件扩展名以“txt”格式生成输出,其中包含空格作为分隔符而不带列名。 “csv”文件扩展名使用逗号作为分隔符和列名以“csv”格式生成输出。
返回
将使用推理数据执行批处理推理的步骤列表,
get_many_models_train_steps
获取管道步骤 AutoML 多个模型训练。
此方法将生成一个步骤列表,此列表通过 ParallelRunStep 使用 AutoML 多个模型方案以用于训练。
static get_many_models_train_steps(experiment: azureml.core.experiment.Experiment, train_data: Union[azureml.data.file_dataset.FileDataset, azureml.data.tabular_dataset.TabularDataset, azureml.data.dataset_consumption_config.DatasetConsumptionConfig], compute_target: Union[str, azureml.core.compute.compute.ComputeTarget], node_count: int, automl_settings: Optional[Dict[str, Any]] = None, partition_column_names: Optional[List[str]] = None, process_count_per_node: int = 2, run_invocation_timeout: int = 3700, train_pipeline_parameters: Optional[Union[azureml.train.automl.runtime._many_models.many_models_parameters.ManyModelsTrainParameters, azureml.train.automl.runtime._hts.hts_parameters.HTSTrainParameters]] = None, output_datastore: Optional[azureml.core.datastore.Datastore] = None, train_env: Optional[str] = None, arguments: Optional[List[Union[str, int]]] = None) -> List[azureml.pipeline.core.builder.PipelineStep]
参数
- experiment
试验对象。
- automl_settings
用于在训练期间触发 AutoML 运行的 AutoML 配置设置。
- train_data
用于训练的数据。
- compute_target
管道步骤要使用的计算目标名称或计算目标。
- train_pipeline_parameters
用于获取训练管道的管道参数。
- partition_column_names
用于对输入数据进行分区的列名称。
- node_count
可分发工作时管道步骤要使用的节点数。 如果使用 amlcompute,则该值应小于或等于计算目标的 max_nodes。
- process_count_per_node
可分发工作时每个节点使用的进程数。 此值应小于或等于计算目标的核心数。
- run_invocation_timeout
指定每个 AutoML 运行的超时。
- output_datastore
要用于输出的数据存储。 如果指定,会将任何管道输出写入该位置。 如果未指定,将使用默认数据存储。
- train_env
指定用于训练的环境定义。 如果未指定,将使用最新特选环境。
- arguments
要传递到训练脚本的参数。
返回
步骤列表,它将数据预处理到所需的 training_level(在 automl_settings 中设置),并训练和注册 automl 模型。
反馈
提交和查看相关反馈