builder 模块

定义用于生成 Azure 机器学习管道的类。

管道图包含管道步骤 (PipelineStep),在每个步骤中生成或使用的可选管道数据 (PipelineData),以及可选的步骤执行序列 (StepSequence)。

PipelineData

表示 Azure 机器学习管道中的中间数据。

管道中使用的数据可以通过一个步骤生成,并在另一个步骤中通过提供 PipelineData 对象作为一个步骤的输出以及一个或多个后续步骤的输入来使用。

请注意:如果要使用管道数据,请确保使用的目录已存在。

下面是一个可确保目录已存在的 Python 示例,其中假设你在一个管道步骤中有一个名为 output_folder 的输出端口,你想要将一些数据写入此文件夹中的相对路径。


   import os
   os.makedirs(args.output_folder, exist_ok=True)
   f = open(args.output_folder + '/relative_path/file_name', 'w+')

PipelineData 使用 DataReference 基础,不再建议使用这种方法进行数据访问和传递,请改为使用 OutputFileDatasetConfig。可在此处找到示例:使用 OutputFileDatasetConfig 的管道

PipelineStep

表示 Azure 机器学习管道中的执行步骤。

管道是通过多个管道步骤构造的,这些步骤是管道中的不同计算单元。 每个步骤都可以独立运行,并使用独立的计算资源。 每个步骤通常都有自己的命名输入、输出和参数。

PipelineStep 是一种基类,其他为常见场景设计的内置步骤类继承自该基类(如 PythonScriptStepDataTransferStepHyperDriveStep)。

有关管道和 PipelineSteps 之间关系的概述,请参阅什么是 ML 管道

StepSequence

表示 Pipeline 中的步骤列表以及执行这些步骤的顺序。

初始化管道时,请使用 StepSequence 创建一个工作流,其中包含按特定顺序运行的步骤。