RunConfiguration 类

参考

表示针对 Azure 机器学习中不同计算目标的试验运行配置。

RunConfiguration 对象封装在试验中提交训练运行所需的信息。通常，不会直接创建 RunConfiguration 对象，而是从返回 RunConfiguration 对象的方法中获取一个，例如 Experiment 类的 submit 方法。

RunConfiguration 是一种基础环境配置，也用于其他类型的配置步骤，具体取决于要触发的运行类型。例如，设置 PythonScriptStep 时，可以访问步骤的 RunConfiguration 对象并配置 Conda 依赖项或访问运行的环境属性。

有关示例运行配置，请参阅选择并使用计算目标来训练模型。

使用默认设置初始化 RunConfiguration。

继承: azureml._base_sdk_common.abstract_run_config_element._AbstractRunConfigElement

RunConfiguration

构造函数

RunConfiguration(script=None, arguments=None, framework=None, communicator=None, conda_dependencies=None, _history_enabled=None, _path=None, _name=None, command=None)

参数

script: str

默认值: None

Python 脚本文件的相对路径。相对于传递给 submit 的源目录的文件路径。

arguments: list[str]

默认值: None

Python 脚本文件的命令行参数。

framework: str

默认值: None

运行中使用的目标框架。受支持的框架包括 Python、PySpark、TensorFlow 和 PyTorch。

communicator: str

默认值: None

运行中使用的通信器。受支持通信器包括 None、ParameterServer、OpenMpi 和 IntelMpi。请记住，OpenMpi 需要安装 OpenMpi 的自定义映像。对 AmlCompute 群集使用 ParameterServer 或 OpenMpi。将 IntelMpi 用于分布式训练作业。

conda_dependencies: CondaDependencies

默认值: None

当保留为默认值 False 时，系统将创建一个 Python 环境，其中包括 conda_dependencies 中指定的包。如果设置为 True，可以通过 python_interpreter 设置指定现有 Python 环境。

auto_prepare_environment: bool

必需

已弃用。该设置不再使用。

command: list[str] 或 str

默认值: None

要为运行提交的命令。命令属性也可以用来替代脚本/参数。命令和脚本/参数属性不能一起用于提交运行。要上传脚本文件，使用命令参数 - ['python', 'train.py', '–arg1', arg1_val]，运行实际命令 - ['ls']

_history_enabled

默认值: None

_path

默认值: None

_name

默认值: None

注解

我们通常生成机器学习系统来解决特定问题。例如，我们可能需要找到最适合的模型来对网页进行排序，这可能被用作与查询相对应的搜索结果。在搜索最适合的机器学习模型时，我们可能需要尝试不同的算法，或考虑不同的参数设置等。

在 Azure 机器学习 SDK 中，我们使用试验的概念来抓住这样一个想法，即不同的训练允许与其试图解决的问题是相关的。然后 Experiment 充当这些训练运行的逻辑容器，以便更轻松地跟踪训练运行的进度、直接比较两个训练运行，等等。

RunConfiguration 封装在试验中提交训练运行所需的执行环境设置。它捕获旨在解决相同机器学习问题的训练运行的共享结构，以及配置参数 (的差异，例如，学习率、损失函数等，) 区分不同的训练运行。

在典型的训练方案中，通过创建对象 ScriptRunConfig 来使用 RunConfiguration，该对象将 RunConfiguration 对象和执行脚本打包在一起以用于训练。

RunConfiguration 的配置包括：

捆绑试验源目录，包括提交的脚本。
为提交的脚本设置命令行参数。
配置 Python 解释器的路径。
获取 Conda 配置以管理应用程序依赖项。作业提交过程可以使用配置来预配临时 Conda 环境，并启动其中的应用程序。临时环境会缓存并在后续运行中重复使用。
Docker 和自定义基础映像的可选使用。
关于将试验提交到多种类型的 Azure 计算的可选项。
关于配置如何具体化输入和上传输出的可选项。
适用于常见运行时（如 Spark 和 Tensorflow）的高级运行时设置。

以下示例演示如何在本地计算机上提交训练脚本。


   from azureml.core import ScriptRunConfig, RunConfiguration, Experiment

   # create or load an experiment
   experiment = Experiment(workspace, "MyExperiment")
   # run a trial from the train.py code in your current directory
   config = ScriptRunConfig(source_directory='.', script='train.py',
       run_config=RunConfiguration())
   run = experiment.submit(config)

以下示例演示如何使用命令属性（而不是脚本和参数）在群集上提交训练脚本。


   from azureml.core import ScriptRunConfig, Experiment
   # create or load an experiment
   experiment = Experiment(workspace, 'MyExperiment')
   # create or retrieve a compute target
   cluster = workspace.compute_targets['MyCluster']
   # create or retrieve an environment
   env = Environment.get(ws, name='MyEnvironment')
   # configure and submit your training run
   config = ScriptRunConfig(source_directory='.',
                            command=['python', 'train.py', '--arg1', arg1_val],
                            compute_target=cluster,
                            environment=env)
   script_run = experiment.submit(config)

以下示例演示如何在群集中运行命令。


   from azureml.core import ScriptRunConfig, Experiment
   # create or load an experiment
   experiment = Experiment(workspace, 'MyExperiment')
   # create or retrieve a compute target
   cluster = workspace.compute_targets['MyCluster']
   # create or retrieve an environment
   env = Environment.get(ws, name='MyEnvironment')
   # configure and submit your training run
   config = ScriptRunConfig(source_directory='.',
                            command=['ls', '-l'],
                            compute_target=cluster,
                            environment=env)
   script_run = experiment.submit(config)

变量

environment: Environment

环境定义。此字段配置 Python 环境。可以将其配置为使用现有的 Python 环境，也可以将其配置为设置试验临时环境。定义还负责设置所需的应用程序依赖项。

max_run_duration_seconds: int

允许运行花费的最长时间。如果运行时间超过此值，系统会尝试自动取消运行。

node_count: int

用于作业的节点数。

priority: int

用于计划策略的作业优先级。

history: HistoryConfiguration

用于禁用和启用试验历史记录日志记录功能的配置节。

spark: SparkConfiguration

当平台设置为 PySpark 时，Spark 配置节用于为提交的作业设置默认 SparkConf。

hdi: HdiConfiguration

HDI 配置节仅在目标设置为 Azure HDI 计算时生效。 HDI 配置用于设置 YARN 部署模式。默认部署模式为群集。

docker: DockerConfiguration

Docker 配置节用于为 Docker 环境设置变量。

tensorflow: TensorflowConfiguration

用于配置分布式 TensorFlow 参数的配置节。此参数仅在 framework 设置为 TensorFlow 且 communicator 设置为 ParameterServer 时生效。 AmlCompute 是此配置唯一支持的计算。

mpi: MpiConfiguration

用于配置分布式 MPI 作业参数的配置节。仅当 framework 设置为 Python 且 communicator 设置为 OpenMpi 或 IntelMpi 时，此参数才会生效。 AmlCompute 是此配置唯一支持的计算类型。

pytorch: PyTorchConfiguration

用于配置分布式 PyTorch 作业参数的配置节。仅当 framework 设置为 PyTorch 且 communicator 设置为 Nccl 或 Gloo 时，此参数才会生效。 AmlCompute 是此配置唯一支持的计算类型。

paralleltask: ParallelTaskConfiguration

用于配置分布式并行任务作业参数的配置节。仅当 framework 设置为 Python 且 communicator 设置为 ParallelTask 时，此参数才会生效。 AmlCompute 是此配置唯一支持的计算类型。

data_references: dict[str, DataReferenceConfiguration]

基于每个配置，所有数据源都可用于执行期间的运行。对于字典的每一项，键是为数据源提供的名称，值为 DataReferenceConfiguration。

data: dict[str, Data]

在执行期间可用于运行的所有数据。

datacaches: <xref:buildin.list>[DatacacheConfiguration]

在执行期间使 datacache 可用于运行的所有数据。

output_data: OutputData

应该为此运行上传并跟踪的所有输出。

source_directory_data_store: str

用于项目共享的备份数据存储。

amlcompute: AmlComputeConfiguration

要在试验期间创建的计算目标的详细信息。此配置仅在计算目标为 AmlCompute 时生效。

kubernetescompute: KubernetesComputeConfiguration

要在试验期间使用的计算目标的详细信息。此配置仅在计算目标为 KubernetesCompute 时生效。

services: dict[str, ApplicationEndpointConfiguration]

要与计算资源交互的终结点。允许的终结点为 Jupyter、JupyterLab、VS Code、Tensorboard、SSH 和 Custom 端口。

方法

delete

删除运行配置文件。

如果找不到配置文件，则引发 UserErrorException。

load

从磁盘上文件加载以前保存的运行配置文件。

如果 path 指向某文件，则从该文件加载 RunConfiguration。

如果 path 指向某目录（应该为项目目录），则从 <path>/.azureml/<name> 或 <path>/aml_config/<name> 加载 RunConfiguration。

save

将 RunConfiguration 保存到磁盘上的文件。

引发 UserErrorException 的情况：

无法用指定名称保存 RunConfiguration。
未指定 name 参数。
path 参数无效。

如果 path 的格式为 <dir_path>/<file_name>，其中 <dir_path> 是有效目录，则 RunConfiguration 的保存位置为 <dir_path>/<file_name>。

如果 path 指向某目录（应该为项目目录），则在 <path>/.azureml/<name> 或 <path>/aml_config/<name> 保存 RunConfiguration。

在手动编辑配置或与 CLI 共享配置时，此方法非常有用。

delete

删除运行配置文件。

如果找不到配置文件，则引发 UserErrorException。

static delete(path, name)

参数

path: str

必需

用户为运行配置选择根目录。通常，这是 Git 存储库或 Python 项目根目录。将从名为 .azureml 的子目录中删除配置。

name: str

必需

配置文件名称。

例外

UserErrorException

load

从磁盘上文件加载以前保存的运行配置文件。

如果 path 指向某文件，则从该文件加载 RunConfiguration。

如果 path 指向某目录（应该为项目目录），则从 <path>/.azureml/<name> 或 <path>/aml_config/<name> 加载 RunConfiguration。

static load(path, name=None)

参数

path: str

必需

用户为运行配置选择根目录。通常，这是 Git 存储库或 Python 项目根目录。为实现后向兼容性，还将从 .azureml 或 aml_config子目录中加载配置。如果文件不在这些目录中，则从指定路径加载该文件。

name: str

默认值: None

配置文件名称。

运行配置对象。

返回类型

RunConfiguration

例外

UserErrorException

save

将 RunConfiguration 保存到磁盘上的文件。

引发 UserErrorException 的情况：

无法用指定名称保存 RunConfiguration。
未指定 name 参数。
path 参数无效。

如果 path 的格式为 <dir_path>/<file_name>，其中 <dir_path> 是有效目录，则 RunConfiguration 的保存位置为 <dir_path>/<file_name>。

如果 path 指向某目录（应该为项目目录），则在 <path>/.azureml/<name> 或 <path>/aml_config/<name> 保存 RunConfiguration。

在手动编辑配置或与 CLI 共享配置时，此方法非常有用。

save(path=None, name=None, separate_environment_yaml=False)

参数

separate_environment_yaml: bool

默认值: False

指示是否保存 Conda 环境配置。如果为 True，则 Conda 环境配置将保存到名为 environment.yml 的 YAML 文件中。

path: str

默认值: None

用户为运行配置选择根目录。通常，这是 Git 存储库或 Python 项目根目录。配置将保存到名为 .azureml 的子目录中。

name: str

默认值: None

[必需] 配置文件名。

返回类型

None

例外

UserErrorException

属性

auto_prepare_environment

获取 auto_prepare_environment 参数。这是已弃用且未使用的设置。

environment_variables

运行时环境变量。

运行时变量

返回类型

dict[str, str]

target

获取计划执行作业的计算目标。

默认目标是“本地”，指的是本机计算机。可以使用函数 compute_targets 找到可用的云计算目标。

目标名称

返回类型

str

RunConfiguration 类

构造函数

参数

注解

变量

方法

delete

参数

例外

load

参数

返回

返回类型

例外

save

参数

返回类型

例外

属性

auto_prepare_environment

environment_variables

返回

返回类型

target

返回

返回类型

反馈

反馈

其他资源