AbstractDataset 类

参考

Azure 机器学习中的数据集的基类。

请引用 TabularDatasetFactory 类和 FileDatasetFactory 类以创建数据集的实例。

类 AbstractDataset 构造函数。

不应直接调用此构造函数。数据集旨在使用 TabularDatasetFactory 类和 FileDatasetFactory 类创建。

继承: builtins.object

AbstractDataset

构造函数

AbstractDataset()

方法

add_tags	将键值对添加到此数据集的标记字典。
as_named_input	为此数据集提供一个名称，该名称将用于检索运行中的具体化数据集。
get_all	获取工作区中所有已注册的数据集。
get_by_id	获取保存到工作区的 Dataset。
get_by_name	按注册名称从工作区获取已注册的数据集。
get_partition_key_values	返回 partition_keys 的唯一键值。验证 partition_keys 是否是完整分区键集的有效子集，返回 partition_keys 的唯一键值，默认通过采用此数据集的完整分区键集返回唯一键组合（如果 partition_keys 为 None） `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	将数据集注册到提供的工作区。
remove_tags	从此数据集的标记字典中删除指定的键。
unregister_all_versions	从工作区中注销此数据集的注册名称下的所有版本。
update	对数据集执行就地更新。

add_tags

将键值对添加到此数据集的标记字典。

add_tags(tags=None)

参数

tags: dict[str, str]

必需

要添加的标记字典。

已更新的数据集对象。

返回类型

Union[TabularDataset, FileDataset]

as_named_input

为此数据集提供一个名称，该名称将用于检索运行中的具体化数据集。

as_named_input(name)

参数

name: str

必需

运行的数据集的名称。

描述如何在运行中具体化数据集的配置对象。

返回类型

DatasetConsumptionConfig

注解

此处的名称仅在 Azure 机器学习运行内适用。名称必须仅包含字母数字和下划线字符，以便可以用作环境变量。可以使用此名称通过两种方法在运行的上下文中检索数据集：

环境变量：

名称将是环境变量名称，并且具体化数据集将可用作环境变量的值。如果已下载或已装载数据集，则值将是已下载/已装载的路径。例如：


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

注意

如果数据集设置为直接模式，则值将是数据集 ID。然后，可以

通过 Dataset.get_by_id(os.environ['foo']) 检索数据集对象

Run.input_datasets:

这是一个字典，其中键将是在此方法中指定的数据集名称，值将是具体化数据集。对于已下载和已装载的数据集，值将是已下载/已装载的路径。对于直接模式，值将是作业提交脚本中指定的同一数据集对象。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

获取工作区中所有已注册的数据集。

static get_all(workspace)

参数

workspace: Workspace

必需

注册数据集的现有 AzureML 工作区。

以其注册名称作为键的 TabularDataset 和 FileDataset 对象的字典。

返回类型

dict[str, Union[TabularDataset, FileDataset]]

get_by_id

获取保存到工作区的 Dataset。

static get_by_id(workspace, id, **kwargs)

参数

workspace: Workspace

必需

保存数据集的现有 AzureML 工作区。

id: str

必需

数据集的 ID。

数据集对象。如果注册了数据集，则还将返回其注册名称和版本。

返回类型

Union[TabularDataset, FileDataset]

get_by_name

按注册名称从工作区获取已注册的数据集。

static get_by_name(workspace, name, version='latest', **kwargs)

参数

workspace: Workspace

必需

在其中注册了 Dataset 的现有 AzureML 工作区。

name: str

必需

注册名称。

version: int

必需

注册版本。默认为“最新”。

已注册的数据集对象。

返回类型

Union[TabularDataset, FileDataset]

get_partition_key_values

返回 partition_keys 的唯一键值。

验证 partition_keys 是否是完整分区键集的有效子集，返回 partition_keys 的唯一键值，默认通过采用此数据集的完整分区键集返回唯一键组合（如果 partition_keys 为 None）


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

参数

partition_keys: list[str]

必需

分区键

register

将数据集注册到提供的工作区。

register(workspace, name, description=None, tags=None, create_new_version=False)

参数

workspace: Workspace

必需

要注册数据集的工作区。

name: str

必需

注册数据集所用的名称。

description: str

必需

数据集的文本说明。默认为“无”。

tags: dict[str, str]

必需

提供数据集的键值标记的字典。默认为“无”。

create_new_version: bool

必需

用于将数据集注册为指定名称下的新版本的布尔值。

已注册的数据集对象。

返回类型

Union[TabularDataset, FileDataset]

remove_tags

从此数据集的标记字典中删除指定的键。

remove_tags(tags=None)

参数

tags: list[str]

必需

要删除的键的列表。

已更新的数据集对象。

返回类型

Union[TabularDataset, FileDataset]

unregister_all_versions

从工作区中注销此数据集的注册名称下的所有版本。

unregister_all_versions()

注解

该操作不会更改任何源数据。

update

对数据集执行就地更新。

update(description=None, tags=None)

参数

description: str

必需

用于数据集的新说明。此说明将替换现有说明。默认为现有说明。若要清除说明，请输入空字符串。

tags: dict[str, str]

必需

用于更新数据集的标记的字典。这些标记将替换数据集的现有标记。默认为现有标记。若要清除标记，请输入空字典。

已更新的数据集对象。

返回类型

Union[TabularDataset, FileDataset]

属性

data_changed_time

返回源数据更改时间。

源数据发生最新更改的时间。

返回类型

datetime

注解

数据更改时间适用于基于文件的数据源。如果发生更改时不支持检查数据源，则不会返回任何数据。

description

返回注册说明。

数据集说明。

返回类型

str

id

返回数据集的标识符。

数据集 ID。如果数据集未保存到任何工作区，则 ID 将为“无”。

返回类型

str

name

返回注册名称。

数据集名称。

返回类型

str

partition_keys

返回分区键。

分区键

返回类型

list[str]

version

返回注册版本。

数据集版本。

返回类型

int

AbstractDataset 类

构造函数

方法

add_tags

参数

返回

返回类型

as_named_input

参数

返回

返回类型

注解

get_all

参数

返回

返回类型

get_by_id

参数

返回

返回类型

get_by_name

参数

返回

返回类型

get_partition_key_values

参数

register

参数

返回

返回类型

remove_tags

参数

返回

返回类型

unregister_all_versions

注解

update

参数

返回

返回类型

属性

data_changed_time

返回

返回类型

注解

description

返回

返回类型

id

返回

返回类型

name

返回

返回类型

partition_keys

返回

返回类型

tags

返回

返回类型

version

返回

返回类型

反馈

反馈

其他资源