AbstractDataset 类

Azure 机器学习中的数据集的基类。

请引用 TabularDatasetFactory 类和 FileDatasetFactory 类以创建数据集的实例。

类 AbstractDataset 构造函数。

不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类和 FileDatasetFactory 类创建。

继承
builtins.object
AbstractDataset

构造函数

AbstractDataset()

方法

add_tags

将键值对添加到此数据集的标记字典。

as_named_input

为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。

get_all

获取工作区中所有已注册的数据集。

get_by_id

获取保存到工作区的 Dataset。

get_by_name

按注册名称从工作区获取已注册的数据集。

get_partition_key_values

返回 partition_keys 的唯一键值。

验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

将数据集注册到提供的工作区。

remove_tags

从此数据集的标记字典中删除指定的键。

unregister_all_versions

从工作区中注销此数据集的注册名称下的所有版本。

update

对数据集执行就地更新。

add_tags

将键值对添加到此数据集的标记字典。

add_tags(tags=None)

参数

tags
dict[str, str]
必需

要添加的标记字典。

返回

已更新的数据集对象。

返回类型

as_named_input

为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。

as_named_input(name)

参数

name
str
必需

运行的数据集的名称。

返回

描述如何在运行中具体化数据集的配置对象。

返回类型

注解

此处的名称仅在 Azure 机器学习运行内适用。 名称必须仅包含字母数字和下划线字符,以便可以用作环境变量。 可以使用此名称通过两种方法在运行的上下文中检索数据集:

  • 环境变量:

    名称将是环境变量名称,并且具体化数据集将可用作环境变量的值。 如果已下载或已装载数据集,则值将是已下载/已装载的路径。 例如:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

注意

如果数据集设置为直接模式,则值将是数据集 ID。 然后,可以

通过 Dataset.get_by_id(os.environ['foo']) 检索数据集对象

  • Run.input_datasets:

    这是一个字典,其中键将是在此方法中指定的数据集名称,值将是具体化数据集。 对于已下载和已装载的数据集,值将是已下载/已装载的路径。 对于直接模式,值将是作业提交脚本中指定的同一数据集对象。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

获取工作区中所有已注册的数据集。

static get_all(workspace)

参数

workspace
Workspace
必需

注册数据集的现有 AzureML 工作区。

返回

以其注册名称作为键的 TabularDataset 和 FileDataset 对象的字典。

返回类型

get_by_id

获取保存到工作区的 Dataset。

static get_by_id(workspace, id, **kwargs)

参数

workspace
Workspace
必需

保存数据集的现有 AzureML 工作区。

id
str
必需

数据集的 ID。

返回

数据集对象。 如果注册了数据集,则还将返回其注册名称和版本。

返回类型

get_by_name

按注册名称从工作区获取已注册的数据集。

static get_by_name(workspace, name, version='latest', **kwargs)

参数

workspace
Workspace
必需

在其中注册了 Dataset 的现有 AzureML 工作区。

name
str
必需

注册名称。

version
int
必需

注册版本。 默认为“最新”。

返回

已注册的数据集对象。

返回类型

get_partition_key_values

返回 partition_keys 的唯一键值。

验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

参数

partition_keys
list[str]
必需

分区键

register

将数据集注册到提供的工作区。

register(workspace, name, description=None, tags=None, create_new_version=False)

参数

workspace
Workspace
必需

要注册数据集的工作区。

name
str
必需

注册数据集所用的名称。

description
str
必需

数据集的文本说明。 默认为“无”。

tags
dict[str, str]
必需

提供数据集的键值标记的字典。 默认为“无”。

create_new_version
bool
必需

用于将数据集注册为指定名称下的新版本的布尔值。

返回

已注册的数据集对象。

返回类型

remove_tags

从此数据集的标记字典中删除指定的键。

remove_tags(tags=None)

参数

tags
list[str]
必需

要删除的键的列表。

返回

已更新的数据集对象。

返回类型

unregister_all_versions

从工作区中注销此数据集的注册名称下的所有版本。

unregister_all_versions()

注解

该操作不会更改任何源数据。

update

对数据集执行就地更新。

update(description=None, tags=None)

参数

description
str
必需

用于数据集的新说明。 此说明将替换现有说明。 默认为现有说明。 若要清除说明,请输入空字符串。

tags
dict[str, str]
必需

用于更新数据集的标记的字典。 这些标记将替换数据集的现有标记。 默认为现有标记。 若要清除标记,请输入空字典。

返回

已更新的数据集对象。

返回类型

属性

data_changed_time

返回源数据更改时间。

返回

源数据发生最新更改的时间。

返回类型

注解

数据更改时间适用于基于文件的数据源。 如果发生更改时不支持检查数据源,则不会返回任何数据。

description

返回注册说明。

返回

数据集说明。

返回类型

str

id

返回数据集的标识符。

返回

数据集 ID。如果数据集未保存到任何工作区,则 ID 将为“无”。

返回类型

str

name

返回注册名称。

返回

数据集名称。

返回类型

str

partition_keys

返回分区键。

返回

分区键

返回类型

tags

返回注册标记。

返回

数据集标记。

返回类型

str

version

返回注册版本。

返回

数据集版本。

返回类型

int