AbstractDataset 类
Azure 机器学习中的数据集的基类。
请引用 TabularDatasetFactory 类和 FileDatasetFactory 类以创建数据集的实例。
类 AbstractDataset 构造函数。
不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类和 FileDatasetFactory 类创建。
- 继承
-
builtins.objectAbstractDataset
构造函数
AbstractDataset()
方法
add_tags |
将键值对添加到此数据集的标记字典。 |
as_named_input |
为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。 |
get_all |
获取工作区中所有已注册的数据集。 |
get_by_id |
获取保存到工作区的 Dataset。 |
get_by_name |
按注册名称从工作区获取已注册的数据集。 |
get_partition_key_values |
返回 partition_keys 的唯一键值。 验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)
|
register |
将数据集注册到提供的工作区。 |
remove_tags |
从此数据集的标记字典中删除指定的键。 |
unregister_all_versions |
从工作区中注销此数据集的注册名称下的所有版本。 |
update |
对数据集执行就地更新。 |
add_tags
将键值对添加到此数据集的标记字典。
add_tags(tags=None)
参数
返回
已更新的数据集对象。
返回类型
as_named_input
为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。
as_named_input(name)
参数
返回
描述如何在运行中具体化数据集的配置对象。
返回类型
注解
此处的名称仅在 Azure 机器学习运行内适用。 名称必须仅包含字母数字和下划线字符,以便可以用作环境变量。 可以使用此名称通过两种方法在运行的上下文中检索数据集:
环境变量:
名称将是环境变量名称,并且具体化数据集将可用作环境变量的值。 如果已下载或已装载数据集,则值将是已下载/已装载的路径。 例如:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
注意
如果数据集设置为直接模式,则值将是数据集 ID。 然后,可以
通过 Dataset.get_by_id(os.environ['foo']) 检索数据集对象
Run.input_datasets:
这是一个字典,其中键将是在此方法中指定的数据集名称,值将是具体化数据集。 对于已下载和已装载的数据集,值将是已下载/已装载的路径。 对于直接模式,值将是作业提交脚本中指定的同一数据集对象。
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
获取工作区中所有已注册的数据集。
static get_all(workspace)
参数
返回
以其注册名称作为键的 TabularDataset 和 FileDataset 对象的字典。
返回类型
get_by_id
获取保存到工作区的 Dataset。
static get_by_id(workspace, id, **kwargs)
参数
返回
数据集对象。 如果注册了数据集,则还将返回其注册名称和版本。
返回类型
get_by_name
按注册名称从工作区获取已注册的数据集。
static get_by_name(workspace, name, version='latest', **kwargs)
参数
返回
已注册的数据集对象。
返回类型
get_partition_key_values
返回 partition_keys 的唯一键值。
验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
参数
register
将数据集注册到提供的工作区。
register(workspace, name, description=None, tags=None, create_new_version=False)
参数
返回
已注册的数据集对象。
返回类型
remove_tags
从此数据集的标记字典中删除指定的键。
remove_tags(tags=None)
参数
返回
已更新的数据集对象。
返回类型
unregister_all_versions
从工作区中注销此数据集的注册名称下的所有版本。
unregister_all_versions()
注解
该操作不会更改任何源数据。
update
对数据集执行就地更新。
update(description=None, tags=None)
参数
返回
已更新的数据集对象。
返回类型
属性
data_changed_time
description
id
name
partition_keys
tags
version
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈