DatasetSnapshot 类

使用操作管理数据集快照以获取快照,返回其状态,并将其转换为数据帧。

注意

此类已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation

Dataset 类的方法 create_snapshot 返回 DataSnapshot 对象。

数据集快照是配置文件和数据可选具体化副本的组合。

若要详细了解数据集快照,请转到 https://aka.ms/azureml/howto/createsnapshots

继承
builtins.object
DatasetSnapshot

构造函数

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

参数

workspace
<xref:azureml.core.Workspace.>
必需

数据集注册到的工作区。

snapshot_name
str
必需

数据集快照的名称。

dataset_id
str
必需

返回数据集的标识符。

definition_version
str
必需

数据集的定义版本。

time_stamp
datetime
必需

快照创建时间。

profile_action_id
str
必需

快照配置文件操作 ID。

datastore_name
str
必需

快照数据存储名称。

relative_path
str
必需

快照数据的相对路径。

dataset_name
str
必需

数据集的名称。

方法

compare_profiles

将当前数据集配置文件与 rhs_dataset 配置文件进行比较。

如果配置文件不存在,则此方法将引发异常。

get

按快照名称获取数据集的快照。

get_all

获取给定数据集的所有快照。

get_profile

获取数据集快照的配置文件。

get_status

获取数据集快照创建状态。

is_data_snapshot_available

检查快照的具体化副本是否可用。

to_pandas_dataframe

通过加载随快照一起保存的数据,创建 Pandas 数据帧。

to_spark_dataframe

通过加载随快照一起保存的数据,创建 Spark 数据帧。

wait_for_completion

等待 DatasetSnapshot 生成完成。

compare_profiles

将当前数据集配置文件与 rhs_dataset 配置文件进行比较。

如果配置文件不存在,则此方法将引发异常。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

参数

rhs_dataset_snapshot
DatasetSnapshot
必需

要进行比较的数据集快照。

include_columns
list[str]
默认值: None

要包括在比较中的列名列表。

exclude_columns
list[str]
默认值: None

要从比较中排除的列名列表。

histogram_compare_method
HistogramCompareMethod
默认值: HistogramCompareMethod.WASSERSTEIN

描述比较方法的枚举,例如:WASSERSTEIN 或 ENERGY。

返回

配置文件之间的差异。

返回类型

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

按快照名称获取数据集的快照。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

参数

workspace
Workspace
必需

数据集注册到的工作区。

snapshot_name
str
必需

数据集快照的名称。

dataset_name
必需

数据集的名称。

dataset_id
uuid
必需

返回数据集的标识符。

返回

DatasetSnapshot 对象。

返回类型

get_all

获取给定数据集的所有快照。

static get_all(workspace, dataset_name)

参数

workspace
Workspace
必需

数据集注册到的工作区。

dataset_name
必需

数据集的名称。

返回

数据集快照列表

返回类型

get_profile

获取数据集快照的配置文件。

get_profile()

返回

数据集快照的数据配置文件

返回类型

<xref:azureml.dataprep.DataProfile>

get_status

获取数据集快照创建状态。

get_status()

返回

数据集快照的状态。

返回类型

str

is_data_snapshot_available

检查快照的具体化副本是否可用。

is_data_snapshot_available()

返回

如果数据快照可用,则为 True。

返回类型

to_pandas_dataframe

通过加载随快照一起保存的数据,创建 Pandas 数据帧。

to_pandas_dataframe()

返回

Pandas DataFrame。

返回类型

注解

Pandas 数据帧在内存中完全具体化。 如果快照是使用 create_data_snapshot=False 创建的,则会引发异常。 若要检查快照是否包含数据,请使用函数 is_data_snapshot_available

to_spark_dataframe

通过加载随快照一起保存的数据,创建 Spark 数据帧。

to_spark_dataframe()

返回

Spark DataFrame。

返回类型

注解

Spark Dataframe 返回的只是一个执行计划,并不实际包含任何数据,因为 Spark Dataframe 是被延迟计算的。 如果快照是使用 create_data_snapshot=False 创建的,则当你尝试访问数据时会引发异常。 若要检查快照是否包含数据,请使用 is_data_snapshot_available

wait_for_completion

等待 DatasetSnapshot 生成完成。

wait_for_completion(show_output=True, status_update_frequency=10)

参数

show_output
bool
默认值: True

指示该方法是否将列显输出。

status_update_frequency
int
默认值: 10

操作运行状态更新频率(以秒为单位)。

属性

dataset_id

获取数据集标识符。

返回

数据集 ID。

返回类型

str

name

获取数据集快照名称。

返回

数据集快照名称。

返回类型

str

workspace

获取注册了数据集的 Azure 机器学习工作区。

返回

数据集注册到的工作区。

返回类型