DatasetSnapshot 类
使用操作管理数据集快照以获取快照,返回其状态,并将其转换为数据帧。
注意
此类已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation。
从 Dataset 类的方法 create_snapshot 返回 DataSnapshot 对象。
数据集快照是配置文件和数据可选具体化副本的组合。
若要详细了解数据集快照,请转到 https://aka.ms/azureml/howto/createsnapshots
- 继承
-
builtins.objectDatasetSnapshot
构造函数
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
参数
- workspace
- <xref:azureml.core.Workspace.>
数据集注册到的工作区。
方法
compare_profiles |
将当前数据集配置文件与 rhs_dataset 配置文件进行比较。 如果配置文件不存在,则此方法将引发异常。 |
get |
按快照名称获取数据集的快照。 |
get_all |
获取给定数据集的所有快照。 |
get_profile |
获取数据集快照的配置文件。 |
get_status |
获取数据集快照创建状态。 |
is_data_snapshot_available |
检查快照的具体化副本是否可用。 |
to_pandas_dataframe |
通过加载随快照一起保存的数据,创建 Pandas 数据帧。 |
to_spark_dataframe |
通过加载随快照一起保存的数据,创建 Spark 数据帧。 |
wait_for_completion |
等待 DatasetSnapshot 生成完成。 |
compare_profiles
将当前数据集配置文件与 rhs_dataset 配置文件进行比较。
如果配置文件不存在,则此方法将引发异常。
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
参数
- histogram_compare_method
- HistogramCompareMethod
描述比较方法的枚举,例如:WASSERSTEIN 或 ENERGY。
返回
配置文件之间的差异。
返回类型
get
按快照名称获取数据集的快照。
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
参数
- dataset_name
数据集的名称。
返回
DatasetSnapshot 对象。
返回类型
get_all
获取给定数据集的所有快照。
static get_all(workspace, dataset_name)
参数
- dataset_name
数据集的名称。
返回
数据集快照列表
返回类型
get_profile
获取数据集快照的配置文件。
get_profile()
返回
数据集快照的数据配置文件
返回类型
get_status
is_data_snapshot_available
to_pandas_dataframe
通过加载随快照一起保存的数据,创建 Pandas 数据帧。
to_pandas_dataframe()
返回
Pandas DataFrame。
返回类型
注解
Pandas 数据帧在内存中完全具体化。 如果快照是使用 create_data_snapshot=False
创建的,则会引发异常。 若要检查快照是否包含数据,请使用函数 is_data_snapshot_available。
to_spark_dataframe
通过加载随快照一起保存的数据,创建 Spark 数据帧。
to_spark_dataframe()
返回
Spark DataFrame。
返回类型
注解
Spark Dataframe 返回的只是一个执行计划,并不实际包含任何数据,因为 Spark Dataframe 是被延迟计算的。 如果快照是使用 create_data_snapshot=False
创建的,则当你尝试访问数据时会引发异常。 若要检查快照是否包含数据,请使用 is_data_snapshot_available。
wait_for_completion
等待 DatasetSnapshot 生成完成。
wait_for_completion(show_output=True, status_update_frequency=10)
参数
属性
dataset_id
name
workspace
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈