DatasetSnapshot 類別

使用作業管理資料集快照集,以取得貼齊、傳回其狀態,並將其轉換為數據框架。

注意

這個類別已被取代。 如需詳細資訊,請參閱 https://aka.ms/dataset-deprecation

DataSnapshot 物件是從 create_snapshot 類別的 方法傳 Dataset 回。

資料集快照集是設定檔和選擇性具體化資料複本的組合。

若要深入瞭解資料集快照集,請移至 https://aka.ms/azureml/howto/createsnapshots

繼承
builtins.object
DatasetSnapshot

建構函式

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

參數

workspace
<xref:azureml.core.Workspace.>
必要

資料集註冊所在的工作區。

snapshot_name
str
必要

資料集快照集的名稱。

dataset_id
str
必要

資料集的識別碼。

definition_version
str
必要

資料集的定義版本。

time_stamp
datetime
必要

快照集建立時間。

profile_action_id
str
必要

快照集設定檔動作識別碼。

datastore_name
str
必要

快照集資料存放區名稱。

relative_path
str
必要

快照集資料的相對路徑。

dataset_name
str
必要

資料集的名稱。

方法

compare_profiles

比較目前的資料集設定檔與rhs_dataset設定檔。

如果設定檔不存在,這個方法將會引發例外狀況。

get

依快照集名稱取得資料集的快照集。

get_all

取得指定資料集的所有快照集。

get_profile

取得資料集快照集的設定檔。

get_status

取得資料集快照集建立狀態。

is_data_snapshot_available

檢查快照集的具體化複本是否可用。

to_pandas_dataframe

載入與快照集一起儲存的資料,以建立 Pandas DataFrame。

to_spark_dataframe

載入與快照集一起儲存的資料,以建立 Spark 資料框架。

wait_for_completion

等候 DatasetSnapshot gene,完成。

compare_profiles

比較目前的資料集設定檔與rhs_dataset設定檔。

如果設定檔不存在,這個方法將會引發例外狀況。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

參數

rhs_dataset_snapshot
DatasetSnapshot
必要

要與 比較的資料集快照集。

include_columns
list[str]
預設值: None

要包含在比較中的資料行名稱清單。

exclude_columns
list[str]
預設值: None

比較中要排除的資料行名稱清單。

histogram_compare_method
HistogramCompareMethod
預設值: HistogramCompareMethod.WASSERSTEIN

描述比較方法的列舉,例如:WASSER一或能源。

傳回

設定檔之間的差異。

傳回類型

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

依快照集名稱取得資料集的快照集。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

參數

workspace
Workspace
必要

資料集註冊所在的工作區。

snapshot_name
str
必要

資料集快照集的名稱。

dataset_name
必要

資料集的名稱。

dataset_id
uuid
必要

資料集的識別碼。

傳回

DatasetSnapshot 物件。

傳回類型

get_all

取得指定資料集的所有快照集。

static get_all(workspace, dataset_name)

參數

workspace
Workspace
必要

資料集註冊所在的工作區。

dataset_name
必要

資料集的名稱。

傳回

資料集快照集的清單

傳回類型

get_profile

取得資料集快照集的設定檔。

get_profile()

傳回

資料集快照集的 DataProfile

傳回類型

<xref:azureml.dataprep.DataProfile>

get_status

取得資料集快照集建立狀態。

get_status()

傳回

資料集快照集的狀態。

傳回類型

str

is_data_snapshot_available

檢查快照集的具體化複本是否可用。

is_data_snapshot_available()

傳回

如果資料快照集可用,則為 True。

傳回類型

to_pandas_dataframe

載入與快照集一起儲存的資料,以建立 Pandas DataFrame。

to_pandas_dataframe()

傳回

Pandas 資料框架。

傳回類型

備註

Pandas DataFrame 會在記憶體中完整具體化。 如果使用 建立 create_data_snapshot=False 快照集,則會擲回例外狀況。 若要檢查快照集是否包含資料,請使用 函式 is_data_snapshot_available

to_spark_dataframe

載入與快照集一起儲存的資料,以建立 Spark 資料框架。

to_spark_dataframe()

傳回

Spark DataFrame。

傳回類型

備註

傳回的 Spark 資料框架只是執行計畫,而且實際上不包含任何資料,因為 Spark 資料框架會延遲評估。 如果快照集是以 建立 create_data_snapshot=False ,當您嘗試存取資料時,就會擲回例外狀況。 若要檢查快照集是否包含資料,請使用 is_data_snapshot_available

wait_for_completion

等候 DatasetSnapshot gene,完成。

wait_for_completion(show_output=True, status_update_frequency=10)

參數

show_output
bool
預設值: True

指出方法是否會列印輸出。

status_update_frequency
int
預設值: 10

動作會以秒為單位執行狀態更新頻率。

屬性

dataset_id

取得資料集識別碼。

傳回

資料集識別碼。

傳回類型

str

name

取得資料集快照集名稱。

傳回

資料集快照集名稱。

傳回類型

str

workspace

取得註冊資料集的 Azure Machine Learning 工作區。

傳回

註冊資料集的工作區。

傳回類型