DatasetSnapshot 類別

參考

使用作業管理資料集快照集，以取得貼齊、傳回其狀態，並將其轉換為數據框架。

注意

這個類別已被取代。如需詳細資訊，請參閱 https://aka.ms/dataset-deprecation 。

DataSnapshot 物件是從 create_snapshot 類別的方法傳 Dataset 回。

資料集快照集是設定檔和選擇性具體化資料複本的組合。

若要深入瞭解資料集快照集，請移至 https://aka.ms/azureml/howto/createsnapshots

繼承: builtins.object

DatasetSnapshot

建構函式

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

參數

workspace: <xref:azureml.core.Workspace.>

必要

資料集註冊所在的工作區。

snapshot_name: str

必要

資料集快照集的名稱。

dataset_id: str

必要

資料集的識別碼。

definition_version: str

必要

資料集的定義版本。

time_stamp: datetime

必要

快照集建立時間。

profile_action_id: str

必要

快照集設定檔動作識別碼。

datastore_name: str

必要

快照集資料存放區名稱。

relative_path: str

必要

快照集資料的相對路徑。

dataset_name: str

必要

資料集的名稱。

方法

compare_profiles	比較目前的資料集設定檔與rhs_dataset設定檔。如果設定檔不存在，這個方法將會引發例外狀況。
get	依快照集名稱取得資料集的快照集。
get_all	取得指定資料集的所有快照集。
get_profile	取得資料集快照集的設定檔。
get_status	取得資料集快照集建立狀態。
is_data_snapshot_available	檢查快照集的具體化複本是否可用。
to_pandas_dataframe	載入與快照集一起儲存的資料，以建立 Pandas DataFrame。
to_spark_dataframe	載入與快照集一起儲存的資料，以建立 Spark 資料框架。
wait_for_completion	等候 DatasetSnapshot gene，完成。

compare_profiles

比較目前的資料集設定檔與rhs_dataset設定檔。

如果設定檔不存在，這個方法將會引發例外狀況。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

參數

rhs_dataset_snapshot: DatasetSnapshot

必要

要與比較的資料集快照集。

include_columns: list[str]

預設值: None

要包含在比較中的資料行名稱清單。

exclude_columns: list[str]

預設值: None

比較中要排除的資料行名稱清單。

histogram_compare_method: HistogramCompareMethod

預設值: HistogramCompareMethod.WASSERSTEIN

描述比較方法的列舉，例如：WASSER一或能源。

傳回

設定檔之間的差異。

傳回類型

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

依快照集名稱取得資料集的快照集。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

參數

workspace: Workspace

必要

資料集註冊所在的工作區。

snapshot_name: str

必要

資料集快照集的名稱。

dataset_name

必要

資料集的名稱。

dataset_id: uuid

必要

資料集的識別碼。

傳回

DatasetSnapshot 物件。

傳回類型

DatasetSnapshot

get_all

取得指定資料集的所有快照集。

static get_all(workspace, dataset_name)

參數

workspace: Workspace

必要

資料集註冊所在的工作區。

dataset_name

Pandas DataFrame 會在記憶體中完整具體化。如果使用建立 create_data_snapshot=False 快照集，則會擲回例外狀況。若要檢查快照集是否包含資料，請使用函式 is_data_snapshot_available 。

to_spark_dataframe

載入與快照集一起儲存的資料，以建立 Spark 資料框架。

to_spark_dataframe()

傳回

Spark DataFrame。

傳回類型

DataFrame

備註

傳回的 Spark 資料框架只是執行計畫，而且實際上不包含任何資料，因為 Spark 資料框架會延遲評估。如果快照集是以建立 create_data_snapshot=False ，當您嘗試存取資料時，就會擲回例外狀況。若要檢查快照集是否包含資料，請使用 is_data_snapshot_available 。

wait_for_completion

等候 DatasetSnapshot gene，完成。

wait_for_completion(show_output=True, status_update_frequency=10)

參數

show_output: bool

預設值: True

指出方法是否會列印輸出。

status_update_frequency: int

預設值: 10

動作會以秒為單位執行狀態更新頻率。

Workspace

DatasetSnapshot 類別

建構函式

參數

方法

compare_profiles

參數

傳回

傳回類型

get

參數

傳回

傳回類型

get_all

參數

傳回

傳回類型

get_profile

傳回

傳回類型

get_status

傳回

傳回類型

is_data_snapshot_available

傳回

傳回類型

to_pandas_dataframe

傳回

傳回類型

備註

to_spark_dataframe

傳回

傳回類型

備註

wait_for_completion

參數

屬性

dataset_id

傳回

傳回類型

name

傳回

傳回類型

workspace

傳回

傳回類型

意見反應

意見反應

其他資源