DatasetSnapshot 類別
使用作業管理資料集快照集,以取得貼齊、傳回其狀態,並將其轉換為數據框架。
注意
這個類別已被取代。 如需詳細資訊,請參閱 https://aka.ms/dataset-deprecation 。
DataSnapshot 物件是從 create_snapshot 類別的 方法傳 Dataset 回。
資料集快照集是設定檔和選擇性具體化資料複本的組合。
若要深入瞭解資料集快照集,請移至 https://aka.ms/azureml/howto/createsnapshots
- 繼承
-
builtins.objectDatasetSnapshot
建構函式
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
參數
- workspace
- <xref:azureml.core.Workspace.>
資料集註冊所在的工作區。
方法
compare_profiles |
比較目前的資料集設定檔與rhs_dataset設定檔。 如果設定檔不存在,這個方法將會引發例外狀況。 |
get |
依快照集名稱取得資料集的快照集。 |
get_all |
取得指定資料集的所有快照集。 |
get_profile |
取得資料集快照集的設定檔。 |
get_status |
取得資料集快照集建立狀態。 |
is_data_snapshot_available |
檢查快照集的具體化複本是否可用。 |
to_pandas_dataframe |
載入與快照集一起儲存的資料,以建立 Pandas DataFrame。 |
to_spark_dataframe |
載入與快照集一起儲存的資料,以建立 Spark 資料框架。 |
wait_for_completion |
等候 DatasetSnapshot gene,完成。 |
compare_profiles
比較目前的資料集設定檔與rhs_dataset設定檔。
如果設定檔不存在,這個方法將會引發例外狀況。
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
參數
- histogram_compare_method
- HistogramCompareMethod
描述比較方法的列舉,例如:WASSER一或能源。
傳回
設定檔之間的差異。
傳回類型
get
依快照集名稱取得資料集的快照集。
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
參數
- dataset_name
資料集的名稱。
傳回
DatasetSnapshot 物件。
傳回類型
get_all
取得指定資料集的所有快照集。
static get_all(workspace, dataset_name)
參數
- dataset_name
資料集的名稱。
傳回
資料集快照集的清單
傳回類型
get_profile
取得資料集快照集的設定檔。
get_profile()
傳回
資料集快照集的 DataProfile
傳回類型
get_status
is_data_snapshot_available
to_pandas_dataframe
載入與快照集一起儲存的資料,以建立 Pandas DataFrame。
to_pandas_dataframe()
傳回
Pandas 資料框架。
傳回類型
備註
Pandas DataFrame 會在記憶體中完整具體化。 如果使用 建立 create_data_snapshot=False
快照集,則會擲回例外狀況。 若要檢查快照集是否包含資料,請使用 函式 is_data_snapshot_available 。
to_spark_dataframe
載入與快照集一起儲存的資料,以建立 Spark 資料框架。
to_spark_dataframe()
傳回
Spark DataFrame。
傳回類型
備註
傳回的 Spark 資料框架只是執行計畫,而且實際上不包含任何資料,因為 Spark 資料框架會延遲評估。 如果快照集是以 建立 create_data_snapshot=False
,當您嘗試存取資料時,就會擲回例外狀況。 若要檢查快照集是否包含資料,請使用 is_data_snapshot_available 。
wait_for_completion
等候 DatasetSnapshot gene,完成。
wait_for_completion(show_output=True, status_update_frequency=10)
參數
屬性
dataset_id
name
workspace
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應