DatasetSnapshot Kelas

Kelola snapshot Himpunan Data dengan operasi untuk mendapatkan snapsot, menampilkan statusnya, dan mengubahnya menjadi dataframe.

Catatan

Kelas ini tidak digunakan lagi. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Objek DataSnapshot ditampilkan dari metode create_snapshot dari kelas Dataset.

Rekam jepret himpunan data adalah kombinasi dari Profil dan salinan data opsional yang terwujud.

Untuk mempelajari selengkapnya tentang Rekam Jepret Himpunan Data, buka https://aka.ms/azureml/howto/createsnapshots

Warisan
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parameter

workspace
<xref:azureml.core.Workspace.>
Diperlukan

Ruang kerja tempat Himpunan Data didaftarkan.

snapshot_name
str
Diperlukan

Nama snapshot Himpunan Data.

dataset_id
str
Diperlukan

Pengidentifikasi Himpunan Data.

definition_version
str
Diperlukan

Versi definisi Himpunan Data.

time_stamp
datetime
Diperlukan

Waktu pembuatan rekam jepret.

profile_action_id
str
Diperlukan

ID tindakan profil rekam jepret.

datastore_name
str
Diperlukan

Nama penyimpanan data rekam jepret.

relative_path
str
Diperlukan

Jalur relatif ke data rekam jepret.

dataset_name
str
Diperlukan

Nama Himpunan Data.

Metode

compare_profiles

Bandingkan profil himpunan data saat ini dengan profil rhs_dataset.

Jika profil tidak ada, metode ini akan memunculkan pengecualian.

get

Dapatkan snapshot Himpunan Data dengan nama snapshot.

get_all

Dapatkan semua snapshot dari Himpunan Data yang diberikan.

get_profile

Dapatkan profil snapshot Himpunan Data.

get_status

Dapatkan status pembuatan snapshot Himpunan Data.

is_data_snapshot_available

Periksa apakah salinan snapshot yang termaterialisasi tersedia.

to_pandas_dataframe

Buat Pandas DataFrame dengan memuat data yang disimpan dengan snapshot.

to_spark_dataframe

Buat Spark DataFrame dengan memuat data yang disimpan dengan snapshot.

wait_for_completion

Tunggu hingga pembuatan DatasetSnapshot selesai.

compare_profiles

Bandingkan profil himpunan data saat ini dengan profil rhs_dataset.

Jika profil tidak ada, metode ini akan memunculkan pengecualian.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

rhs_dataset_snapshot
DatasetSnapshot
Diperlukan

Snapshot Himpunan Data untuk dibandingkan.

include_columns
list[str]
nilai default: None

Daftar nama kolom yang akan dimasukkan dalam perbandingan.

exclude_columns
list[str]
nilai default: None

Daftar nama kolom yang akan dikecualikan dalam perbandingan.

histogram_compare_method
HistogramCompareMethod
nilai default: HistogramCompareMethod.WASSERSTEIN

Enum yang menjelaskan metode perbandingan, misalnya: WASSERSTEIN atau ENERGY.

Mengembalikan

Perbedaan antara profil.

Tipe hasil

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Dapatkan snapshot Himpunan Data dengan nama snapshot.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parameter

workspace
Workspace
Diperlukan

Ruang kerja tempat Himpunan Data didaftarkan.

snapshot_name
str
Diperlukan

Nama snapshot Himpunan Data.

dataset_name
Diperlukan

Nama Himpunan Data.

dataset_id
uuid
Diperlukan

Pengidentifikasi Himpunan Data.

Mengembalikan

Objek DatasetSnapshot.

Tipe hasil

get_all

Dapatkan semua snapshot dari Himpunan Data yang diberikan.

static get_all(workspace, dataset_name)

Parameter

workspace
Workspace
Diperlukan

Ruang kerja tempat Himpunan Data didaftarkan.

dataset_name
Diperlukan

Nama Himpunan Data.

Mengembalikan

Daftar snapshot Himpunan Data

Tipe hasil

get_profile

Dapatkan profil snapshot Himpunan Data.

get_profile()

Mengembalikan

DataProfile dari snapshot Himpunan Data

Tipe hasil

<xref:azureml.dataprep.DataProfile>

get_status

Dapatkan status pembuatan snapshot Himpunan Data.

get_status()

Mengembalikan

Status snapshot Himpunan Data.

Tipe hasil

str

is_data_snapshot_available

Periksa apakah salinan snapshot yang termaterialisasi tersedia.

is_data_snapshot_available()

Mengembalikan

True jika snapshot data tersedia.

Tipe hasil

to_pandas_dataframe

Buat Pandas DataFrame dengan memuat data yang disimpan dengan snapshot.

to_pandas_dataframe()

Mengembalikan

Pandas DataFrame.

Tipe hasil

Keterangan

Pandas DataFrame sepenuhnya termaterialisasi dalam memori. Jika snapshot dibuat dengan create_data_snapshot=False, maka pengecualian akan muncul. Untuk memeriksa apakah snapshot berisi data, gunakan fungsi is_data_snapshot_available.

to_spark_dataframe

Buat Spark DataFrame dengan memuat data yang disimpan dengan snapshot.

to_spark_dataframe()

Mengembalikan

Spark DataFrame.

Tipe hasil

Keterangan

Spark Dataframe yang dikembalikan hanyalah rencana eksekusi dan sebenarnya tidak berisi data apa pun, karena Spark Dataframe baru dievaluasi saat perlu untuk melakukannya. Jika snapshot dibuat dengan create_data_snapshot=False, pengecualian akan muncul saat Anda mencoba mengakses data. Untuk memeriksa apakah snapshot berisi data, gunakan is_data_snapshot_available.

wait_for_completion

Tunggu hingga pembuatan DatasetSnapshot selesai.

wait_for_completion(show_output=True, status_update_frequency=10)

Parameter

show_output
bool
nilai default: True

Tunjukkan jika metode akan mencetak output.

status_update_frequency
int
nilai default: 10

Frekuensi pembaruan status eksekusi Tindakan dalam hitungan detik.

Atribut

dataset_id

Dapatkan pengidentifikasi Himpunan Data.

Mengembalikan

ID Himpunan Data.

Tipe hasil

str

name

Dapatkan nama snapshot Himpunan Data.

Mengembalikan

Nama snapshot Himpunan Data.

Tipe hasil

str

workspace

Dapatkan ruang kerja Azure Machine Learning tempat Himpunan Data didaftarkan.

Mengembalikan

Ruang kerja tempat Himpunan Data didaftarkan.

Tipe hasil