DatasetSnapshot Třída

Spravuje snímky datových sad pomocí operací, které můžou získat přichycení, vrátit její stav a převést ho na datový rámec.

Poznámka

Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Objekt DataSnapshot je vrácen z create_snapshot metody Dataset třídy .

Snímek datové sady je kombinací profilu a volitelné materializované kopie dat.

Další informace o snímcích datových sad najdete na https://aka.ms/azureml/howto/createsnapshots

Dědičnost
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametry

workspace
<xref:azureml.core.Workspace.>
Vyžadováno

Pracovní prostor, ve který je datová sada zaregistrovaná.

snapshot_name
str
Vyžadováno

Název snímku datové sady.

dataset_id
str
Vyžadováno

Identifikátor datové sady.

definition_version
str
Vyžadováno

Definiční verze datové sady.

time_stamp
datetime
Vyžadováno

Čas vytvoření snímku.

profile_action_id
str
Vyžadováno

ID akce profilu snímku.

datastore_name
str
Vyžadováno

Název úložiště dat snímku.

relative_path
str
Vyžadováno

Relativní cesta k datům snímku.

dataset_name
str
Vyžadováno

Název datové sady.

Metody

compare_profiles

Porovnejte aktuální profil datové sady s profilem rhs_dataset.

Pokud profily neexistují, tato metoda vyvolá výjimku.

get

Získejte snímek datové sady podle názvu snímku.

get_all

Získejte všechny snímky dané datové sady.

get_profile

Získejte profil snímku datové sady.

get_status

Získejte stav vytvoření snímku datové sady.

is_data_snapshot_available

Zkontrolujte, jestli je dostupná materializovaná kopie snímku.

to_pandas_dataframe

Vytvořte datový rámec Pandas načtením dat uložených se snímkem.

to_spark_dataframe

Vytvořte datový rámec Sparku načtením dat uložených se snímkem.

wait_for_completion

Počkejte na dokončení generování DatasetSnapshot.

compare_profiles

Porovnejte aktuální profil datové sady s profilem rhs_dataset.

Pokud profily neexistují, tato metoda vyvolá výjimku.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametry

rhs_dataset_snapshot
DatasetSnapshot
Vyžadováno

Snímek datové sady, se kterým se má porovnat.

include_columns
list[str]
výchozí hodnota: None

Seznam názvů sloupců, které se mají zahrnout do porovnání.

exclude_columns
list[str]
výchozí hodnota: None

Seznam názvů sloupců, které mají být vyloučeny z porovnání.

histogram_compare_method
HistogramCompareMethod
výchozí hodnota: HistogramCompareMethod.WASSERSTEIN

Výčet popisující metodu porovnání, například: WASSERSTEIN nebo ENERGY.

Návraty

Rozdíl mezi profily.

Návratový typ

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Získejte snímek datové sady podle názvu snímku.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametry

workspace
Workspace
Vyžadováno

Pracovní prostor, ve který je datová sada zaregistrovaná.

snapshot_name
str
Vyžadováno

Název snímku datové sady.

dataset_name
Vyžadováno

Název datové sady.

dataset_id
uuid
Vyžadováno

Identifikátor datové sady.

Návraty

A DatasetSnapshot objekt.

Návratový typ

get_all

Získejte všechny snímky dané datové sady.

static get_all(workspace, dataset_name)

Parametry

workspace
Workspace
Vyžadováno

Pracovní prostor, ve který je datová sada zaregistrovaná.

dataset_name
Vyžadováno

Název datové sady.

Návraty

Seznam snímků datových sad

Návratový typ

get_profile

Získejte profil snímku datové sady.

get_profile()

Návraty

DataProfile snímku datové sady

Návratový typ

<xref:azureml.dataprep.DataProfile>

get_status

Získejte stav vytvoření snímku datové sady.

get_status()

Návraty

Stav snímku datové sady.

Návratový typ

str

is_data_snapshot_available

Zkontrolujte, jestli je dostupná materializovaná kopie snímku.

is_data_snapshot_available()

Návraty

Hodnota True, pokud je k dispozici snímek dat.

Návratový typ

to_pandas_dataframe

Vytvořte datový rámec Pandas načtením dat uložených se snímkem.

to_pandas_dataframe()

Návraty

Datový rámec Pandas.

Návratový typ

Poznámky

Datový rámec Pandas je plně materializovaný v paměti. Pokud byl snímek vytvořen pomocí create_data_snapshot=Falsepříkazu , vyvolá se výjimka. Pokud chcete zkontrolovat, jestli snímek obsahuje data, použijte funkci is_data_snapshot_available.

to_spark_dataframe

Vytvořte datový rámec Sparku načtením dat uložených se snímkem.

to_spark_dataframe()

Návraty

Datový rámec Sparku.

Návratový typ

Poznámky

Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují. Pokud byl snímek vytvořen pomocí create_data_snapshot=Falsepříkazu , vyvolá se při pokusu o přístup k datům výjimka. Pokud chcete zkontrolovat, jestli snímek obsahuje data, použijte is_data_snapshot_available.

wait_for_completion

Počkejte na dokončení generování DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametry

show_output
bool
výchozí hodnota: True

Označuje, jestli metoda vytiskne výstup.

status_update_frequency
int
výchozí hodnota: 10

Frekvence aktualizace stavu spuštění akce v sekundách

Atributy

dataset_id

Získejte identifikátor datové sady.

Návraty

ID datové sady.

Návratový typ

str

name

Získejte název snímku datové sady.

Návraty

Název snímku datové sady.

Návratový typ

str

workspace

Získejte pracovní prostor Azure Machine Learning, ve kterém je datová sada zaregistrovaná.

Návraty

Pracovní prostor, ve kterém je datová sada zaregistrovaná.

Návratový typ