DatasetSnapshot Klasa

Zarządza migawkami zestawu danych za pomocą operacji, aby uzyskać przystawkę, zwrócić jej stan i przekonwertować ją na ramkę danych.

Uwaga

Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Obiekt DataSnapshot jest zwracany z create_snapshot metody Dataset klasy .

Migawka zestawu danych to kombinacja profilu i opcjonalnej zmaterializowanej kopii danych.

Aby dowiedzieć się więcej na temat migawek zestawów danych, przejdź do strony https://aka.ms/azureml/howto/createsnapshots

Dziedziczenie
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametry

workspace
<xref:azureml.core.Workspace.>
Wymagane

Obszar roboczy, w który jest zarejestrowany zestaw danych.

snapshot_name
str
Wymagane

Nazwa migawki zestawu danych.

dataset_id
str
Wymagane

Identyfikator zestawu danych.

definition_version
str
Wymagane

Wersja definicji zestawu danych.

time_stamp
datetime
Wymagane

Czas tworzenia migawki.

profile_action_id
str
Wymagane

Identyfikator akcji profilu migawki.

datastore_name
str
Wymagane

Nazwa magazynu danych migawek.

relative_path
str
Wymagane

Ścieżka względna do danych migawki.

dataset_name
str
Wymagane

Nazwa zestawu danych.

Metody

compare_profiles

Porównaj bieżący profil zestawu danych z profilem rhs_dataset.

Jeśli profile nie istnieją, ta metoda zgłosi wyjątek.

get

Pobierz migawkę zestawu danych według nazwy migawki.

get_all

Pobierz wszystkie migawki danego zestawu danych.

get_profile

Pobierz profil migawki zestawu danych.

get_status

Pobierz stan tworzenia migawki zestawu danych.

is_data_snapshot_available

Sprawdź, czy zmaterializowana kopia migawki jest dostępna.

to_pandas_dataframe

Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki.

wait_for_completion

Poczekaj na ukończenie generowania zestawu danychSnapshot.

compare_profiles

Porównaj bieżący profil zestawu danych z profilem rhs_dataset.

Jeśli profile nie istnieją, ta metoda zgłosi wyjątek.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametry

rhs_dataset_snapshot
DatasetSnapshot
Wymagane

Migawka zestawu danych do porównania.

include_columns
list[str]
wartość domyślna: None

Lista nazw kolumn do ujęć w porównaniu.

exclude_columns
list[str]
wartość domyślna: None

Lista nazw kolumn, które mają być wykluczone w porównaniu.

histogram_compare_method
HistogramCompareMethod
wartość domyślna: HistogramCompareMethod.WASSERSTEIN

Wyliczenie opisujące metodę porównania, na przykład: WASSERSTEIN lub ENERGY.

Zwraca

Różnica między profilami.

Typ zwracany

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Pobierz migawkę zestawu danych według nazwy migawki.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametry

workspace
Workspace
Wymagane

Obszar roboczy, w który jest zarejestrowany zestaw danych.

snapshot_name
str
Wymagane

Nazwa migawki zestawu danych.

dataset_name
Wymagane

Nazwa zestawu danych.

dataset_id
uuid
Wymagane

Identyfikator zestawu danych.

Zwraca

Obiekt DatasetSnapshot.

Typ zwracany

get_all

Pobierz wszystkie migawki danego zestawu danych.

static get_all(workspace, dataset_name)

Parametry

workspace
Workspace
Wymagane

Obszar roboczy, w który jest zarejestrowany zestaw danych.

dataset_name
Wymagane

Nazwa zestawu danych.

Zwraca

Lista migawek zestawu danych

Typ zwracany

get_profile

Pobierz profil migawki zestawu danych.

get_profile()

Zwraca

Plik DataProfile migawki zestawu danych

Typ zwracany

<xref:azureml.dataprep.DataProfile>

get_status

Pobierz stan tworzenia migawki zestawu danych.

get_status()

Zwraca

Stan migawki zestawu danych.

Typ zwracany

str

is_data_snapshot_available

Sprawdź, czy zmaterializowana kopia migawki jest dostępna.

is_data_snapshot_available()

Zwraca

Wartość True, jeśli migawka danych jest dostępna.

Typ zwracany

to_pandas_dataframe

Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki.

to_pandas_dataframe()

Zwraca

Ramka danych biblioteki Pandas.

Typ zwracany

Uwagi

Ramka danych biblioteki Pandas jest w pełni zmaterializowana w pamięci. Jeśli migawka została utworzona za pomocą create_data_snapshot=Falsepolecenia , zgłaszany jest wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj funkcji is_data_snapshot_available.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki.

to_spark_dataframe()

Zwraca

Ramka danych platformy Spark.

Typ zwracany

Uwagi

Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są obliczane z opóźnieniem. Jeśli migawka została utworzona za pomocą create_data_snapshot=Falsepolecenia , podczas próby uzyskania dostępu do danych jest zgłaszany wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj polecenia is_data_snapshot_available.

wait_for_completion

Poczekaj na ukończenie generowania zestawu danychSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametry

show_output
bool
wartość domyślna: True

Wskazuje, czy metoda wyświetli dane wyjściowe.

status_update_frequency
int
wartość domyślna: 10

Częstotliwość aktualizacji stanu uruchomienia akcji w sekundach.

Atrybuty

dataset_id

Pobierz identyfikator zestawu danych.

Zwraca

Identyfikator zestawu danych.

Typ zwracany

str

name

Pobierz nazwę migawki zestawu danych.

Zwraca

Nazwa migawki zestawu danych.

Typ zwracany

str

workspace

Pobierz obszar roboczy usługi Azure Machine Learning, w którym zarejestrowano zestaw danych.

Zwraca

Obszar roboczy, w którym zarejestrowano zestaw danych.

Typ zwracany