DatasetSnapshot Classe

Gestisce gli snapshot del set di dati con operazioni per ottenere uno snapsot, restituire lo stato e convertirlo in un dataframe.

Nota

Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Un oggetto DataSnapshot viene restituito dal create_snapshot metodo della Dataset classe.

Lo snapshot del set di dati è una combinazione di profilo e una copia materializzata facoltativa dei dati.

Per altre informazioni sugli snapshot del set di dati, passare a https://aka.ms/azureml/howto/createsnapshots

Ereditarietà
builtins.object
DatasetSnapshot

Costruttore

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametri

workspace
<xref:azureml.core.Workspace.>
Necessario

L'area di lavoro in cui è registrato il set di dati.

snapshot_name
str
Necessario

Nome dello snapshot del set di dati.

dataset_id
str
Necessario

Identificatore del set di dati.

definition_version
str
Necessario

Versione di definizione del set di dati.

time_stamp
datetime
Necessario

Tempo di creazione dello snapshot.

profile_action_id
str
Necessario

ID azione del profilo snapshot.

datastore_name
str
Necessario

Nome dell'archivio dati snapshot.

relative_path
str
Necessario

Percorso relativo ai dati dello snapshot.

dataset_name
str
Necessario

Nome del set di dati.

Metodi

compare_profiles

Confrontare il profilo del set di dati corrente con rhs_dataset profilo.

Se i profili non esistono, questo metodo genererà un'eccezione.

get

Ottenere lo snapshot del set di dati in base al nome dello snapshot.

get_all

Ottenere tutti gli snapshot del set di dati specificato.

get_profile

Ottenere il profilo dello snapshot del set di dati.

get_status

Ottenere lo stato di creazione dello snapshot del set di dati.

is_data_snapshot_available

Verificare se è disponibile la copia materializzata dello snapshot.

to_pandas_dataframe

Creare un dataframe Pandas caricando i dati salvati con lo snapshot.

to_spark_dataframe

Creare un dataframe Spark caricando i dati salvati con lo snapshot.

wait_for_completion

Attendere il completamento dell'generaton Set di datiSnapshot.

compare_profiles

Confrontare il profilo del set di dati corrente con rhs_dataset profilo.

Se i profili non esistono, questo metodo genererà un'eccezione.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametri

rhs_dataset_snapshot
DatasetSnapshot
Necessario

Snapshot del set di dati da confrontare con.

include_columns
list[str]
valore predefinito: None

Elenco di nomi di colonna da includere nel confronto.

exclude_columns
list[str]
valore predefinito: None

Elenco di nomi di colonna da escludere nel confronto.

histogram_compare_method
HistogramCompareMethod
valore predefinito: HistogramCompareMethod.WASSERSTEIN

Enumerazione che descrive il metodo di confronto, ad esempio DEVICESTEIN o ENERGY.

Restituisce

Differenza tra i profili.

Tipo restituito

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Ottenere lo snapshot del set di dati in base al nome dello snapshot.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametri

workspace
Workspace
Necessario

L'area di lavoro in cui è registrato il set di dati.

snapshot_name
str
Necessario

Nome dello snapshot del set di dati.

dataset_name
Necessario

Nome del set di dati.

dataset_id
uuid
Necessario

Identificatore del set di dati.

Restituisce

Oggetto DatasetSnapshot.

Tipo restituito

get_all

Ottenere tutti gli snapshot del set di dati specificato.

static get_all(workspace, dataset_name)

Parametri

workspace
Workspace
Necessario

L'area di lavoro in cui è registrato il set di dati.

dataset_name
Necessario

Nome del set di dati.

Restituisce

Elenco degli snapshot del set di dati

Tipo restituito

get_profile

Ottenere il profilo dello snapshot del set di dati.

get_profile()

Restituisce

DataProfile dello snapshot del set di dati

Tipo restituito

<xref:azureml.dataprep.DataProfile>

get_status

Ottenere lo stato di creazione dello snapshot del set di dati.

get_status()

Restituisce

Stato dello snapshot del set di dati.

Tipo restituito

str

is_data_snapshot_available

Verificare se è disponibile la copia materializzata dello snapshot.

is_data_snapshot_available()

Restituisce

True se lo snapshot dei dati è disponibile.

Tipo restituito

to_pandas_dataframe

Creare un dataframe Pandas caricando i dati salvati con lo snapshot.

to_pandas_dataframe()

Restituisce

DataFrame Pandas.

Tipo restituito

Commenti

Il dataframe Pandas è completamente materializzato in memoria. Se lo snapshot è stato creato con create_data_snapshot=False, viene generata un'eccezione. Per verificare se lo snapshot contiene dati, usare la funzione is_data_snapshot_available.

to_spark_dataframe

Creare un dataframe Spark caricando i dati salvati con lo snapshot.

to_spark_dataframe()

Restituisce

Un dataframe Spark.

Tipo restituito

Commenti

Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre. Se lo snapshot è stato creato con create_data_snapshot=False, viene generata un'eccezione quando si tenta di accedere ai dati. Per verificare se lo snapshot contiene dati, usare is_data_snapshot_available.

wait_for_completion

Attendere il completamento dell'generaton Set di datiSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametri

show_output
bool
valore predefinito: True

Indica se il metodo stampa l'output.

status_update_frequency
int
valore predefinito: 10

Frequenza di aggiornamento dello stato dell'esecuzione dell'azione in secondi.

Attributi

dataset_id

Ottenere l'identificatore del set di dati.

Restituisce

ID set di dati.

Tipo restituito

str

name

Ottenere il nome dello snapshot del set di dati.

Restituisce

Nome snapshot del set di dati.

Tipo restituito

str

workspace

Ottenere l'area di lavoro di Azure Machine Learning in cui è registrato il set di dati.

Restituisce

Area di lavoro in cui è registrato il set di dati.

Tipo restituito