DatasetSnapshot Classe

Riferimento

Gestisce gli snapshot del set di dati con operazioni per ottenere uno snapsot, restituire lo stato e convertirlo in un dataframe.

Nota

Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Un oggetto DataSnapshot viene restituito dal create_snapshot metodo della Dataset classe.

Lo snapshot del set di dati è una combinazione di profilo e una copia materializzata facoltativa dei dati.

Per altre informazioni sugli snapshot del set di dati, passare a https://aka.ms/azureml/howto/createsnapshots

Ereditarietà: builtins.object

DatasetSnapshot

Costruttore

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametri

workspace: <xref:azureml.core.Workspace.>

Necessario

L'area di lavoro in cui è registrato il set di dati.

snapshot_name: str

Necessario

Nome dello snapshot del set di dati.

dataset_id: str

Necessario

Identificatore del set di dati.

definition_version: str

Necessario

Versione di definizione del set di dati.

time_stamp: datetime

Necessario

Tempo di creazione dello snapshot.

profile_action_id: str

Necessario

ID azione del profilo snapshot.

datastore_name: str

Necessario

Nome dell'archivio dati snapshot.

relative_path: str

Necessario

Percorso relativo ai dati dello snapshot.

dataset_name: str

Necessario

Nome del set di dati.

Metodi

compare_profiles	Confrontare il profilo del set di dati corrente con rhs_dataset profilo. Se i profili non esistono, questo metodo genererà un'eccezione.
get	Ottenere lo snapshot del set di dati in base al nome dello snapshot.
get_all	Ottenere tutti gli snapshot del set di dati specificato.
get_profile	Ottenere il profilo dello snapshot del set di dati.
get_status	Ottenere lo stato di creazione dello snapshot del set di dati.
is_data_snapshot_available	Verificare se è disponibile la copia materializzata dello snapshot.
to_pandas_dataframe	Creare un dataframe Pandas caricando i dati salvati con lo snapshot.
to_spark_dataframe	Creare un dataframe Spark caricando i dati salvati con lo snapshot.
wait_for_completion	Attendere il completamento dell'generaton Set di datiSnapshot.

compare_profiles

Confrontare il profilo del set di dati corrente con rhs_dataset profilo.

Se i profili non esistono, questo metodo genererà un'eccezione.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametri

rhs_dataset_snapshot: DatasetSnapshot

Necessario

Snapshot del set di dati da confrontare con.

include_columns: list[str]

valore predefinito: None

Elenco di nomi di colonna da includere nel confronto.

exclude_columns: list[str]

valore predefinito: None

Elenco di nomi di colonna da escludere nel confronto.

histogram_compare_method: HistogramCompareMethod

valore predefinito: HistogramCompareMethod.WASSERSTEIN

Enumerazione che descrive il metodo di confronto, ad esempio DEVICESTEIN o ENERGY.

Restituisce

Differenza tra i profili.

Tipo restituito

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Ottenere lo snapshot del set di dati in base al nome dello snapshot.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametri

workspace: Workspace

Necessario

L'area di lavoro in cui è registrato il set di dati.

snapshot_name: str

Necessario

Nome dello snapshot del set di dati.

dataset_name

Necessario

Nome del set di dati.

dataset_id: uuid

Necessario

Identificatore del set di dati.

Restituisce

Oggetto DatasetSnapshot.

Tipo restituito

DatasetSnapshot

get_all

Ottenere tutti gli snapshot del set di dati specificato.

static get_all(workspace, dataset_name)

Parametri

workspace: Workspace

Necessario

L'area di lavoro in cui è registrato il set di dati.

dataset_name

Il dataframe Pandas è completamente materializzato in memoria. Se lo snapshot è stato creato con create_data_snapshot=False, viene generata un'eccezione. Per verificare se lo snapshot contiene dati, usare la funzione is_data_snapshot_available.

to_spark_dataframe

Creare un dataframe Spark caricando i dati salvati con lo snapshot.

to_spark_dataframe()

Restituisce

Un dataframe Spark.

Tipo restituito

DataFrame

Commenti

Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre. Se lo snapshot è stato creato con create_data_snapshot=False, viene generata un'eccezione quando si tenta di accedere ai dati. Per verificare se lo snapshot contiene dati, usare is_data_snapshot_available.

wait_for_completion

Attendere il completamento dell'generaton Set di datiSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametri

show_output: bool

valore predefinito: True

Indica se il metodo stampa l'output.

status_update_frequency: int

valore predefinito: 10

Frequenza di aggiornamento dello stato dell'esecuzione dell'azione in secondi.

Workspace

DatasetSnapshot Classe

Costruttore

Parametri

Metodi

compare_profiles

Parametri

Restituisce

Tipo restituito

get

Parametri

Restituisce

Tipo restituito

get_all

Parametri

Restituisce

Tipo restituito

get_profile

Restituisce

Tipo restituito

get_status

Restituisce

Tipo restituito

is_data_snapshot_available

Restituisce

Tipo restituito

to_pandas_dataframe

Restituisce

Tipo restituito

Commenti

to_spark_dataframe

Restituisce

Tipo restituito

Commenti

wait_for_completion

Parametri

Attributi

dataset_id

Restituisce

Tipo restituito

name

Restituisce

Tipo restituito

workspace

Restituisce

Tipo restituito

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive