DatasetSnapshot Classe
Gestisce gli snapshot del set di dati con operazioni per ottenere uno snapsot, restituire lo stato e convertirlo in un dataframe.
Nota
Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
Un oggetto DataSnapshot viene restituito dal create_snapshot metodo della Dataset classe.
Lo snapshot del set di dati è una combinazione di profilo e una copia materializzata facoltativa dei dati.
Per altre informazioni sugli snapshot del set di dati, passare a https://aka.ms/azureml/howto/createsnapshots
- Ereditarietà
-
builtins.objectDatasetSnapshot
Costruttore
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametri
- workspace
- <xref:azureml.core.Workspace.>
L'area di lavoro in cui è registrato il set di dati.
Metodi
compare_profiles |
Confrontare il profilo del set di dati corrente con rhs_dataset profilo. Se i profili non esistono, questo metodo genererà un'eccezione. |
get |
Ottenere lo snapshot del set di dati in base al nome dello snapshot. |
get_all |
Ottenere tutti gli snapshot del set di dati specificato. |
get_profile |
Ottenere il profilo dello snapshot del set di dati. |
get_status |
Ottenere lo stato di creazione dello snapshot del set di dati. |
is_data_snapshot_available |
Verificare se è disponibile la copia materializzata dello snapshot. |
to_pandas_dataframe |
Creare un dataframe Pandas caricando i dati salvati con lo snapshot. |
to_spark_dataframe |
Creare un dataframe Spark caricando i dati salvati con lo snapshot. |
wait_for_completion |
Attendere il completamento dell'generaton Set di datiSnapshot. |
compare_profiles
Confrontare il profilo del set di dati corrente con rhs_dataset profilo.
Se i profili non esistono, questo metodo genererà un'eccezione.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametri
Elenco di nomi di colonna da includere nel confronto.
Elenco di nomi di colonna da escludere nel confronto.
- histogram_compare_method
- HistogramCompareMethod
Enumerazione che descrive il metodo di confronto, ad esempio DEVICESTEIN o ENERGY.
Restituisce
Differenza tra i profili.
Tipo restituito
get
Ottenere lo snapshot del set di dati in base al nome dello snapshot.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametri
- dataset_name
Nome del set di dati.
Restituisce
Oggetto DatasetSnapshot.
Tipo restituito
get_all
Ottenere tutti gli snapshot del set di dati specificato.
static get_all(workspace, dataset_name)
Parametri
- dataset_name
Nome del set di dati.
Restituisce
Elenco degli snapshot del set di dati
Tipo restituito
get_profile
Ottenere il profilo dello snapshot del set di dati.
get_profile()
Restituisce
DataProfile dello snapshot del set di dati
Tipo restituito
get_status
Ottenere lo stato di creazione dello snapshot del set di dati.
get_status()
Restituisce
Stato dello snapshot del set di dati.
Tipo restituito
is_data_snapshot_available
Verificare se è disponibile la copia materializzata dello snapshot.
is_data_snapshot_available()
Restituisce
True se lo snapshot dei dati è disponibile.
Tipo restituito
to_pandas_dataframe
Creare un dataframe Pandas caricando i dati salvati con lo snapshot.
to_pandas_dataframe()
Restituisce
DataFrame Pandas.
Tipo restituito
Commenti
Il dataframe Pandas è completamente materializzato in memoria. Se lo snapshot è stato creato con create_data_snapshot=False
, viene generata un'eccezione. Per verificare se lo snapshot contiene dati, usare la funzione is_data_snapshot_available.
to_spark_dataframe
Creare un dataframe Spark caricando i dati salvati con lo snapshot.
to_spark_dataframe()
Restituisce
Un dataframe Spark.
Tipo restituito
Commenti
Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre. Se lo snapshot è stato creato con create_data_snapshot=False
, viene generata un'eccezione quando si tenta di accedere ai dati. Per verificare se lo snapshot contiene dati, usare is_data_snapshot_available.
wait_for_completion
Attendere il completamento dell'generaton Set di datiSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametri
- status_update_frequency
- int
Frequenza di aggiornamento dello stato dell'esecuzione dell'azione in secondi.
Attributi
dataset_id
name
Ottenere il nome dello snapshot del set di dati.
Restituisce
Nome snapshot del set di dati.
Tipo restituito
workspace
Ottenere l'area di lavoro di Azure Machine Learning in cui è registrato il set di dati.
Restituisce
Area di lavoro in cui è registrato il set di dati.
Tipo restituito
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per