DatasetDefinition Classe

Definisce una serie di passaggi che specificano come leggere e trasformare i dati in un set di dati.

Nota

Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Un set di dati registrato in un'area di lavoro di Azure Machine Learning può avere più definizioni, ognuna creata chiamando update_definition. Ogni definizione ha un identificatore univoco. La definizione corrente è quella più recente creata.

Per set di dati non registrati, esiste solo una definizione.

Le definizioni dei set di dati supportano tutte le trasformazioni elencate per la <xref:azureml.dataprep.Dataflow> classe: vedere http://aka.ms/azureml/howto/transformdata. Per altre informazioni sulle definizioni dei set di dati, passare a https://aka.ms/azureml/howto/versiondata.

Inizializzare l'oggetto Definizione set di dati.

Ereditarietà
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Costruttore

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametri

workspace
str
Necessario

L'area di lavoro in cui è registrato il set di dati.

dataset_id
str
Necessario

Identificatore del set di dati.

version_id
str
Necessario

Versione della definizione.

dataflow
str
Necessario

Oggetto Flusso di dati.

dataflow_json
Necessario

Json flusso di dati.

notes
str
Necessario

Informazioni facoltative sulla definizione.

etag
str
Necessario

Etag.

created_time
datetime
Necessario

Ora di creazione della definizione.

modified_time
datetime
Necessario

Ora dell'ultima modifica della definizione.

deprecated_by_dataset_id
str
Necessario

ID del set di dati che depreca questa definizione.

deprecated_by_definition_version
str
Necessario

Versione della definizione che depreca questa definizione.

data_path
DataPath
Necessario

Percorso dati.

dataset
Dataset
Necessario

Oggetto Set di dati padre.

Metodi

archive

Archiviare la definizione del set di dati.

create_snapshot

Creare uno snapshot del set di dati registrato.

deprecate

Deprecare il set di dati con un puntatore al nuovo set di dati.

reactivate

Riattivare la definizione del set di dati.

Funziona sulle definizioni del set di dati deprecate o archiviate.

to_pandas_dataframe

Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.

to_spark_dataframe

Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.

archive

Archiviare la definizione del set di dati.

archive()

Restituisce

Nessuno.

Tipo restituito

Commenti

Dopo l'archiviazione, qualsiasi tentativo di recupero del set di dati genera un errore. Se archiviato per caso, usare reactivate per attivarlo.

create_snapshot

Creare uno snapshot del set di dati registrato.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametri

snapshot_name
str
Necessario

Nome dello snapshot. I nomi di snapshot devono essere univoci all'interno di un set di dati.

compute_target
ComputeTarget oppure str
valore predefinito: None

Destinazione di calcolo per eseguire la creazione del profilo snapshot. Se omesso, viene usato il calcolo locale.

create_data_snapshot
bool
valore predefinito: False

Se True, verrà creata una copia materializzata dei dati.

target_datastore
Union[AbstractAzureStorageDatastore, str]
valore predefinito: None

Archivio dati di destinazione in cui salvare lo snapshot. Se omesso, lo snapshot verrà creato nell'archiviazione predefinita dell'area di lavoro.

Restituisce

Oggetto DatasetSnapshot.

Tipo restituito

Commenti

Gli snapshot acquisisce le statistiche di riepilogo temporale dei dati sottostanti e una copia facoltativa dei dati stessi. Per altre informazioni sulla creazione di snapshot, passare a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Deprecare il set di dati con un puntatore al nuovo set di dati.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametri

deprecate_by_dataset_id
uuid
Necessario

ID del set di dati responsabile della deprecazione del set di dati corrente.

deprecated_by_definition_version
str
valore predefinito: None

Versione della definizione del set di dati responsabile della deprecazione della definizione del set di dati corrente.

Restituisce

Nessuno.

Tipo restituito

Commenti

Le definizioni del set di dati deprecate registrano avvisi quando vengono usati. Per bloccare completamente l'utilizzo di una definizione del set di dati, archiviarla.

Se una definizione del set di dati è deprecata per caso, usarla reactivate per attivarla.

reactivate

Riattivare la definizione del set di dati.

Funziona sulle definizioni del set di dati deprecate o archiviate.

reactivate()

Restituisce

Nessuno.

Tipo restituito

to_pandas_dataframe

Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.

to_pandas_dataframe()

Restituisce

DataFrame Pandas.

Tipo restituito

Commenti

Restituisce un dataframe Pandas completamente materializzato in memoria.

to_spark_dataframe

Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.

to_spark_dataframe()

Restituisce

Un dataframe Spark.

Tipo restituito

Commenti

Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre.