DatasetDefinition Classe

Riferimento

Definisce una serie di passaggi che specificano come leggere e trasformare i dati in un set di dati.

Nota

Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Un set di dati registrato in un'area di lavoro di Azure Machine Learning può avere più definizioni, ognuna creata chiamando update_definition. Ogni definizione ha un identificatore univoco. La definizione corrente è quella più recente creata.

Per set di dati non registrati, esiste solo una definizione.

Le definizioni dei set di dati supportano tutte le trasformazioni elencate per la <xref:azureml.dataprep.Dataflow> classe: vedere http://aka.ms/azureml/howto/transformdata. Per altre informazioni sulle definizioni dei set di dati, passare a https://aka.ms/azureml/howto/versiondata.

Inizializzare l'oggetto Definizione set di dati.

Ereditarietà: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Costruttore

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametri

workspace: str

Necessario

L'area di lavoro in cui è registrato il set di dati.

dataset_id: str

Necessario

Identificatore del set di dati.

version_id: str

Necessario

Versione della definizione.

dataflow: str

Necessario

Oggetto Flusso di dati.

dataflow_json

Necessario

Json flusso di dati.

notes: str

Necessario

Informazioni facoltative sulla definizione.

etag: str

Necessario

Etag.

created_time: datetime

Necessario

Ora di creazione della definizione.

modified_time: datetime

Necessario

Ora dell'ultima modifica della definizione.

deprecated_by_dataset_id: str

Necessario

ID del set di dati che depreca questa definizione.

deprecated_by_definition_version: str

Necessario

Versione della definizione che depreca questa definizione.

data_path: DataPath

Necessario

Percorso dati.

dataset: Dataset

Necessario

Oggetto Set di dati padre.

Metodi

archive	Archiviare la definizione del set di dati.
create_snapshot	Creare uno snapshot del set di dati registrato.
deprecate	Deprecare il set di dati con un puntatore al nuovo set di dati.
reactivate	Riattivare la definizione del set di dati. Funziona sulle definizioni del set di dati deprecate o archiviate.
to_pandas_dataframe	Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.
to_spark_dataframe	Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.

create_snapshot

Creare uno snapshot del set di dati registrato.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametri

snapshot_name: str

Necessario

Nome dello snapshot. I nomi di snapshot devono essere univoci all'interno di un set di dati.

compute_target: ComputeTarget oppure str

valore predefinito: None

Destinazione di calcolo per eseguire la creazione del profilo snapshot. Se omesso, viene usato il calcolo locale.

create_data_snapshot: bool

valore predefinito: False

Se True, verrà creata una copia materializzata dei dati.

target_datastore: Union[AbstractAzureStorageDatastore, str]

valore predefinito: None

Archivio dati di destinazione in cui salvare lo snapshot. Se omesso, lo snapshot verrà creato nell'archiviazione predefinita dell'area di lavoro.

Restituisce

Oggetto DatasetSnapshot.

Tipo restituito

DatasetSnapshot

Commenti

Gli snapshot acquisisce le statistiche di riepilogo temporale dei dati sottostanti e una copia facoltativa dei dati stessi. Per altre informazioni sulla creazione di snapshot, passare a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Deprecare il set di dati con un puntatore al nuovo set di dati.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametri

deprecate_by_dataset_id: uuid

Necessario

ID del set di dati responsabile della deprecazione del set di dati corrente.

deprecated_by_definition_version: str

valore predefinito: None

Versione della definizione del set di dati responsabile della deprecazione della definizione del set di dati corrente.

Restituisce

Nessuno.

Tipo restituito

None

Commenti

Le definizioni del set di dati deprecate registrano avvisi quando vengono usati. Per bloccare completamente l'utilizzo di una definizione del set di dati, archiviarla.

Se una definizione del set di dati è deprecata per caso, usarla reactivate per attivarla.

reactivate

Riattivare la definizione del set di dati.

Funziona sulle definizioni del set di dati deprecate o archiviate.

reactivate()

Restituisce

Nessuno.

Tipo restituito

None

to_pandas_dataframe

Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.

to_pandas_dataframe()

Restituisce

DataFrame Pandas.

Tipo restituito

DataFrame

Commenti

Restituisce un dataframe Pandas completamente materializzato in memoria.

to_spark_dataframe

Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.

to_spark_dataframe()

Restituisce

Un dataframe Spark.

Tipo restituito

DataFrame

Commenti

Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre.

DatasetDefinition Classe

Costruttore

Parametri

Metodi

archive

Restituisce

Tipo restituito

Commenti

create_snapshot

Parametri

Restituisce

Tipo restituito

Commenti

deprecate

Parametri

Restituisce

Tipo restituito

Commenti

reactivate

Restituisce

Tipo restituito

to_pandas_dataframe

Restituisce

Tipo restituito

Commenti

to_spark_dataframe

Restituisce

Tipo restituito

Commenti

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive