DatasetDefinition Classe
Definisce una serie di passaggi che specificano come leggere e trasformare i dati in un set di dati.
Nota
Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
Un set di dati registrato in un'area di lavoro di Azure Machine Learning può avere più definizioni, ognuna creata chiamando update_definition. Ogni definizione ha un identificatore univoco. La definizione corrente è quella più recente creata.
Per set di dati non registrati, esiste solo una definizione.
Le definizioni dei set di dati supportano tutte le trasformazioni elencate per la <xref:azureml.dataprep.Dataflow> classe: vedere http://aka.ms/azureml/howto/transformdata. Per altre informazioni sulle definizioni dei set di dati, passare a https://aka.ms/azureml/howto/versiondata.
Inizializzare l'oggetto Definizione set di dati.
- Ereditarietà
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Costruttore
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametri
- dataflow_json
Json flusso di dati.
- deprecated_by_definition_version
- str
Versione della definizione che depreca questa definizione.
Metodi
archive |
Archiviare la definizione del set di dati. |
create_snapshot |
Creare uno snapshot del set di dati registrato. |
deprecate |
Deprecare il set di dati con un puntatore al nuovo set di dati. |
reactivate |
Riattivare la definizione del set di dati. Funziona sulle definizioni del set di dati deprecate o archiviate. |
to_pandas_dataframe |
Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati. |
to_spark_dataframe |
Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati. |
archive
Archiviare la definizione del set di dati.
archive()
Restituisce
Nessuno.
Tipo restituito
Commenti
Dopo l'archiviazione, qualsiasi tentativo di recupero del set di dati genera un errore. Se archiviato per caso, usare reactivate per attivarlo.
create_snapshot
Creare uno snapshot del set di dati registrato.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametri
- snapshot_name
- str
Nome dello snapshot. I nomi di snapshot devono essere univoci all'interno di un set di dati.
- compute_target
- ComputeTarget oppure str
Destinazione di calcolo per eseguire la creazione del profilo snapshot. Se omesso, viene usato il calcolo locale.
- create_data_snapshot
- bool
Se True, verrà creata una copia materializzata dei dati.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Archivio dati di destinazione in cui salvare lo snapshot. Se omesso, lo snapshot verrà creato nell'archiviazione predefinita dell'area di lavoro.
Restituisce
Oggetto DatasetSnapshot.
Tipo restituito
Commenti
Gli snapshot acquisisce le statistiche di riepilogo temporale dei dati sottostanti e una copia facoltativa dei dati stessi. Per altre informazioni sulla creazione di snapshot, passare a https://aka.ms/azureml/howto/createsnapshots.
deprecate
Deprecare il set di dati con un puntatore al nuovo set di dati.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametri
- deprecate_by_dataset_id
- uuid
ID del set di dati responsabile della deprecazione del set di dati corrente.
- deprecated_by_definition_version
- str
Versione della definizione del set di dati responsabile della deprecazione della definizione del set di dati corrente.
Restituisce
Nessuno.
Tipo restituito
Commenti
Le definizioni del set di dati deprecate registrano avvisi quando vengono usati. Per bloccare completamente l'utilizzo di una definizione del set di dati, archiviarla.
Se una definizione del set di dati è deprecata per caso, usarla reactivate per attivarla.
reactivate
Riattivare la definizione del set di dati.
Funziona sulle definizioni del set di dati deprecate o archiviate.
reactivate()
Restituisce
Nessuno.
Tipo restituito
to_pandas_dataframe
Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.
to_pandas_dataframe()
Restituisce
DataFrame Pandas.
Tipo restituito
Commenti
Restituisce un dataframe Pandas completamente materializzato in memoria.
to_spark_dataframe
Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.
to_spark_dataframe()
Restituisce
Un dataframe Spark.
Tipo restituito
Commenti
Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per