DatasetDefinition Klass

Definierar en serie steg som anger hur data ska läsas och transformeras i en datauppsättning.

Anteckning

Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

En datauppsättning som är registrerad på en Azure Machine Learning-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Den aktuella definitionen är den senaste som skapats.

För oregistrerade datauppsättningar finns bara en definition.

Datauppsättningsdefinitioner stöder alla transformeringar som anges för <xref:azureml.dataprep.Dataflow> klassen: se http://aka.ms/azureml/howto/transformdata. Om du vill veta mer om datauppsättningsdefinitioner går du till https://aka.ms/azureml/howto/versiondata.

Initiera definitionsobjektet för datamängden.

Arv
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametrar

workspace
str
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

dataset_id
str
Obligatorisk

Datauppsättningsidentifieraren.

version_id
str
Obligatorisk

Definitionsversionen.

dataflow
str
Obligatorisk

Dataflödesobjektet.

dataflow_json
Obligatorisk

Dataflödes-json.

notes
str
Obligatorisk

Valfri information om definitionen.

etag
str
Obligatorisk

Etag.

created_time
datetime
Obligatorisk

Tiden då definitionen skapades.

modified_time
datetime
Obligatorisk

Den senaste ändringstiden för definitionen.

deprecated_by_dataset_id
str
Obligatorisk

ID:t för den datauppsättning som inaktuella den här definitionen.

deprecated_by_definition_version
str
Obligatorisk

Den version av definitionen som inaktuella den här definitionen.

data_path
DataPath
Obligatorisk

Datasökvägen.

dataset
Dataset
Obligatorisk

Det överordnade datauppsättningsobjektet.

Metoder

archive

Arkivera datauppsättningsdefinitionen.

create_snapshot

Skapa en ögonblicksbild av den registrerade datauppsättningen.

deprecate

Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen.

reactivate

Återaktivera datauppsättningsdefinitionen.

Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade.

to_pandas_dataframe

Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.

to_spark_dataframe

Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.

archive

Arkivera datauppsättningsdefinitionen.

archive()

Returer

Inga.

Returtyp

Kommentarer

Efter arkiveringen resulterar alla försök att hämta datauppsättningen i ett fel. Om arkiveras av misstag använder du reactivate för att aktivera den.

create_snapshot

Skapa en ögonblicksbild av den registrerade datauppsättningen.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametrar

snapshot_name
str
Obligatorisk

Namnet på ögonblicksbilden. Namn på ögonblicksbilder ska vara unika inom en datauppsättning.

compute_target
ComputeTarget eller str
standardvärde: None

Beräkningsmålet för att skapa ögonblicksbildsprofilen. Om det utelämnas används den lokala beräkningen.

create_data_snapshot
bool
standardvärde: False

Om värdet är Sant skapas en materialiserad kopia av data.

target_datastore
Union[AbstractAzureStorageDatastore, str]
standardvärde: None

Måldatalagringen där ögonblicksbilden ska sparas. Om den utelämnas skapas ögonblicksbilden i standardlagringen för arbetsytan.

Returer

Ett DatasetSnapshot-objekt.

Returtyp

Kommentarer

Ögonblicksbilder samlar in tidssammanfattningsstatistik för underliggande data och en valfri kopia av själva data. Mer information om hur du skapar ögonblicksbilder finns https://aka.ms/azureml/howto/createsnapshotsi .

deprecate

Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametrar

deprecate_by_dataset_id
uuid
Obligatorisk

Det datauppsättnings-ID som ansvarar för utfasningen av den aktuella datauppsättningen.

deprecated_by_definition_version
str
standardvärde: None

Den datamängdsdefinitionsversion som ansvarar för utfasningen av den aktuella datauppsättningsdefinitionen.

Returer

Inga.

Returtyp

Kommentarer

Inaktuella datauppsättningsdefinitioner loggar varningar när de används. Om du vill blockera en datauppsättningsdefinition helt från att användas arkiverar du den.

Om en datauppsättningsdefinition är inaktuell av misstag använder du reactivate för att aktivera den.

reactivate

Återaktivera datauppsättningsdefinitionen.

Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade.

reactivate()

Returer

Inga.

Returtyp

to_pandas_dataframe

Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.

to_pandas_dataframe()

Returer

En Pandas DataFrame.

Returtyp

Kommentarer

Returnera en Pandas DataFrame som är helt materialiserad i minnet.

to_spark_dataframe

Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.

to_spark_dataframe()

Returer

En Spark-dataram.

Returtyp

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily.