DatasetDefinition Klass
Definierar en serie steg som anger hur data ska läsas och transformeras i en datauppsättning.
Anteckning
Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
En datauppsättning som är registrerad på en Azure Machine Learning-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Den aktuella definitionen är den senaste som skapats.
För oregistrerade datauppsättningar finns bara en definition.
Datauppsättningsdefinitioner stöder alla transformeringar som anges för <xref:azureml.dataprep.Dataflow> klassen: se http://aka.ms/azureml/howto/transformdata. Om du vill veta mer om datauppsättningsdefinitioner går du till https://aka.ms/azureml/howto/versiondata.
Initiera definitionsobjektet för datamängden.
- Arv
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametrar
- dataflow_json
Dataflödes-json.
- deprecated_by_dataset_id
- str
ID:t för den datauppsättning som inaktuella den här definitionen.
- deprecated_by_definition_version
- str
Den version av definitionen som inaktuella den här definitionen.
Metoder
archive |
Arkivera datauppsättningsdefinitionen. |
create_snapshot |
Skapa en ögonblicksbild av den registrerade datauppsättningen. |
deprecate |
Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen. |
reactivate |
Återaktivera datauppsättningsdefinitionen. Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade. |
to_pandas_dataframe |
Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen. |
to_spark_dataframe |
Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet. |
archive
Arkivera datauppsättningsdefinitionen.
archive()
Returer
Inga.
Returtyp
Kommentarer
Efter arkiveringen resulterar alla försök att hämta datauppsättningen i ett fel. Om arkiveras av misstag använder du reactivate för att aktivera den.
create_snapshot
Skapa en ögonblicksbild av den registrerade datauppsättningen.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametrar
- snapshot_name
- str
Namnet på ögonblicksbilden. Namn på ögonblicksbilder ska vara unika inom en datauppsättning.
- compute_target
- ComputeTarget eller str
Beräkningsmålet för att skapa ögonblicksbildsprofilen. Om det utelämnas används den lokala beräkningen.
- create_data_snapshot
- bool
Om värdet är Sant skapas en materialiserad kopia av data.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Måldatalagringen där ögonblicksbilden ska sparas. Om den utelämnas skapas ögonblicksbilden i standardlagringen för arbetsytan.
Returer
Ett DatasetSnapshot-objekt.
Returtyp
Kommentarer
Ögonblicksbilder samlar in tidssammanfattningsstatistik för underliggande data och en valfri kopia av själva data. Mer information om hur du skapar ögonblicksbilder finns https://aka.ms/azureml/howto/createsnapshotsi .
deprecate
Gör datauppsättningen inaktuell med en pekare till den nya datauppsättningen.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametrar
- deprecate_by_dataset_id
- uuid
Det datauppsättnings-ID som ansvarar för utfasningen av den aktuella datauppsättningen.
- deprecated_by_definition_version
- str
Den datamängdsdefinitionsversion som ansvarar för utfasningen av den aktuella datauppsättningsdefinitionen.
Returer
Inga.
Returtyp
Kommentarer
Inaktuella datauppsättningsdefinitioner loggar varningar när de används. Om du vill blockera en datauppsättningsdefinition helt från att användas arkiverar du den.
Om en datauppsättningsdefinition är inaktuell av misstag använder du reactivate för att aktivera den.
reactivate
Återaktivera datauppsättningsdefinitionen.
Fungerar med datauppsättningsdefinitioner som har blivit inaktuella eller arkiverade.
reactivate()
Returer
Inga.
Returtyp
to_pandas_dataframe
Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.
to_pandas_dataframe()
Returer
En Pandas DataFrame.
Returtyp
Kommentarer
Returnera en Pandas DataFrame som är helt materialiserad i minnet.
to_spark_dataframe
Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.
to_spark_dataframe()
Returer
En Spark-dataram.
Returtyp
Kommentarer
Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för