DatasetDefinition Klasa

Definiuje serię kroków określających sposób odczytywania i przekształcania danych w zestawie danych.

Uwaga

Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zestaw danych zarejestrowany w obszarze roboczym usługi Azure Machine Learning może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną definicją.

W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.

Definicje zestawów danych obsługują wszystkie przekształcenia wymienione dla <xref:azureml.dataprep.Dataflow> klasy: zobacz http://aka.ms/azureml/howto/transformdata. Aby dowiedzieć się więcej o definicjach zestawu danych, przejdź do strony https://aka.ms/azureml/howto/versiondata.

Zainicjuj obiekt definicji zestawu danych.

Dziedziczenie
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametry

workspace
str
Wymagane

Obszar roboczy, w który jest zarejestrowany zestaw danych.

dataset_id
str
Wymagane

Identyfikator zestawu danych.

version_id
str
Wymagane

Wersja definicji.

dataflow
str
Wymagane

Obiekt Przepływ danych.

dataflow_json
Wymagane

Plik json przepływu danych.

notes
str
Wymagane

Opcjonalne informacje o definicji.

etag
str
Wymagane

Etag.

created_time
datetime
Wymagane

Czas tworzenia definicji.

modified_time
datetime
Wymagane

Czas ostatniej modyfikacji definicji.

deprecated_by_dataset_id
str
Wymagane

Identyfikator zestawu danych, który przestarzał tę definicję.

deprecated_by_definition_version
str
Wymagane

Wersja definicji, która przestarzała tę definicję.

data_path
DataPath
Wymagane

Ścieżka danych.

dataset
Dataset
Wymagane

Obiekt nadrzędnego zestawu danych.

Metody

archive

Zarchiwizuj definicję zestawu danych.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

deprecate

Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.

reactivate

Ponownie uaktywnij definicję zestawu danych.

Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.

to_pandas_dataframe

Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.

archive

Zarchiwizuj definicję zestawu danych.

archive()

Zwraca

Brak.

Typ zwracany

Uwagi

Po archiwizacji każda próba pobrania zestawu danych spowoduje wystąpienie błędu. Jeśli zarchiwizowane przez przypadek, użyj polecenia reactivate , aby go aktywować.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

snapshot_name
str
Wymagane

Nazwa migawki. Nazwy migawek powinny być unikatowe w zestawie danych.

compute_target
ComputeTarget lub str
wartość domyślna: None

Obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. Jeśli pominięto, lokalne obliczenia są używane.

create_data_snapshot
bool
wartość domyślna: False

Jeśli wartość True, zostanie utworzona zmaterializowana kopia danych.

target_datastore
Union[AbstractAzureStorageDatastore, str]
wartość domyślna: None

Docelowy magazyn danych, w którym ma być zapisywana migawka. W przypadku pominięcia migawka zostanie utworzona w domyślnym magazynie obszaru roboczego.

Zwraca

Obiekt DatasetSnapshot.

Typ zwracany

Uwagi

Migawki przechwytują punkt w podsumowaniu czasu statystyki danych bazowych i opcjonalną kopię samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do strony https://aka.ms/azureml/howto/createsnapshots.

deprecate

Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametry

deprecate_by_dataset_id
uuid
Wymagane

Identyfikator zestawu danych, który jest odpowiedzialny za wycofanie bieżącego zestawu danych.

deprecated_by_definition_version
str
wartość domyślna: None

Wersja definicji zestawu danych, która jest odpowiedzialna za wycofanie bieżącej definicji zestawu danych.

Zwraca

Brak.

Typ zwracany

Uwagi

Przestarzałe definicje zestawu danych będą rejestrować ostrzeżenia po ich użyciu. Aby całkowicie zablokować używanie definicji zestawu danych, zarchiwizuj ją.

Jeśli definicja zestawu danych jest przestarzała przypadkowo, użyj reactivate polecenia , aby ją aktywować.

reactivate

Ponownie uaktywnij definicję zestawu danych.

Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.

reactivate()

Zwraca

Brak.

Typ zwracany

to_pandas_dataframe

Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.

to_pandas_dataframe()

Zwraca

Ramka danych Biblioteki Pandas.

Typ zwracany

Uwagi

Zwróć ramkę danych Pandas w pełni zmaterializowaną w pamięci.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.

to_spark_dataframe()

Zwraca

Ramka danych platformy Spark.

Typ zwracany

Uwagi

Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są źle oceniane.