DatasetDefinition Klasa

Odwołanie

Definiuje serię kroków określających sposób odczytywania i przekształcania danych w zestawie danych.

Uwaga

Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zestaw danych zarejestrowany w obszarze roboczym usługi Azure Machine Learning może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną definicją.

W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.

Definicje zestawów danych obsługują wszystkie przekształcenia wymienione dla <xref:azureml.dataprep.Dataflow> klasy: zobacz http://aka.ms/azureml/howto/transformdata. Aby dowiedzieć się więcej o definicjach zestawu danych, przejdź do strony https://aka.ms/azureml/howto/versiondata.

Zainicjuj obiekt definicji zestawu danych.

Dziedziczenie: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametry

workspace: str

Wymagane

Obszar roboczy, w który jest zarejestrowany zestaw danych.

dataset_id: str

Wymagane

Identyfikator zestawu danych.

version_id: str

Wymagane

Wersja definicji.

dataflow: str

Wymagane

Obiekt Przepływ danych.

dataflow_json

Wymagane

Plik json przepływu danych.

notes: str

Wymagane

Opcjonalne informacje o definicji.

etag: str

Wymagane

Etag.

created_time: datetime

Wymagane

Czas tworzenia definicji.

modified_time: datetime

Wymagane

Czas ostatniej modyfikacji definicji.

deprecated_by_dataset_id: str

Wymagane

Identyfikator zestawu danych, który przestarzał tę definicję.

deprecated_by_definition_version: str

Wymagane

Wersja definicji, która przestarzała tę definicję.

data_path: DataPath

Wymagane

Ścieżka danych.

dataset: Dataset

Wymagane

Obiekt nadrzędnego zestawu danych.

Metody

archive	Zarchiwizuj definicję zestawu danych.
create_snapshot	Utwórz migawkę zarejestrowanego zestawu danych.
deprecate	Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.
reactivate	Ponownie uaktywnij definicję zestawu danych. Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.
to_pandas_dataframe	Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.
to_spark_dataframe	Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

snapshot_name: str

Wymagane

Nazwa migawki. Nazwy migawek powinny być unikatowe w zestawie danych.

compute_target: ComputeTarget lub str

wartość domyślna: None

Obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. Jeśli pominięto, lokalne obliczenia są używane.

create_data_snapshot: bool

wartość domyślna: False

Jeśli wartość True, zostanie utworzona zmaterializowana kopia danych.

target_datastore: Union[AbstractAzureStorageDatastore, str]

wartość domyślna: None

Docelowy magazyn danych, w którym ma być zapisywana migawka. W przypadku pominięcia migawka zostanie utworzona w domyślnym magazynie obszaru roboczego.

Zwraca

Obiekt DatasetSnapshot.

Typ zwracany

DatasetSnapshot

Uwagi

Migawki przechwytują punkt w podsumowaniu czasu statystyki danych bazowych i opcjonalną kopię samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do strony https://aka.ms/azureml/howto/createsnapshots.

deprecate

Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametry

deprecate_by_dataset_id: uuid

Wymagane

Identyfikator zestawu danych, który jest odpowiedzialny za wycofanie bieżącego zestawu danych.

deprecated_by_definition_version: str

wartość domyślna: None

Wersja definicji zestawu danych, która jest odpowiedzialna za wycofanie bieżącej definicji zestawu danych.

Zwraca

Brak.

Typ zwracany

None

Uwagi

Przestarzałe definicje zestawu danych będą rejestrować ostrzeżenia po ich użyciu. Aby całkowicie zablokować używanie definicji zestawu danych, zarchiwizuj ją.

Jeśli definicja zestawu danych jest przestarzała przypadkowo, użyj reactivate polecenia , aby ją aktywować.

reactivate

Ponownie uaktywnij definicję zestawu danych.

Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.

reactivate()

Zwraca

Brak.

Typ zwracany

None

to_pandas_dataframe

Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.

to_pandas_dataframe()

Zwraca

Ramka danych Biblioteki Pandas.

Typ zwracany

DataFrame

Uwagi

Zwróć ramkę danych Pandas w pełni zmaterializowaną w pamięci.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.

to_spark_dataframe()

Zwraca

Ramka danych platformy Spark.

Typ zwracany

DataFrame

Uwagi

Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są źle oceniane.

DatasetDefinition Klasa

Konstruktor

Parametry

Metody

archive

Zwraca

Typ zwracany

Uwagi

create_snapshot

Parametry

Zwraca

Typ zwracany

Uwagi

deprecate

Parametry

Zwraca

Typ zwracany

Uwagi

reactivate

Zwraca

Typ zwracany

to_pandas_dataframe

Zwraca

Typ zwracany

Uwagi

to_spark_dataframe

Zwraca

Typ zwracany

Uwagi

Opinia

Opinia

Dodatkowe zasoby