DatasetDefinition Klasa
Definiuje serię kroków określających sposób odczytywania i przekształcania danych w zestawie danych.
Uwaga
Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Zestaw danych zarejestrowany w obszarze roboczym usługi Azure Machine Learning może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną definicją.
W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.
Definicje zestawów danych obsługują wszystkie przekształcenia wymienione dla <xref:azureml.dataprep.Dataflow> klasy: zobacz http://aka.ms/azureml/howto/transformdata. Aby dowiedzieć się więcej o definicjach zestawu danych, przejdź do strony https://aka.ms/azureml/howto/versiondata.
Zainicjuj obiekt definicji zestawu danych.
- Dziedziczenie
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametry
- dataflow_json
Plik json przepływu danych.
Metody
archive |
Zarchiwizuj definicję zestawu danych. |
create_snapshot |
Utwórz migawkę zarejestrowanego zestawu danych. |
deprecate |
Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych. |
reactivate |
Ponownie uaktywnij definicję zestawu danych. Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane. |
to_pandas_dataframe |
Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych. |
to_spark_dataframe |
Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych. |
archive
Zarchiwizuj definicję zestawu danych.
archive()
Zwraca
Brak.
Typ zwracany
Uwagi
Po archiwizacji każda próba pobrania zestawu danych spowoduje wystąpienie błędu. Jeśli zarchiwizowane przez przypadek, użyj polecenia reactivate , aby go aktywować.
create_snapshot
Utwórz migawkę zarejestrowanego zestawu danych.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametry
- compute_target
- ComputeTarget lub str
Obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. Jeśli pominięto, lokalne obliczenia są używane.
- create_data_snapshot
- bool
Jeśli wartość True, zostanie utworzona zmaterializowana kopia danych.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Docelowy magazyn danych, w którym ma być zapisywana migawka. W przypadku pominięcia migawka zostanie utworzona w domyślnym magazynie obszaru roboczego.
Zwraca
Obiekt DatasetSnapshot.
Typ zwracany
Uwagi
Migawki przechwytują punkt w podsumowaniu czasu statystyki danych bazowych i opcjonalną kopię samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do strony https://aka.ms/azureml/howto/createsnapshots.
deprecate
Wycofaj zestaw danych z wskaźnikiem do nowego zestawu danych.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametry
- deprecate_by_dataset_id
- uuid
Identyfikator zestawu danych, który jest odpowiedzialny za wycofanie bieżącego zestawu danych.
- deprecated_by_definition_version
- str
Wersja definicji zestawu danych, która jest odpowiedzialna za wycofanie bieżącej definicji zestawu danych.
Zwraca
Brak.
Typ zwracany
Uwagi
Przestarzałe definicje zestawu danych będą rejestrować ostrzeżenia po ich użyciu. Aby całkowicie zablokować używanie definicji zestawu danych, zarchiwizuj ją.
Jeśli definicja zestawu danych jest przestarzała przypadkowo, użyj reactivate polecenia , aby ją aktywować.
reactivate
Ponownie uaktywnij definicję zestawu danych.
Działa w przypadku definicji zestawów danych, które zostały przestarzałe lub zarchiwizowane.
reactivate()
Zwraca
Brak.
Typ zwracany
to_pandas_dataframe
Utwórz ramkę danych Biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.
to_pandas_dataframe()
Zwraca
Ramka danych Biblioteki Pandas.
Typ zwracany
Uwagi
Zwróć ramkę danych Pandas w pełni zmaterializowaną w pamięci.
to_spark_dataframe
Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez ten przepływ danych.
to_spark_dataframe()
Zwraca
Ramka danych platformy Spark.
Typ zwracany
Uwagi
Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są źle oceniane.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla