Dataset Klasa

Reprezentuje zasób służący do eksplorowania i przekształcania danych oraz zarządzania nimi w Azure Machine Learning.

Zestaw danych to odwołanie do danych znajdujących się w Datastore lub za publicznymi adresami URL sieci Web.

W przypadku metod przestarzałych w tej klasie Sprawdź, czy w AbstractDataset klasie zostały ulepszone interfejsy API.

Obsługiwane są następujące typy danych:

  • Element TabularDataset reprezentuje dane w formacie tabelarycznym utworzonym przez analizowanie podanego pliku lub listy plików.

  • Element FileDataset odwołuje się do jednego lub wielu plików w magazynach danych lub z publicznych adresów URL.

Aby rozpocząć pracę z zestawami danych, zobacz artykuł dodawanie & Rejestrowanie zestawów danychlub wyświetlanie notesów https://aka.ms/tabulardataset-samplenotebook oraz https://aka.ms/filedataset-samplenotebook .

Dziedziczenie
builtins.object
Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Uwagi

Klasa DataSet uwidacznia dwa wygodne atrybuty klasy ( File i Tabular ), których można użyć do tworzenia zestawu danych bez pracy z odpowiednimi metodami fabryki. Na przykład, aby utworzyć zestaw danych przy użyciu następujących atrybutów:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Można również utworzyć nowe TabularDataset lub FileDataset przez bezpośrednie wywołanie odpowiednich metod fabrycznych klasy zdefiniowanej w TabularDatasetFactory i FileDatasetFactory .

Poniższy przykład pokazuje, jak utworzyć element TabularDataset wskazujący pojedynczą ścieżkę w magazynie danych.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Pełny przykład jest dostępny z https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Zmienne

azureml.core.Dataset.File

Atrybut klasy, który zapewnia dostęp do FileDatasetFactory metod tworzenia nowych obiektów FileDataset. Użycie: Dataset.File.from_files ().

azureml.core.Dataset.Tabular

Atrybut klasy, który zapewnia dostęp do TabularDatasetFactory metod tworzenia nowych obiektów TabularDataset. Użycie: Dataset.Tabular.from_delimited_files ().

Metody

archive

Archiwizowanie aktywnego lub przestarzałego zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

auto_read_files

Analizuje pliki w określonej ścieżce i zwraca nowy zestaw danych.

Uwaga

Ta metoda jest przestarzała. Użyj metod Dataset.Tabular.from_ *, aby odczytać pliki. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

compare_profiles

Porównaj profil bieżącego zestawu danych z innym profilem zestawu danych.

Pokazuje różnice w statystyce podsumowania między dwoma zestawami danych. Parametr "rhs_dataset" oznacza "po prawej stronie" i jest po prostu drugim zestawem danych. Pierwszy zestaw danych (obiekt bieżącego zestawu danych) jest traktowany jako po lewej stronie.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

delete_snapshot

Usuń migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

deprecate

Wycofaj aktywny zestaw danych w obszarze roboczym przez inny zestaw danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

diff

Różnicowanie bieżącego zestawu danych z rhs_dataset.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_binary_files

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci z plików binarnych.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.File.from_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_delimited_files

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci z plików z ograniczeniami.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_delimited_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci z plików programu Excel.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_json_files

Tworzenie niezarejestrowanego zestawu danych w pamięci z plików JSON.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_json_lines_files, aby odczytać z pliku wierszy JSON. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Tworzenie niezarejestrowanego zestawu danych w pamięci z Pandas Dataframe.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.register_pandas_dataframe. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_parquet_files

Utwórz niezarejestrowany zestaw danych w pamięci z plików Parquet.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_parquet_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_sql_query

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci na podstawie zapytania SQL.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_sql_query. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

generate_profile

Generuj nowy profil dla zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get

Pobierz zestaw danych, który już istnieje w obszarze roboczym, określając jego nazwę lub identyfikator.

Uwaga

Ta metoda jest przestarzała. Użyj polecenia get_by_name i get_by_id . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_all

Pobierz wszystkie zarejestrowane zestawy danych w obszarze roboczym.

get_all_snapshots

Pobierz wszystkie migawki zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_by_id

Pobierz zestaw danych, który jest zapisywany w obszarze roboczym.

get_by_name

Pobierz zarejestrowany zestaw danych z obszaru roboczego przy użyciu jego nazwy rejestracji.

get_definition

Pobierz określoną definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_definitions

Pobierz wszystkie definicje zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_profile

Pobierz statystyki podsumowania zestawu danych, który został obliczony wcześniej.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_snapshot

Pobierz migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

head

Ściągnij określoną liczbę rekordów określoną z tego zestawu danych i zwraca je jako element Dataframe.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

list

Wyświetl listę wszystkich zestawów danych w obszarze roboczym, łącznie z is_visible właściwościami o wartości false.

Uwaga

Ta właściwość jest przestarzała. Zamiast tego użyj polecenia cmdlet get_all. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

reactivate

Aktywuj ponownie zarchiwizowany lub przestarzały zestaw danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

register

Zarejestruj zestaw danych w obszarze roboczym, udostępniając go innym użytkownikom obszaru roboczego.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj polecenia cmdlet register. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

sample

Wygeneruj nowy przykład z źródłowego zestawu danych przy użyciu podanych strategii próbkowania i parametrów.

Uwaga

Ta metoda jest przestarzała. Utwórz obiekt, TabularDataset wywołując metody statyczne w elemencie dataset. tabelarycznym i Użyj take_sample metody. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Utwórz Pandas Dataframe, wykonując potok transformacji zdefiniowany przez tę definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała. Utwórz obiekt, TabularDataset wywołując metody statyczne w elemencie dataset. tabelarycznym i Użyj to_pandas_dataframe metody. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok transformacji zdefiniowany przez tę definicję DataSet.

Uwaga

Ta metoda jest przestarzała. Utwórz obiekt, TabularDataset wywołując metody statyczne w elemencie dataset. tabelarycznym i Użyj to_spark_dataframe metody. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update

Zaktualizuj atrybuty mutable zestawu danych w obszarze roboczym i zwracają zaktualizowany zestaw danych z obszaru roboczego.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update_definition

Zaktualizuj definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

archive

Archiwizowanie aktywnego lub przestarzałego zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

archive()

Zwraca

Brak.

Typ zwracany

Uwagi

Po wykonaniu archiwizacji każda próba użycia zestawu danych spowoduje wystąpienie błędu. W przypadku zarchiwizowania w razie wypadków Aktywuj ją.

auto_read_files

Analizuje pliki w określonej ścieżce i zwraca nowy zestaw danych.

Uwaga

Ta metoda jest przestarzała. Użyj metod Dataset.Tabular.from_ *, aby odczytać pliki. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

auto_read_files(path, include_path=False, partition_format=None)

Parametry

path
DataReference lub str

Ścieżka danych w zarejestrowaniu, ścieżce lokalnej lub w adresie URL protokołu HTTP (CSV/TSV).

include_path
bool

Określa, czy dołączać kolumnę zawierającą ścieżkę pliku, z którego zostały odczytane dane. Przydatne podczas odczytywania wielu plików i chcesz wiedzieć, który plik pochodzi z określonego rekordu. Przydatne również w przypadku, gdy w kolumnie znajduje się informacja o ścieżce lub nazwie pliku.

partition_format
str

Określ format partycji w ścieżce i Utwórz kolumny ciągów z formatu "{x}" i kolumny DateTime w formacie "{x: RRRR/MM/DD/HH/mm/SS}", gdzie "RRRR", "MM", "DD", "gg", "mm" i "SS" są używane do dodatkowego roku, miesiąca, dnia, godziny, minuty i sekundy dla typu DateTime. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji, aż do końca ścieżki pliku. Na przykład, podaną ścieżką pliku ".. /Accounts/2019/01/01/data.csv "gdzie dane są partycjonowane według nazwy i czasu działu, możemy zdefiniować"/{Department}/{PartitionDate: RRRR/MM/DD}/data.csv ", aby utworzyć kolumny" Wydział "typu String i" PartitionDate "typu DateTime.

Zwraca

Obiekt DataSet.

Typ zwracany

Uwagi

Tej metody należy użyć, gdy mają być automatycznie wykrywane formaty plików i ograniczniki.

Po utworzeniu zestawu danych należy użyć, get_profile Aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowań dla każdej kolumny.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

compare_profiles

Porównaj profil bieżącego zestawu danych z innym profilem zestawu danych.

Pokazuje różnice w statystyce podsumowania między dwoma zestawami danych. Parametr "rhs_dataset" oznacza "po prawej stronie" i jest po prostu drugim zestawem danych. Pierwszy zestaw danych (obiekt bieżącego zestawu danych) jest traktowany jako po lewej stronie.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)

Parametry

rhs_dataset
Dataset

Drugi zestaw danych, nazywany również zestawem danych "po prawej stronie" dla porównanie.

profile_arguments
dict

Argumenty do pobrania określonego profilu.

include_columns
list[str]

Lista nazw kolumn do uwzględnienia w porównaniu.

exclude_columns
list[str]

Lista nazw kolumn do wykluczenia w porównaniu.

histogram_compare_method
HistogramCompareMethod

Wyliczenie opisujące metodę porównania, np. Wasserstein lub Energy

Zwraca

Różnica między dwoma profilami zestawu danych.

Typ zwracany

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Uwagi

Jest to przeznaczone tylko dla zarejestrowanych zestawów danych. Zgłasza wyjątek, jeśli bieżący profil zestawu danych nie istnieje. W przypadku niezarejestrowanego zestawu danych Użyj metody profile. Compare.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

snapshot_name
str

Nazwa migawki. Nazwy migawek powinny być unikatowe w obrębie zestawu danych.

compute_target
Union[ComputeTarget, str]

Opcjonalny element docelowy obliczeń do wykonania tworzenia profilu migawki. W przypadku pominięcia jest używane lokalne obliczenie.

create_data_snapshot
bool

W przypadku wartości true zostanie utworzona materiałowa kopia danych.

target_datastore
Union[AbstractAzureStorageDatastore, str]

Docelowy magazyn danych do zapisania migawki. W przypadku pominięcia zostanie utworzona migawka w domyślnym magazynie obszaru roboczego.

Zwraca

Obiekt migawki zestawu danych.

Typ zwracany

Uwagi

Migawki podsumowania punktów przechwytywania w czasie dla danych źródłowych i opcjonalne kopie samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do https://aka.ms/azureml/howto/createsnapshots .

delete_snapshot

Usuń migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parametry

snapshot_name
str

Nazwa migawki.

Zwraca

Brak.

Typ zwracany

Uwagi

Użyj tego do zwolnienia magazynu wykorzystywanego przez dane zapisane w migawkach, które nie są już potrzebne.

deprecate

Wycofaj aktywny zestaw danych w obszarze roboczym przez inny zestaw danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parametry

deprecate_by_dataset_id
str

Identyfikator zestawu danych, który jest zamierzonym zastępowaniem tego zestawu danych.

Zwraca

Brak.

Typ zwracany

Uwagi

Przestarzałe zestawy danych będą rejestrować ostrzeżenia, gdy są używane. Wycofanie zestawu danych oznacza, że wszystkie jego definicje są przestarzałe.

Nadal mogą być używane przestarzałe zestawy danych. Aby całkowicie zablokować użycie zestawu danych, zarchiwizuj go.

Jeśli jest przestarzałe, uaktywnij ją ponownie.

diff

Różnicowanie bieżącego zestawu danych z rhs_dataset.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parametry

rhs_dataset
Dataset

Inny zestaw danych również o nazwie prawa strona zestawu danych dla porównanie

compute_target
Union[ComputeTarget, str]

element docelowy obliczeń do przeprowadzenia porównania. W przypadku pominięcia jest używane lokalne obliczenie.

columns
list[str]

Lista nazw kolumn do uwzględnienia w różnic.

Zwraca

Obiekt run akcji zestawu danych.

Typ zwracany

from_binary_files

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci z plików binarnych.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.File.from_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_binary_files(path)

Parametry

path
DataReference lub str

Ścieżka danych w zarejestrowaniu lub ścieżce lokalnej.

Zwraca

Obiekt DataSet.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania plików jako strumieni danych binarnych. Zwraca jeden obiekt strumienia plików dla odczytu pliku. Użyj tej metody, gdy odczytujesz obrazy, wideo, audio lub inne dane binarne.

get_profile i create_snapshot nie będą działały zgodnie z oczekiwaniami dla zestawu danych utworzonego przez tę metodę.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_delimited_files

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci z plików z ograniczeniami.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_delimited_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_delimited_files(path, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, encoding=<FileEncoding.UTF8: 0>, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=<SkipLinesBehavior.NO_ROWS: 0>, comment=None, include_path=False, archive_options=None, partition_format=None)

Parametry

path
DataReference lub str

Ścieżka danych w zarejestrowaniu, ścieżce lokalnej lub adresie URL protokołu HTTP.

separator
str

Separator używany do dzielenia kolumn.

header
PromoteHeadersBehavior

Kontroluje sposób awansowania nagłówków kolumn podczas odczytywania z plików.

encoding
FileEncoding

Kodowanie plików, które są odczytywane.

quoting
bool

Określ sposób obsługi znaków nowego wiersza w cudzysłowie. Wartość domyślna (false) to interpretowanie nowych znaków wiersza jako początkowych nowych wierszy, niezależnie od tego, czy nowe znaki wiersza znajdują się w cudzysłowie, czy nie. Jeśli ustawiono wartość true, nowe znaki linii wewnątrz cudzysłowu nie będą powodować nowych wierszy, a szybkość odczytywania plików zmniejszy się.

infer_column_types
bool

Wskazuje, czy typy danych kolumny są wywnioskowane.

skip_rows
int

Liczba wierszy do pominięcia w plikach, które są odczytywane.

skip_mode
SkipLinesBehavior

Określa, jak wiersze są pomijane podczas odczytywania plików.

comment
str

Znak używany do wskazania wierszy komentarzy w odczytywanych plikach. Wiersze zaczynające się od tego ciągu zostaną pominięte.

include_path
bool

Określa, czy dołączać kolumnę zawierającą ścieżkę pliku, z którego zostały odczytane dane. Jest to przydatne w przypadku odczytywania wielu plików i dowiedzieć się, który plik pochodzi z określonego rekordu, lub aby zachować przydatne informacje w ścieżce pliku.

archive_options
<xref:azureml.dataprep.ArchiveOptions>

Opcje pliku archiwalnego, w tym typ archiwum i wzorzec globalizowania wpisu. W tej chwili obsługujemy tylko archiwum ZIP AS. Na przykład Określanie


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

odczytuje wszystkie pliki o nazwie kończącej się znakiem "10-20.csv" w pliku ZIP.

partition_format
str

Określ format partycji w ścieżce i Utwórz kolumny ciągów z formatu "{x}" i kolumny DateTime w formacie "{x: RRRR/MM/DD/HH/mm/SS}", gdzie "RRRR", "MM", "DD", "gg", "mm" i "SS" są używane do dodatkowego roku, miesiąca, dnia, godziny, minuty i sekundy dla typu DateTime. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji, aż do końca ścieżki pliku. Na przykład, podaną ścieżką pliku ".. /Accounts/2019/01/01/data.csv "gdzie dane są partycjonowane według nazwy i czasu działu, możemy zdefiniować"/{Department}/{PartitionDate: RRRR/MM/DD}/data.csv ", aby utworzyć kolumny" Wydział "typu String i" PartitionDate "typu DateTime.

Zwraca

Obiekt DataSet.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania rozdzielanych plików tekstowych, gdy chcesz kontrolować używane opcje.

Po utworzeniu zestawu danych należy użyć, get_profile Aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowań dla każdej kolumny.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_excel_files

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci z plików programu Excel.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parametry

path
DataReference lub str

Ścieżka danych w zarejestrowaniu lub ścieżce lokalnej.

sheet_name
str

Nazwa arkusza programu Excel do załadowania. Domyślnie odczytujemy pierwszy arkusz z każdego pliku programu Excel.

use_column_headers
bool

Określa, czy pierwszy wiersz ma być używany jako nagłówek kolumny.

skip_rows
int

Liczba wierszy do pominięcia w plikach, które są odczytywane.

include_path
bool

Określa, czy dołączać kolumnę zawierającą ścieżkę pliku, z którego zostały odczytane dane. Jest to przydatne w przypadku odczytywania wielu plików i dowiedzieć się, który plik pochodzi z określonego rekordu, lub aby zachować przydatne informacje w ścieżce pliku.

infer_column_types
bool

Jeśli wartość jest równa true, typy danych kolumny będą wywnioskowane.

partition_format
str

Określ format partycji w ścieżce i Utwórz kolumny ciągów z formatu "{x}" i kolumny DateTime w formacie "{x: RRRR/MM/DD/HH/mm/SS}", gdzie "RRRR", "MM", "DD", "gg", "mm" i "SS" są używane do dodatkowego roku, miesiąca, dnia, godziny, minuty i sekundy dla typu DateTime. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji, aż do końca ścieżki pliku. Na przykład, podaną ścieżką pliku ".. /Accounts/2019/01/01/data.xlsx "gdzie dane są partycjonowane według nazwy i czasu działu, możemy zdefiniować"/{Department}/{PartitionDate: RRRR/MM/DD}/data.xlsx ", aby utworzyć kolumny" Wydział "typu String i" PartitionDate "typu DateTime.

Zwraca

Obiekt DataSet.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania plików programu Excel w formacie xlsx. Dane można odczytywać z jednego arkusza w każdym pliku programu Excel. Po utworzeniu zestawu danych należy użyć, get_profile Aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowań dla każdej kolumny. Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_json_files

Tworzenie niezarejestrowanego zestawu danych w pamięci z plików JSON.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_json_lines_files, aby odczytać z pliku wierszy JSON. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_json_files(path, encoding=<FileEncoding.UTF8: 0>, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parametry

path
DataReference lub str

Ścieżka do plików lub folderów, które mają zostać załadowane i przeanalizowane. Może to być ścieżka lokalna lub adres URL obiektu blob platformy Azure. Obsługi symboli wieloznacznych jest obsługiwany. Na przykład możesz użyć ścieżki = "./Data *", aby odczytać wszystkie pliki o nazwie rozpoczynającej się od "dane".

encoding
FileEncoding

Kodowanie plików, które są odczytywane.

flatten_nested_arrays
bool

Kontrola właściwości obsługi zagnieżdżonych tablic. Jeśli zdecydujesz się na spłaszczenie zagnieżdżonych tablic JSON, może to spowodować powstanie znacznie większej liczby wierszy.

include_path
bool

Określa, czy dołączać kolumnę zawierającą ścieżkę, z której odczytano dane. Jest to przydatne w przypadku odczytywania wielu plików i może chcieć wiedzieć, który plik pochodzi z określonego rekordu, lub aby zachować przydatne informacje w ścieżce pliku.

partition_format
str

Określ format partycji w ścieżce i Utwórz kolumny ciągów z formatu "{x}" i kolumny DateTime w formacie "{x: RRRR/MM/DD/HH/mm/SS}", gdzie "RRRR", "MM", "DD", "gg", "mm" i "SS" są używane do dodatkowego roku, miesiąca, dnia, godziny, minuty i sekundy dla typu DateTime. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji, aż do końca ścieżki pliku. Na przykład, podaną ścieżką pliku ".. /Accounts/2019/01/01/data.json "i dane są partycjonowane według nazwy działu i godziny, możemy zdefiniować"/{Department}/{PartitionDate: RRRR/MM/DD}/data.json ", aby utworzyć" Wydział "kolumn typu String i" PartitionDate "typu DateTime.

Zwraca

Obiekt lokalnego zestawu danych.

Typ zwracany

from_pandas_dataframe

Tworzenie niezarejestrowanego zestawu danych w pamięci z Pandas Dataframe.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.register_pandas_dataframe. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parametry

dataframe
DataFrame

Ramka dataPandas.

path
Union[DataReference, str]

Ścieżka danych w zarejestrowaniu lub ścieżce folderu lokalnego.

in_memory
bool

Określa, czy należy odczytać ramkę danych z pamięci, zamiast utrzymywać ją na dysku.

Zwraca

Obiekt DataSet.

Typ zwracany

Uwagi

Ta metoda służy do konwertowania Pandas Dataframe na obiekt DataSet. Nie można zarejestrować zestawu danych utworzonego za pomocą tej metody, ponieważ dane pochodzą z pamięci.

Jeśli in_memory ma wartość false, ramka dataPandas jest konwertowana na plik CSV lokalnie. Jeśli pat jest typu DataReference, ramka Pandas zostanie przekazana do magazynu danych, a zestaw danych będzie oparty na DataReference. Jeśli ścieżka "" Path "jest folderem lokalnym, zestaw danych zostanie utworzony z pliku lokalnego, którego nie można usunąć.

Zgłasza wyjątek, jeśli bieżące odwołanie do DataReference nie jest ścieżką folderu.

from_parquet_files

Utwórz niezarejestrowany zestaw danych w pamięci z plików Parquet.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_parquet_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_parquet_files(path, include_path=False, partition_format=None)

Parametry

path
DataReference lub str

Ścieżka danych w zarejestrowaniu lub ścieżce lokalnej.

include_path
bool

Określa, czy dołączać kolumnę zawierającą ścieżkę pliku, z którego zostały odczytane dane. Jest to przydatne w przypadku odczytywania wielu plików i dowiedzieć się, który plik pochodzi z określonego rekordu, lub aby zachować przydatne informacje w ścieżce pliku.

partition_format
str

Określ format partycji w ścieżce i Utwórz kolumny ciągów z formatu "{x}" i kolumny DateTime w formacie "{x: RRRR/MM/DD/HH/mm/SS}", gdzie "RRRR", "MM", "DD", "gg", "mm" i "SS" są używane do dodatkowego roku, miesiąca, dnia, godziny, minuty i sekundy dla typu DateTime. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji, aż do końca ścieżki pliku. Na przykład, podaną ścieżką pliku ".. /Accounts/2019/01/01/Data.Parquet "gdzie dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować"/{Department}/{PartitionDate: RRRR/MM/DD}/Data. Parquet ", aby utworzyć kolumny" Wydział "typu String i" PartitionDate "typu DateTime.

Zwraca

Obiekt DataSet.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania plików Parquet.

Po utworzeniu zestawu danych należy użyć, get_profile Aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowań dla każdej kolumny.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_sql_query

Tworzenie niezarejestrowanego zestawu danych znajdującego się w pamięci na podstawie zapytania SQL.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj Dataset.Tabular.from_sql_query. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_sql_query(data_source, query)

Parametry

data_source
AzureSqlDatabaseDatastore

Szczegóły dotyczące magazynu danych usługi Azure SQL.

query
str

Zapytanie, które ma zostać wykonane w celu odczytu danych.

Zwraca

Obiekt lokalnego zestawu danych.

Typ zwracany

generate_profile

Generuj nowy profil dla zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parametry

compute_target
Union[ComputeTarget, str]

Opcjonalny element docelowy obliczeń służący do tworzenia profilu migawki. W przypadku pominięcia jest używane lokalne obliczenie.

workspace
Workspace

Obszar roboczy, wymagany dla przejściowych (wyrejestrowanych) zestawów danych.

arguments
dict[str, object]

Argumenty profilu. Prawidłowe argumenty to:

  • "include_stype_counts" typu bool. Sprawdź, czy wartości wyglądają jak niektóre dobrze znane typy semantyczne, takie jak adres e-mail, adres IP (v4/V6), numer telefonu US kod pocztowy, Szerokość geograficzna/Długość geograficzna. Włączenie tej ma wpływ na wydajność.

  • "number_of_histogram_bins" typu int. Przedstawia liczbę pojemników histogramu, które mają być używane dla danych liczbowych. Wartość domyślna to 10.

Zwraca

Obiekt run akcji zestawu danych.

Typ zwracany

Uwagi

Wywołanie synchroniczne rozpocznie się aż do zakończenia. Wywołanie get_result w celu uzyskania wyniku akcji.

get

Pobierz zestaw danych, który już istnieje w obszarze roboczym, określając jego nazwę lub identyfikator.

Uwaga

Ta metoda jest przestarzała. Użyj polecenia get_by_name i get_by_id . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get(workspace, name=None, id=None)

Parametry

workspace
Workspace

Istniejący obszar roboczy Azure, w którym został utworzony zestaw danych.

name
str

Nazwa zestawu danych, który ma zostać pobrany.

id
str

Unikatowy identyfikator zestawu danych w obszarze roboczym.

Zwraca

Zestaw danych o określonej nazwie lub IDENTYFIKATORze.

Typ zwracany

Uwagi

Możesz podać albo name id . Wyjątek jest zgłaszany, jeśli:

  • Oba name i id są określone, ale nie są zgodne.

  • Zestaw danych z określonym name lub id nie można go znaleźć w obszarze roboczym.

get_all

Pobierz wszystkie zarejestrowane zestawy danych w obszarze roboczym.

get_all(workspace)

Parametry

workspace
Workspace

Istniejący obszar roboczy Azure, w którym zostały zarejestrowane zestawy danych.

Zwraca

Słownik obiektów TabularDataset i FileDataset poddany przez ich nazwę rejestracji.

Typ zwracany

get_all_snapshots

Pobierz wszystkie migawki zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_all_snapshots()

Zwraca

Lista migawek zestawu danych.

Typ zwracany

get_by_id

Pobierz zestaw danych, który jest zapisywany w obszarze roboczym.

get_by_id(workspace, id)

Parametry

workspace
Workspace

Istniejący obszar roboczy Azure, w którym jest zapisywany zestaw danych.

id
str

Identyfikator zestawu danych.

Zwraca

Obiekt DataSet. Jeśli zestaw danych jest zarejestrowany, jego nazwa i wersja rejestracji również zostaną zwrócone.

Typ zwracany

get_by_name

Pobierz zarejestrowany zestaw danych z obszaru roboczego przy użyciu jego nazwy rejestracji.

get_by_name(workspace, name, version='latest')

Parametry

workspace
Workspace

Istniejący obszar roboczy Azure, w którym został zarejestrowany zestaw danych.

name
str

Nazwa rejestracji.

version
int

Wersja do rejestracji. Wartość domyślna to "Najnowsza".

Zwraca

Obiekt zarejestrowanego zestawu danych.

Typ zwracany

get_definition

Pobierz określoną definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parametry

version_id
str

Identyfikator wersji definicji zestawu danych

Zwraca

Definicja zestawu danych.

Typ zwracany

Uwagi

Jeśli version_id jest podany, Azure Machine Learning próbuje uzyskać definicję odpowiadającą tej wersji. Jeśli ta wersja nie istnieje, zgłaszany jest wyjątek. version_idW przypadku pominięcia zostanie pobrana najnowsza wersja.

get_definitions

Pobierz wszystkie definicje zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_definitions()

Zwraca

Słownik definicji zestawu danych.

Typ zwracany

Uwagi

Zestaw danych zarejestrowany w obszarze roboczym Azure może mieć wiele definicji, z których każda została utworzona przez wywołanie update_definition . Każda definicja ma unikatowy identyfikator. Bieżąca definicja to najnowsza utworzona.

W przypadku niezarejestrowanego zestawu danych istnieje tylko jedna definicja.

get_profile

Pobierz statystyki podsumowania zestawu danych, który został obliczony wcześniej.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parametry

arguments
dict[str, object]

Argumenty profilu.

generate_if_not_exist
bool

Wskazuje, czy ma być generowany profil, jeśli nie istnieje.

workspace
Workspace

Obszar roboczy, wymagany dla przejściowych (wyrejestrowanych) zestawów danych.

compute_target
Union[ComputeTarget, str]

Obiekt docelowy obliczeń do wykonania akcji profilu.

Zwraca

Profil datadataset.

Typ zwracany

Uwagi

W przypadku zestawu danych zarejestrowanego w obszarze roboczym Azure Machine Learning ta metoda pobiera istniejący profil, który został utworzony wcześniej przez wywołanie, get_profile Jeśli jest nadal ważny. Profile są unieważnione w przypadku wykrycia zmienionych danych w zestawie danych lub argumentów, które get_profile różnią się od tych, które są używane podczas generowania profilu. Jeśli profil nie istnieje lub unieważniony, generate_if_not_exist program określi, czy zostanie wygenerowany nowy profil.

W przypadku zestawu danych, który nie jest zarejestrowany w obszarze roboczym Azure Machine Learning, ta metoda jest zawsze uruchamiana generate_profile i zwraca wynik.

get_snapshot

Pobierz migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parametry

snapshot_name
str

Nazwa migawki.

Zwraca

Obiekt migawki zestawu danych.

Typ zwracany

head

Ściągnij określoną liczbę rekordów określoną z tego zestawu danych i zwraca je jako element Dataframe.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

head(count)

Parametry

count
int

Liczba rekordów do ściągnięcia.

Zwraca

Ramka dataPandas.

Typ zwracany

list

Wyświetl listę wszystkich zestawów danych w obszarze roboczym, łącznie z is_visible właściwościami o wartości false.

Uwaga

Ta właściwość jest przestarzała. Zamiast tego użyj polecenia cmdlet get_all. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

list(workspace)

Parametry

workspace
Workspace

Obszar roboczy, dla którego chcesz pobrać listę zestawów danych.

Zwraca

Lista obiektów DataSet.

Typ zwracany

reactivate

Aktywuj ponownie zarchiwizowany lub przestarzały zestaw danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

reactivate()

Zwraca

Brak.

Typ zwracany

register

Zarejestruj zestaw danych w obszarze roboczym, udostępniając go innym użytkownikom obszaru roboczego.

Uwaga

Ta metoda jest przestarzała. Zamiast tego użyj polecenia cmdlet register. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parametry

workspace
Workspace

Obszar roboczy Azure, w którym ma zostać zarejestrowany zestaw danych.

name
str

Nazwa zestawu danych w obszarze roboczym.

description
str

Opis zestawu danych.

tags
dict[str, str]

Tagi do skojarzenia z zestawem danych.

visible
bool

Wskazuje, czy zestaw danych jest widoczny w interfejsie użytkownika. Jeśli wartość jest równa false, zestaw danych jest ukryty w interfejsie użytkownika i dostępny za pośrednictwem zestawu SDK.

exist_ok
bool

W przypadku wartości true Metoda zwraca zestaw danych, jeśli już istnieje w podanym obszarze roboczym. w przeciwnym razie wystąpi błąd.

update_if_exist
bool

Jeśli exist_ok ma wartość true i update_if_exist ma wartość true, ta metoda zaktualizuje definicję i zwróci zaktualizowany zestaw danych.

Zwraca

Obiekt zarejestrowanego zestawu danych w obszarze roboczym.

Typ zwracany

sample

Wygeneruj nowy przykład z źródłowego zestawu danych przy użyciu podanych strategii próbkowania i parametrów.

Uwaga

Ta metoda jest przestarzała. Utwórz obiekt, TabularDataset wywołując metody statyczne w elemencie dataset. tabelarycznym i Użyj take_sample metody. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parametry

sample_strategy
str

Przykładowa strategia do użycia. Akceptowane wartości to "top_n", "simple_random" lub "stratified".

arguments
dict[str, object]

Słownik z kluczami z "opcjonalnego argumentu" na wyświetlonej powyżej liście i wartości z kolumny Tye "Type". Można użyć tylko argumentów z odpowiedniej metody próbkowania. Na przykład dla przykładowego typu "simple_random" można określić tylko słownik z kluczami "prawdopodobieństwo" i "inicjator".

Zwraca

Obiekt DataSet jako próbka oryginalnego zestawu danych.

Typ zwracany

Uwagi

Próbki są generowane przez wykonanie potoku transformacji zdefiniowanego przez ten zestaw danych, a następnie zastosowanie strategii próbkowania i parametrów do danych wyjściowych. Każda metoda próbkowania obsługuje następujące argumenty opcjonalne:

  • top_n

    • Argumenty opcjonalne

      • n, wpisz liczbę całkowitą. Wybierz pierwsze N wierszy jako przykład.
  • simple_random

    • Argumenty opcjonalne

      • prawdopodobieństwo, typ float. Proste Próbkowanie losowe, w którym każdy wiersz ma równe prawdopodobieństwo wyboru. Prawdopodobieństwo musi być liczbą z zakresu od 0 do 1.

      • Inicjator, typ float. Używany przez generator liczb losowych. Użyj do powtarzalności.

  • stratified

    • Argumenty opcjonalne

      • kolumny, typ list [str]. Lista kolumn strat w danych.

      • Inicjator, typ float. Używany przez generator liczb losowych. Użyj do powtarzalności.

      • ułamki, typ DICT [krotka, zmiennoprzecinkowa]. Krotka: wartości kolumn definiujące warstwy muszą być w tej samej kolejności co nazwy kolumn. Float: Waga dołączona do warstwy podczas próbkowania.

Poniższe fragmenty kodu są przykładowymi wzorcami projektowymi dla różnych metod przykładowych.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Utwórz Pandas Dataframe, wykonując potok transformacji zdefiniowany przez tę definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała. Utwórz obiekt, TabularDataset wywołując metody statyczne w elemencie dataset. tabelarycznym i Użyj to_pandas_dataframe metody. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Zwraca

Ramka dataPandas.

Typ zwracany

Uwagi

Zwróć Pandas Dataframe w pełni w pamięci.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok transformacji zdefiniowany przez tę definicję DataSet.

Uwaga

Ta metoda jest przestarzała. Utwórz obiekt, TabularDataset wywołując metody statyczne w elemencie dataset. tabelarycznym i Użyj to_spark_dataframe metody. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Zwraca

Ramka Dataframe platformy Spark.

Typ zwracany

Uwagi

Zwracana ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ opóźnieniem są oceniane w ramach platformy Spark.

update

Zaktualizuj atrybuty mutable zestawu danych w obszarze roboczym i zwracają zaktualizowany zestaw danych z obszaru roboczego.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parametry

name
str

Nazwa zestawu danych w obszarze roboczym.

description
str

Opis danych.

tags
dict[str, str]

Znaczniki umożliwiające skojarzenie zestawu danych z.

visible
bool

Wskazuje, czy zestaw danych jest widoczny w interfejsie użytkownika.

Zwraca

Zaktualizowany obiekt DataSet z obszaru roboczego.

Typ zwracany

update_definition

Zaktualizuj definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parametry

definition
DatasetDefinition

Nowa definicja tego zestawu danych.

definition_update_message
str

Komunikat aktualizacji definicji.

Zwraca

Zaktualizowany obiekt DataSet z obszaru roboczego.

Typ zwracany

Uwagi

Aby wykorzystać zaktualizowany zestaw danych, należy użyć obiektu zwróconego przez tę metodę.

Atrybuty

definition

Zwróć definicję bieżącego zestawu danych.

Uwaga

Ta właściwość jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Definicja zestawu danych.

Typ zwracany

Uwagi

Definicja zestawu danych to seria kroków, które określają sposób odczytywania i przekształcania danych.

Zestaw danych zarejestrowany w obszarze roboczym Azure może mieć wiele definicji, z których każda została utworzona przez wywołanie update_definition . Każda definicja ma unikatowy identyfikator. Posiadanie wielu definicji pozwala wprowadzać zmiany w istniejących zestawach danych bez przerywania modeli i potoków, które są zależne od starszej definicji.

W przypadku niezarejestrowanego zestawu danych istnieje tylko jedna definicja.

definition_version

Zwróć wersję bieżącej definicji zestawu danych.

Uwaga

Ta właściwość jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Wersja definicji zestawu danych.

Typ zwracany

str

Uwagi

Definicja zestawu danych to seria kroków, które określają sposób odczytywania i przekształcania danych.

Zestaw danych zarejestrowany w obszarze roboczym Azure może mieć wiele definicji, z których każda została utworzona przez wywołanie update_definition . Każda definicja ma unikatowy identyfikator. Bieżąca definicja to najnowsza utworzona, której identyfikator jest zwracany przez ten plik.

W przypadku niezarejestrowanego zestawu danych istnieje tylko jedna definicja.

description

Zwraca opis zestawu danych.

Zwraca

Opis zestawu danych.

Typ zwracany

str

Uwagi

Określenie opisu danych w zestawie danych pozwala użytkownikom obszaru roboczego zrozumieć, co reprezentuje dane, oraz jak można z nich korzystać.

id

Jeśli zestaw danych został zarejestrowany w obszarze roboczym, zwróć identyfikator zestawu danych. W przeciwnym razie Zwróć wartość none.

Zwraca

Identyfikator zestawu danych.

Typ zwracany

str

is_visible

Kontrolowanie widoczności zarejestrowanego zestawu danych w interfejsie użytkownika obszaru roboczego usługi Azure ML.

Uwaga

Ta właściwość jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Widoczność zestawu danych.

Typ zwracany

Uwagi

Zwrócone wartości:

  • True: zestaw danych jest widoczny w interfejsie użytkownika obszaru roboczego. Domyślne.

  • False: zestaw danych jest ukryty w interfejsie użytkownika obszaru roboczego.

Nie ma wpływu na niezarejestrowane zestawy danych.

name

Zwróć nazwę zestawu danych.

Zwraca

Nazwa zestawu danych.

Typ zwracany

str

state

Zwraca stan zestawu danych.

Uwaga

Ta właściwość jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Stan zestawu danych.

Typ zwracany

str

Uwagi

Znaczenie i wpływ stanu są następujące:

  • Wyprzedzeni. Aktywne definicje są dokładnie takie same, jak dźwięk, wszystkie akcje można wykonywać na aktywnych definicjach.

  • Przestarzałe. można użyć przestarzałej definicji, ale spowoduje to wyświetlenie ostrzeżenia w dziennikach za każdym razem danych źródłowych.

  • Archiwum. Archiwizowanej definicji nie można użyć do wykonania żadnej akcji. Aby wykonać akcje na zarchiwizowanej definicji, należy ją ponownie uaktywnić.

tags

Zwróć Tagi skojarzone z zestawem danych.

Zwraca

Znaczniki zestawu danych.

Typ zwracany

workspace

Jeśli zestaw danych został zarejestrowany w obszarze roboczym, zwróć ten element. W przeciwnym razie Zwróć wartość none.

Zwraca

Obszar roboczy.

Typ zwracany