TabularDataset Klasa

Reprezentuje tabelaryczny zestaw danych, który ma być używany w Azure Machine Learning.

TabularDataset definiuje serię opóźnieniemych operacji, które są niezmienne, aby załadować dane ze źródła danych do tabelarycznej reprezentacji. Dane nie są ładowane z źródła do momentu poproszenia TabularDataset o dostarczenie danych.

TabularDataset jest tworzony przy użyciu metod from_delimited_files , takich jak z TabularDatasetFactory klasy.

Aby uzyskać więcej informacji, zobacz artykuł dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z tabelarycznym zestawem danych, zobacz https://aka.ms/tabulardataset-samplenotebook .

Dziedziczenie
TabularDataset

Konstruktor

TabularDataset()

Uwagi

TabularDataset można utworzyć na podstawie plików CSV, TSV, Parquet i zapytań SQL przy użyciu from_* metod TabularDatasetFactory klasy. Można wykonywać operacje PodUstawienia na TabularDataset, takie jak dzielenie, pomijanie i filtrowanie rekordów. Wynikiem PodUstawienia jest zawsze jeden lub więcej nowych obiektów TabularDataset.

Możesz również skonwertować TabularDataset na inne formaty, takie jak ramka datapandas. Rzeczywiste ładowanie danych odbywa się, gdy TabularDataset jest proszony o dostarczenie danych do innego mechanizmu magazynu (np. Pandas Dataframe lub pliku CSV).

TabularDataset można użyć jako danych wejściowych przebiegu eksperymentu. Można ją również zarejestrować w obszarze roboczym o określonej nazwie i pobrać ją później.

Metody

drop_columns

Porzuć określone kolumny z zestawu danych.

Jeśli kolumna szeregów czasowych zostanie porzucona, odpowiednie możliwości zostaną usunięte również dla zwróconego zestawu danych.

filter

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Przefiltruj dane, pozostawiając tylko te rekordy, które pasują do określonego wyrażenia.

get_profile

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Pobierz profil danych z najnowszego przebiegu profilu przesłanego dla tego lub tego samego zestawu danych w obszarze roboczym.

get_profile_runs

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Zwróć poprzednie uruchomienia profilu skojarzone z tym lub tym samym zestawem danych w obszarze roboczym.

keep_columns

Zachowaj określone kolumny i porzuca wszystkie pozostałe z zestawu danych.

Jeśli kolumna szeregów czasowych zostanie porzucona, odpowiednie możliwości zostaną usunięte również dla zwróconego zestawu danych.

partition_by

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Partycjonowane dane zostaną skopiowane i wydane wyjściowe do miejsca docelowego określonego przez element docelowy.

Utwórz zestaw danych z wydanej ścieżki danych z formatem partycji, zarejestruj zestaw danych, jeśli podano nazwę, zwróć zestaw danych dla nowej ścieżki danych z partycjami


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu o określoną wartość procentową.

Pierwszy zestaw danych zawiera około percentage wszystkich rekordów i drugi zestaw danych jako pozostałe rekordy.

skip

Pomiń rekordy z góry zestawu danych przez określoną liczbę.

submit_profile_run

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Prześlij przebieg eksperymentowania, aby obliczyć profil danych.

Profil danych może być bardzo użyteczny, aby zrozumieć dane wejściowe, zidentyfikować anomalie i brakujące wartości, dostarczając przydatne informacje dotyczące danych, takich jak typ kolumny, brakujące wartości itd.

take

Zapoznaj się z przykładem rekordów z góry zestawu danych przez określoną liczbę.

take_sample

Pobiera losowo losową liczbę rekordów w zestawie danych w przybliżeniu według określonego prawdopodobieństwa.

time_after

Filtruj TabularDataset z kolumnami sygnatur czasowych po określonym czasie rozpoczęcia.

time_before

Filtruj TabularDataset z kolumnami sygnatur czasowych przed określonym czasem zakończenia.

time_between

Filtr TabularDataset między określonym czasem rozpoczęcia i zakończenia.

time_recent

Filtr TabularDataset ma zawierać tylko określony czas (ilość) ostatnich danych.

to_csv_files

Przekonwertuj bieżący zestaw danych na FileDataset zawierający pliki CSV.

Uzyskany zestaw danych będzie zawierać jeden lub więcej plików CSV, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są istotne, dopóki nie zostaną pobrane lub odczytane.

to_dask_dataframe

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Zwróć Daską ramkę danych, która może opóźnieniem odczytywać dane z zestawu danych.

to_pandas_dataframe

Załaduj wszystkie rekordy z zestawu danych do Pandas Dataframe.

to_parquet_files

Przekonwertuj bieżący zestaw danych na FileDataset zawierający pliki Parquet.

Utworzony zestaw danych będzie zawierać jeden lub więcej plików Parquet, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są istotne, dopóki nie zostaną pobrane lub odczytane.

to_spark_dataframe

Załaduj wszystkie rekordy z zestawu danych do ramki Dataframe.

with_timestamp_columns

Zdefiniuj kolumny sygnatur czasowych dla zestawu danych.

drop_columns

Porzuć określone kolumny z zestawu danych.

Jeśli kolumna szeregów czasowych zostanie porzucona, odpowiednie możliwości zostaną usunięte również dla zwróconego zestawu danych.

drop_columns(columns)

Parametry

columns
Union[str, list[str]]

Nazwa lub lista nazw kolumn do usunięcia.

Zwraca

Zwraca nowy obiekt TabularDataset z porzuconymi określonymi kolumnami.

Typ zwracany

filter

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Przefiltruj dane, pozostawiając tylko te rekordy, które pasują do określonego wyrażenia.

filter(expression)

Parametry

expression
any

Wyrażenie, które ma zostać obliczone.

Zwraca

Zmodyfikowany zestaw danych (niezarejestrowany).

Typ zwracany

Uwagi

Wyrażenia są uruchamiane przez indeksowanie zestawu danych z nazwą kolumny. Obsługują one różne funkcje i operatory i mogą być połączone przy użyciu operatorów logicznych. Wyrażenie wyniku zostanie opóźnieniem oceniane dla każdego rekordu, gdy następuje ściąganie danych, a nie w miejscu, w którym jest zdefiniowane.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Pobierz profil danych z najnowszego przebiegu profilu przesłanego dla tego lub tego samego zestawu danych w obszarze roboczym.

get_profile(workspace=None)

Parametry

workspace
Workspace

Obszar roboczy, w którym został przesłany profil uruchomienia. Domyślnie jest to obszar roboczy tego zestawu danych. Wymagane, jeśli zestaw danych nie jest skojarzony z obszarem roboczym. https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspaceAby uzyskać więcej informacji na temat obszarów roboczych, zobacz.

Zwraca

Wynik profilu z najnowszego przebiegu profilu typu DatasetProfile.

Typ zwracany

get_profile_runs

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Zwróć poprzednie uruchomienia profilu skojarzone z tym lub tym samym zestawem danych w obszarze roboczym.

get_profile_runs(workspace=None)

Parametry

workspace
Workspace

Obszar roboczy, w którym został przesłany profil uruchomienia. Domyślnie jest to obszar roboczy tego zestawu danych. Wymagane, jeśli zestaw danych nie jest skojarzony z obszarem roboczym. https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspaceAby uzyskać więcej informacji na temat obszarów roboczych, zobacz.

Zwraca

obiekt iteratora typu Azure. Core. Run.

Typ zwracany

keep_columns

Zachowaj określone kolumny i porzuca wszystkie pozostałe z zestawu danych.

Jeśli kolumna szeregów czasowych zostanie porzucona, odpowiednie możliwości zostaną usunięte również dla zwróconego zestawu danych.

keep_columns(columns, validate=False)

Parametry

columns
Union[str, list[str]]

Nazwa lub lista nazw kolumn, które mają być zachowane.

validate
bool

Wskazuje, czy należy sprawdzić, czy można załadować dane z zwróconego zestawu danych. Wartość domyślna to false. Walidacja wymaga, aby źródło danych było dostępne z bieżącego obliczenia.

Zwraca

Zwraca nowy obiekt TabularDataset, w którym przechowywane są tylko określone kolumny.

Typ zwracany

partition_by

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Partycjonowane dane zostaną skopiowane i wydane wyjściowe do miejsca docelowego określonego przez element docelowy.

Utwórz zestaw danych z wydanej ścieżki danych z formatem partycji, zarejestruj zestaw danych, jeśli podano nazwę, zwróć zestaw danych dla nowej ścieżki danych z partycjami


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parametry

partition_keys
list[str]

partition_keys

target
DataPath, Datastore lub tuple(Datastore, str)object

Wymagana, ścieżka magazynu danych, do której zostaną przekazane dane Parquet Dataframe. Folder GUID zostanie wygenerowany pod ścieżką docelową, aby uniknąć konfliktu.

partition_keys
list[str]

klucze partycji

show_progress
bool

Opcjonalne, wskazuje, czy pokazywać postęp przekazywania w konsoli programu. Wartość domyślna to true.

partition_as_file_dataset

Opcjonalne, wskazuje, czy zwraca filedataset, czy nie. Wartość domyślna to false.

Zwraca

Zapisany lub zarejestrowany zestaw danych.

Typ zwracany

random_split

Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu o określoną wartość procentową.

Pierwszy zestaw danych zawiera około percentage wszystkich rekordów i drugi zestaw danych jako pozostałe rekordy.

random_split(percentage, seed=None)

Parametry

percentage
float

Przybliżona wartość procentowa podziału zestawu danych przez. Musi to być liczba z zakresu od 0,0 do 1,0.

seed
int

Opcjonalny inicjator do użycia dla generatora losowego.

Zwraca

Zwraca krotkę nowych obiektów TabularDataset reprezentujących dwa zestawy danych po podzbiorze.

Typ zwracany

skip

Pomiń rekordy z góry zestawu danych przez określoną liczbę.

skip(count)

Parametry

count
int

Liczba rekordów do pominięcia.

Zwraca

Zwraca nowy obiekt TabularDataset reprezentujący zestaw danych zawierający rekordy pominięte.

Typ zwracany

submit_profile_run

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Prześlij przebieg eksperymentowania, aby obliczyć profil danych.

Profil danych może być bardzo użyteczny, aby zrozumieć dane wejściowe, zidentyfikować anomalie i brakujące wartości, dostarczając przydatne informacje dotyczące danych, takich jak typ kolumny, brakujące wartości itd.

submit_profile_run(compute_target, experiment)

Parametry

compute_target
Union[str, ComputeTarget]

Obiekt docelowy obliczeń, dla którego ma zostać uruchomiony eksperyment obliczania profilu. Określ element "Local", aby użyć lokalnego obliczania. https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetargetAby uzyskać więcej informacji na temat obiektów docelowych obliczeń, zobacz.

experiment
Experiment

Obiekt eksperymentu. https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experimentAby uzyskać więcej informacji na temat eksperymentów, zobacz.

Zwraca

Obiekt typu Klasa DatasetProfileRun.

Typ zwracany

take

Zapoznaj się z przykładem rekordów z góry zestawu danych przez określoną liczbę.

take(count)

Parametry

count
int

Liczba rekordów do wykonania.

Zwraca

Zwraca nowy obiekt TabularDataset reprezentujący próbkowany zestaw danych.

Typ zwracany

take_sample

Pobiera losowo losową liczbę rekordów w zestawie danych w przybliżeniu według określonego prawdopodobieństwa.

take_sample(probability, seed=None)

Parametry

probability
float

Prawdopodobieństwo uwzględnienia rekordu w próbce.

seed
int

Opcjonalny inicjator do użycia dla generatora losowego.

Zwraca

Zwraca nowy obiekt TabularDataset reprezentujący próbkowany zestaw danych.

Typ zwracany

time_after

Filtruj TabularDataset z kolumnami sygnatur czasowych po określonym czasie rozpoczęcia.

time_after(start_time, include_boundary=True, validate=True)

Parametry

start_time
datetime

Dolna granica filtrowania danych.

include_boundary
bool

Wskaż, czy wiersz skojarzony z czasem granicy ( start_time ) powinien być uwzględniony.

validate
bool

Wskazuje, czy w zestawie danych istnieją określone kolumny. Wartość domyślna to true. Walidacja wymaga, aby źródło danych było dostępne z bieżącego obliczenia.

Zwraca

TabularDataset z nowym filtrowanym zestawem danych.

Typ zwracany

time_before

Filtruj TabularDataset z kolumnami sygnatur czasowych przed określonym czasem zakończenia.

time_before(end_time, include_boundary=True, validate=True)

Parametry

end_time
datetime

Górna granica dla filtrowania danych.

include_boundary
bool

Wskaż, czy wiersz skojarzony z czasem granicy ( end_time ) powinien być uwzględniony.

validate
bool

Wskazuje, czy w zestawie danych istnieją określone kolumny. Wartość domyślna to true. Walidacja wymaga, aby źródło danych było dostępne z bieżącego obliczenia.

Zwraca

TabularDataset z nowym filtrowanym zestawem danych.

Typ zwracany

time_between

Filtr TabularDataset między określonym czasem rozpoczęcia i zakończenia.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parametry

start_time
datetime

Dolna granica filtrowania danych.

end_time
datetime

Górna granica dla filtrowania danych.

include_boundary
bool

Wskaż, czy wiersz skojarzony z czasem granicy ( start_end i end_time ) powinien być uwzględniony.

validate
bool

Wskazuje, czy w zestawie danych istnieją określone kolumny. Wartość domyślna to true. Walidacja wymaga, aby źródło danych było dostępne z bieżącego obliczenia.

Zwraca

TabularDataset z nowym filtrowanym zestawem danych.

Typ zwracany

time_recent

Filtr TabularDataset ma zawierać tylko określony czas (ilość) ostatnich danych.

time_recent(time_delta, include_boundary=True, validate=True)

Parametry

time_delta
timedelta

Czas trwania (ilość) ostatnich danych do pobrania.

include_boundary
bool

Wskaż, czy wiersz skojarzony z czasem granicy ( time_delta ) powinien być uwzględniony.

validate
bool

Wskazuje, czy w zestawie danych istnieją określone kolumny. Wartość domyślna to true. Walidacja wymaga, aby źródło danych było dostępne z bieżącego obliczenia.

Zwraca

TabularDataset z nowym filtrowanym zestawem danych.

Typ zwracany

to_csv_files

Przekonwertuj bieżący zestaw danych na FileDataset zawierający pliki CSV.

Uzyskany zestaw danych będzie zawierać jeden lub więcej plików CSV, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są istotne, dopóki nie zostaną pobrane lub odczytane.

to_csv_files(separator=',')

Parametry

separator
str

Separator, który ma zostać użyty do oddzielenia wartości w pliku będącym wynikiem.

Zwraca

Zwraca nowy obiekt FileDataset z zestawem plików CSV zawierającym dane z tego zestawu danych.

Typ zwracany

to_dask_dataframe

Uwaga

Jest to Metoda doświadczalna i może ulec zmianie w dowolnym momencie.
Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Zwróć Daską ramkę danych, która może opóźnieniem odczytywać dane z zestawu danych.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parametry

sample_size

Liczba rekordów do odczytu w celu określenia schematu i typów.

dtypes

Opcjonalne DICT określające oczekiwane kolumny i ich dtypes. SAMPLE_SIZE jest ignorowany, jeśli jest podany.

on_error

Jak obsłużyć wszelkie wartości błędów w zestawie danych, takie jak te utworzone przez błąd podczas analizowania wartości. Prawidłowe wartości to "null", które zamieniają je na wartość null; i "Niepowodzenie" spowoduje wyjątek.

out_of_range_datetime

Jak obsłużyć wartości daty i godziny, które są poza zakresem obsługiwanym przez Pandas. Prawidłowe wartości to "null", które zamieniają je na wartość null; i "Niepowodzenie" spowoduje wyjątek.

Zwraca

dask. Dataframe. Core. Dataframe

to_pandas_dataframe

Załaduj wszystkie rekordy z zestawu danych do Pandas Dataframe.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parametry

on_error

Jak obsłużyć wszelkie wartości błędów w zestawie danych, takie jak te utworzone przez błąd podczas analizowania wartości. Prawidłowe wartości to "null", które zamieniają je na wartość null; i "Niepowodzenie" spowoduje wyjątek.

out_of_range_datetime

Jak obsłużyć wartości daty i godziny, które są poza zakresem obsługiwanym przez Pandas. Prawidłowe wartości to "null", które zamieniają je na wartość null; i "Niepowodzenie" spowoduje wyjątek.

Zwraca

Zwraca pandasą ramkę danych.

Typ zwracany

to_parquet_files

Przekonwertuj bieżący zestaw danych na FileDataset zawierający pliki Parquet.

Utworzony zestaw danych będzie zawierać jeden lub więcej plików Parquet, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są istotne, dopóki nie zostaną pobrane lub odczytane.

to_parquet_files()

Zwraca

Zwraca nowy obiekt FileDataset z zestawem plików Parquet zawierających dane w tym zestawie danych.

Typ zwracany

to_spark_dataframe

Załaduj wszystkie rekordy z zestawu danych do ramki Dataframe.

to_spark_dataframe()

Zwraca

Zwraca ramkę Spark.

Typ zwracany

with_timestamp_columns

Zdefiniuj kolumny sygnatur czasowych dla zestawu danych.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parametry

timestamp
str

Nazwa kolumny jako sygnatura czasowa (używana do nazywania fine_grain_timestamp) (opcjonalnie). Wartość domyślna to None (Wyczyść).

partition_timestamp
str

Nazwa kolumny partition_timestamp (używana jako sygnatura czasowa grubego ziarna) (opcjonalnie). Wartość domyślna to None (Wyczyść).

validate
bool

Wskazuje, czy w zestawie danych istnieją określone kolumny. Wartość domyślna to false. Walidacja wymaga, aby źródło danych było dostępne z bieżącego obliczenia.

Zwraca

Zwraca nowe TabularDataset z zdefiniowanymi kolumnami sygnatur czasowych.

Typ zwracany

Uwagi

Metoda definiuje kolumny, które mają być używane jako sygnatury czasowe. Kolumny znaczników czasu w zestawie danych umożliwiają traktowanie danych jako danych szeregów czasowych i włączenie dodatkowych funkcji. Gdy zestaw danych ma zarówno timestamp (used to be referred as fine_grain_timestamp) i partition_timestamp (used to be referred as coarse grain timestamp) określony, dwie kolumny powinny reprezentować tę samą oś czasu.

Atrybuty

timestamp_columns

Zwróć kolumny sygnatur czasowych.

Zwraca

Nazwy kolumn dla sygnatury czasowej (używane do określenia jako fine_grain_timestamp) i partition_timestamp (używane do nazywania grubego znacznika czasu ziarna) zdefiniowanego dla zestawu danych.

Typ zwracany

(str, str)