TabularDataset Třída

Reference

Představuje tabulkovou datovou sadu, která se má použít ve službě Azure Machine Learning.

TabularDataset definuje řadu líně vyhodnocovaných, neměnných operací pro načtení dat ze zdroje dat do tabulkové reprezentace. Data se nenačtou ze zdroje, dokud se nepožádá o doručení dat TabularDataset.

TabularDataset se vytvoří pomocí metod, jako from_delimited_files je třída TabularDatasetFactory .

Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook.

Inicializuje objekt TabularDataset.

Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí TabularDatasetFactory třídy.

Dědičnost: AbstractDataset

TabularDataset

Konstruktor

TabularDataset()

Poznámky

TabularDataset lze vytvořit ze souborů CSV, TSV, Parquet nebo dotazu SQL pomocí from_* metod TabularDatasetFactory třídy . Se sadou TabularDataset můžete provádět operace podnastavení, jako je rozdělení, přeskočení a filtrování záznamů. Výsledkem podnastavení je vždy jeden nebo více nových objektů TabularDataset.

Tabulkovou datovou sadu můžete také převést do jiných formátů, jako je datový rámec pandas. Ke skutečnému načtení dat dochází, když je objekt TabularDataset požádán o doručení dat do jiného mechanismu úložiště (např. do datového rámce Pandas nebo do souboru CSV).

TabularDataset lze použít jako vstup spuštění experimentu. Můžete ho také zaregistrovat do pracovního prostoru se zadaným názvem a později ho načíst.

Metody

download	Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Stáhněte datové proudy souborů definované datovou sadou do místní cesty.
drop_columns	Odstraňte zadané sloupce z datové sady. Pokud se sloupec timeseries vynechá, odpovídající funkce se zahodí i pro vrácenou datovou sadu.
filter	Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Filtrujte data a ponechte pouze záznamy, které odpovídají zadanému výrazu.
get_profile	Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Získejte profil dat z nejnovějšího spuštění profilu odeslaného pro tuto nebo stejnou datovou sadu v pracovním prostoru.
get_profile_runs	Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Vrátit předchozí spuštění profilu přidružená k této nebo stejné datové sadě v pracovním prostoru.
keep_columns	Zachovejte zadané sloupce a vyhodí všechny ostatní z datové sady. Pokud se sloupec timeseries vynechá, odpovídající funkce se zahodí i pro vrácenou datovou sadu.
mount	Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Vytvořte správce kontextu pro připojení datových proudů souborů definovaných datovou sadou jako místní soubory.
partition_by	Dělená data se zkopírují a vydají do cíle určeného cílem. vytvoření datové sady z výstupní cesty k datům ve formátu oddílu, registrace datové sady, pokud je zadaný název, vrácení datové sady pro novou cestu k datům s oddíly `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	Rozdělte záznamy v datové sadě na dvě části náhodně a přibližně podle zadaného procenta. První datová sada obsahuje přibližně `percentage` celkový počet záznamů a druhá datová sada zbývající záznamy.
skip	Přeskočí záznamy z horní části datové sady podle zadaného počtu.
submit_profile_run	Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Odešlete spuštění experimentování pro výpočet profilu dat. Profil dat může být velmi užitečný pro pochopení vstupních dat, identifikaci anomálií a chybějících hodnot poskytnutím užitečných informací o datech, jako je typ sloupce, chybějící hodnoty atd.
take	Vezměte vzorek záznamů z horní části datové sady podle zadaného počtu.
take_sample	Vezměte náhodný vzorek záznamů v datové sadě přibližně podle zadané pravděpodobnosti.
time_after	Vyfiltrujte tabulkovou datovou sadu se sloupci časového razítka po zadaném čase zahájení.
time_before	Filtrování tabulkových dat se sloupci s časovým razítkem před zadaným koncovým časem.
time_between	Filtrování TabularDataset mezi zadaným počátečním a koncovým časem.
time_recent	Filtr TabularDataset tak, aby obsahoval pouze zadanou dobu trvání (množství) posledních dat.
to_csv_files	Převeďte aktuální datovou sadu na FileDataset obsahující soubory CSV. Výsledná datová sada bude obsahovat jeden nebo více souborů CSV, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z.
to_dask_dataframe	Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Vrátí datový rámec Dask, který může líně číst data v datové sadě.
to_pandas_dataframe	Načtěte všechny záznamy z datové sady do datového rámce pandas.
to_parquet_files	Převeďte aktuální datovou sadu na FileDataset obsahující soubory Parquet. Výsledná datová sada bude obsahovat jeden nebo více souborů Parquet, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z.
to_spark_dataframe	Načtěte všechny záznamy z datové sady do datového rámce Sparku.
with_timestamp_columns	Definujte sloupce časového razítka pro datovou sadu.

download

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Stáhněte datové proudy souborů definované datovou sadou do místní cesty.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parametry

stream_column: str

Vyžadováno

Sloupec streamu, který se má stáhnout.

target_path: str

Vyžadováno

Místní adresář, do který se mají soubory stáhnout. Pokud žádná, data se stáhnou do dočasného adresáře.

overwrite: bool

Vyžadováno

Určuje, zda se mají přepsat existující soubory. Výchozí hodnota je Nepravda. Existující soubory budou přepsány, pokud je přepsání nastaveno na True; jinak bude vyvolána výjimka.

ignore_not_found: bool

Vyžadováno

Označuje, jestli se stažení nezdaří, pokud se některé soubory odkazované datovou sadou nenajdou. Výchozí hodnota je True. Stahování selže, pokud jakýkoli soubor z nějakého důvodu selže, pokud je ignore_not_found nastavena na False; v opačném případě bude protokolován waring pro chyby nenalezena a dowload bude úspěšné, pokud nejsou zjištěny žádné jiné typy chyb.

Návraty

Vrátí pole cest k souborům pro každý stažený soubor.

Návratový typ

ndarray

drop_columns

Odstraňte zadané sloupce z datové sady.

Pokud se sloupec timeseries vynechá, odpovídající funkce se zahodí i pro vrácenou datovou sadu.

drop_columns(columns)

Parametry

columns: Union[str, list[str]]

Vyžadováno

Název nebo seznam názvů sloupců, které se mají odstranit.

Návraty

Vrátí nový Objekt TabularDataset se zadanými sloupci vynechanými.

Návratový typ

TabularDataset

filter

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Filtrujte data a ponechte pouze záznamy, které odpovídají zadanému výrazu.

filter(expression)

Parametry

expression: any

Vyžadováno

Výraz, který se má vyhodnotit.

Návraty

Upravená datová sada (neregistrovaná).

Návratový typ

TabularDataset

Poznámky

Výrazy se spouští indexováním datové sady s názvem sloupce. Podporují různé funkce a operátory a dají se kombinovat pomocí logických operátorů. Výsledný výraz se bude líně vyhodnocovat pro každý záznam, když dojde k vyžádání dat, a ne tam, kde je definován.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Získejte profil dat z nejnovějšího spuštění profilu odeslaného pro tuto nebo stejnou datovou sadu v pracovním prostoru.

get_profile(workspace=None)

Parametry

workspace: Workspace

Vyžadováno

Pracovní prostor, do kterého bylo odesláno spuštění profilu. Výchozí hodnota je pracovní prostor této datové sady. Vyžaduje se, pokud datová sada není přidružená k pracovnímu prostoru. Další informace o pracovních prostorech najdete v tématu https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Návraty

Výsledek profilu z nejnovějšího spuštění profilu typu DatasetProfile.

Návratový typ

DatasetProfile

get_profile_runs

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vrátit předchozí spuštění profilu přidružená k této nebo stejné datové sadě v pracovním prostoru.

get_profile_runs(workspace=None)

Parametry

workspace: Workspace

Vyžadováno

Návraty

objekt iterator typu azureml.core.Run.

Návratový typ

iter(Run)

keep_columns

Zachovejte zadané sloupce a vyhodí všechny ostatní z datové sady.

Pokud se sloupec timeseries vynechá, odpovídající funkce se zahodí i pro vrácenou datovou sadu.

keep_columns(columns, validate=False)

Parametry

columns: Union[str, list[str]]

Vyžadováno

Název nebo seznam názvů sloupců, které se mají zachovat.

validate: bool

Vyžadováno

Určuje, jestli se má ověřit, jestli je možné načíst data z vrácené datové sady. Výchozí hodnota je Nepravda. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálních výpočetních prostředků.

Návraty

Vrátí nový Objekt TabularDataset se zachováním pouze zadaných sloupců.

Návratový typ

TabularDataset

mount

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vytvořte správce kontextu pro připojení datových proudů souborů definovaných datovou sadou jako místní soubory.

mount(stream_column, mount_point=None)

Parametry

stream_column: str

Vyžadováno

Sloupec datového proudu, který chcete připojit.

mount_point: str

Vyžadováno

Místní adresář, ke které se mají soubory připojit. Pokud žádná, data se připojí k dočasnému adresáři, který můžete najít voláním MountContext.mount_point metody instance.

Návraty

Vrátí správce kontextu pro správu životního cyklu připojení.

Návratový typ

<xref:azureml.dataprep.fuse.daemon.MountContext>

partition_by

Dělená data se zkopírují a vydají do cíle určeného cílem.

vytvoření datové sady z výstupní cesty k datům ve formátu oddílu, registrace datové sady, pokud je zadaný název, vrácení datové sady pro novou cestu k datům s oddíly


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parametry

partition_keys: list[str]

Vyžadováno

Povinné, klíče oddílů

target: DataPath, Datastore nebo tuple(Datastore, str) object

Vyžadováno

Vyžaduje se cesta k úložišti dat, kam se data parquet datového rámce nahrají. Složka guid se vygeneruje pod cílovou cestou, aby se zabránilo konfliktu.

name: str

Vyžadováno

Nepovinný název registrace.

show_progress: bool

Vyžadováno

Volitelné– označuje, jestli se má v konzole zobrazit průběh nahrávání. Výchozí hodnota je Pravda.

partition_as_file_dataset

Vyžadováno

Volitelné, označuje, jestli vrací filedataset nebo ne. Výchozí hodnota je False.

Návraty

Uložená nebo registrovaná datová sada.

Návratový typ

TabularDataset

random_split

Rozdělte záznamy v datové sadě na dvě části náhodně a přibližně podle zadaného procenta.

První datová sada obsahuje přibližně percentage celkový počet záznamů a druhá datová sada zbývající záznamy.

random_split(percentage, seed=None)

Parametry

percentage: float

Vyžadováno

Přibližné procento, podle které se má datová sada rozdělit. Musí to být číslo mezi 0,0 a 1,0.

seed: int

Vyžadováno

Volitelná počáteční hodnota, která se použije pro generátor náhodných.

Návraty

Vrátí řazenou kolekci členů nových objektů TabularDataset, které představují dvě datové sady po rozdělení.

Návratový typ

(TabularDataset, TabularDataset)

skip

Přeskočí záznamy z horní části datové sady podle zadaného počtu.

skip(count)

Parametry

count: int

Vyžadováno

Počet záznamů, které se mají přeskočit.

Návraty

Vrátí nový objekt TabularDataset představující datovou sadu se záznamy vynechanými.

Návratový typ

TabularDataset

submit_profile_run

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Odešlete spuštění experimentování pro výpočet profilu dat.

Profil dat může být velmi užitečný pro pochopení vstupních dat, identifikaci anomálií a chybějících hodnot poskytnutím užitečných informací o datech, jako je typ sloupce, chybějící hodnoty atd.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parametry

compute_target: Union[str, ComputeTarget]

Vyžadováno

Cílový výpočetní objekt, na který se má spustit experiment výpočtu profilu. Pokud chcete použít místní výpočetní prostředky, zadejte "local". Další informace o cílových výpočetních objektech najdete v tématu https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget .

experiment: Experiment

Vyžadováno

Objekt experimentu. Další informace o experimentech najdete v tématu https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment .

cache_datastore_name: str

Vyžadováno

název úložiště dat pro uložení mezipaměti profilu, pokud žádné, použije se výchozí úložiště dat.

Návraty

Objekt typu DatasetProfileRun třídy.

Návratový typ

DatasetProfileRun

take

Vezměte vzorek záznamů z horní části datové sady podle zadaného počtu.

take(count)

Parametry

count: int

Vyžadováno

Počet záznamů, které se mají pořídit.

Návraty

Vrátí nový objekt TabularDataset představující vzorkovanou datovou sadu.

Návratový typ

TabularDataset

take_sample

Vezměte náhodný vzorek záznamů v datové sadě přibližně podle zadané pravděpodobnosti.

take_sample(probability, seed=None)

Parametry

probability: float

Vyžadováno

Pravděpodobnost zahrnutí záznamu do vzorku.

seed: int

Vyžadováno

Volitelná počáteční hodnota, která se použije pro generátor náhodných.

Návraty

Vrátí nový objekt TabularDataset představující vzorkovanou datovou sadu.

Návratový typ

TabularDataset

time_after

Vyfiltrujte tabulkovou datovou sadu se sloupci časového razítka po zadaném čase zahájení.

time_after(start_time, include_boundary=True, validate=True)

Parametry

start_time: datetime

Vyžadováno

Dolní mez pro filtrování dat.

include_boundary: bool

Vyžadováno

Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (start_time).

validate: bool

Vyžadováno

Určuje, jestli se má ověřit, jestli v datové sadě existují zadané sloupce. Výchozí hodnota je True. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.

Návraty

A TabularDataset s novou filtrovanou datovou sadou.

Návratový typ

TabularDataset

time_before

Filtrování tabulkových dat se sloupci s časovým razítkem před zadaným koncovým časem.

time_before(end_time, include_boundary=True, validate=True)

Parametry

end_time: datetime

Vyžadováno

Horní mez pro filtrování dat.

include_boundary: bool

Vyžadováno

Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (end_time).

validate: bool

Vyžadováno

Návraty

A TabularDataset s novou filtrovanou datovou sadou.

Návratový typ

TabularDataset

time_between

Filtrování TabularDataset mezi zadaným počátečním a koncovým časem.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parametry

start_time: datetime

Vyžadováno

Dolní mez pro filtrování dat.

end_time: datetime

Vyžadováno

Horní mez pro filtrování dat.

include_boundary: bool

Vyžadováno

Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (start_end a end_time).

validate: bool

Vyžadováno

Návraty

A TabularDataset s novou filtrovanou datovou sadou.

Návratový typ

TabularDataset

time_recent

Filtr TabularDataset tak, aby obsahoval pouze zadanou dobu trvání (množství) posledních dat.

time_recent(time_delta, include_boundary=True, validate=True)

Parametry

time_delta: timedelta

Vyžadováno

Doba trvání (množství) posledních dat, která se mají načíst.

include_boundary: bool

Vyžadováno

Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (time_delta).

validate: bool

Vyžadováno

Návraty

A TabularDataset s novou filtrovanou datovou sadou.

Návratový typ

TabularDataset

to_csv_files

Převeďte aktuální datovou sadu na FileDataset obsahující soubory CSV.

Výsledná datová sada bude obsahovat jeden nebo více souborů CSV, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z.

to_csv_files(separator=',')

Parametry

separator: str

Vyžadováno

Oddělovač, který se použije k oddělení hodnot ve výsledném souboru.

Návraty

Vrátí nový objekt FileDataset se sadou souborů CSV obsahujících data v této datové sadě.

Návratový typ

FileDataset

to_dask_dataframe

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vrátí datový rámec Dask, který může líně číst data v datové sadě.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parametry

sample_size

Vyžadováno

Počet záznamů, které se mají přečíst pro určení schématu a typů.

dtypes

Vyžadováno

Volitelný dikt, který určuje očekávané sloupce a jejich typy dtype. sample_size se ignoruje, pokud je tato možnost zadaná.

on_error

Vyžadováno

Zpracování chybových hodnot v datové sadě, například chybových hodnot vytvořených chybou při analýze hodnot Platné hodnoty jsou null, které je nahradí hodnotou null; a "fail", což bude mít za následek výjimku.

out_of_range_datetime

Vyžadováno

Jak zpracovávat hodnoty data a času, které jsou mimo rozsah podporovaný knihovnou Pandas. Platné hodnoty jsou null, které je nahradí hodnotou null; a "fail", což bude mít za následek výjimku.

Návraty

dask.dataframe.core.DataFrame

to_pandas_dataframe

Načtěte všechny záznamy z datové sady do datového rámce pandas.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parametry

on_error

Vyžadováno

out_of_range_datetime

Vyžadováno

Návraty

Vrátí datový rámec pandas.

Návratový typ

DataFrame

to_parquet_files

Převeďte aktuální datovou sadu na FileDataset obsahující soubory Parquet.

Výsledná datová sada bude obsahovat jeden nebo více souborů Parquet, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z.

to_parquet_files()

Návraty

Vrátí nový FileDataset objekt se sadou souborů Parquet obsahující data v této datové sadě.

Návratový typ

FileDataset

to_spark_dataframe

Načtěte všechny záznamy z datové sady do datového rámce Sparku.

to_spark_dataframe()

Návraty

Vrátí datový rámec Sparku.

Návratový typ

DataFrame

with_timestamp_columns

Definujte sloupce časového razítka pro datovou sadu.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parametry

timestamp: str

Vyžadováno

Název sloupce jako časové razítko (označuje se jako fine_grain_timestamp) (volitelné). Výchozí hodnota je None(clear).

partition_timestamp: str

Vyžadováno

Název sloupce partition_timestamp (označuje se jako hrubé časové razítko agregačního intervalu) (volitelné). Výchozí hodnota je None(clear).

validate: bool

Vyžadováno

Určuje, jestli se má ověřit, jestli v datové sadě existují zadané sloupce. Výchozí hodnota je Nepravda. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.

Návraty

Vrátí novou tabulkovou datovou sadu s definovanými sloupci časového razítka.

Návratový typ

TabularDataset

Poznámky

Metoda definuje sloupce, které se mají použít jako časová razítka. Sloupce časového razítka v datové sadě umožňují zacházet s daty jako s daty časových řad a umožňují další možnosti. Pokud má datová sada zadané hodnoty i timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp) , měly by tyto dva sloupce představovat stejnou časovou osu.

Atributy

timestamp_columns

Vrátí sloupce časového razítka.

Návraty

Názvy sloupců pro časové razítko (označované jako fine_grain_timestamp) a partition_timestamp (označují se jako časové razítko hrubého agregačního intervalu) definované pro datovou sadu.

Návratový typ

(str, str)